Tải bản đầy đủ (.pdf) (60 trang)

Xây dựng mô hình biểu diễn vectơ sản phẩm thương mại điện tử dựa trên phương pháp khai phá đồ thị​

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.57 MB, 60 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Trần Minh Tuấn

XÂY DỰNG MƠ HÌNH BIỂU DIỄN VECTƠ SẢN PHẨM THƯƠNG
MẠI ĐIỆN TỬ DỰA TRÊN PHƯƠNG PHÁP KHAI PHÁ ĐỒ THỊ

LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH

HÀ NỘI - 2020


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Trần Minh Tuấn

XÂY DỰNG MƠ HÌNH BIỂU DIỄN VECTƠ SẢN PHẨM THƯƠNG
MẠI ĐIỆN TỬ DỰA TRÊN PHƯƠNG PHÁP KHAI PHÁ ĐỒ THỊ

Ngành:

Khoa học máy tính

Chuyên ngành: Khoa học máy tính
Mã số:

8480101.01

LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH


NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. VÕ ĐÌNH HIẾU

HÀ NỘI - 2020


VIETNAM NATIONAL UNIVERSITY, HANOI
UNIVERSITY OF ENGINEERING AND TECHNOLOGY

Tran Minh Tuan

A PROPOSED MODEL FOR VECTOR REPRESENTATION OF
E-COMMERCE PRODUCTS BASED ON GRAPH EMBEDDING

THE MASTER THESIS
Major: Computer Science

Supervisor: Dr. Vo Dinh Hieu

HANOI - 2020


Lời cam đoan
Tôi là Trần Minh Tuấn, học viên cao học lớp K26-KHMT, ngành Khoa học thông
tin. Tôi xin cam đoan luận văn “Xây dựng mơ hình biểu diễn vectơ sản phẩm
thương mại điện tử dựa trên phương pháp khai phá đồ thị” là cơng trình nghiên
cứu, xây dựng của riêng mình. Các nội dung nghiên cứu, kết quả trong luận văn
là xác thực.
Các thông tin sử dụng trong luận văn là có cơ sở và khơng có nội dung nào sao
chép từ các tài liệu mà không ghi rõ trích dẫn tham khảo. Tơi xin chịu trách nhiệm
về lời cam đoan này.

Hà Nội, ngày . . . tháng . . . năm 2020
Học viên cao học

Trần Minh Tuấn

i


Lời cảm ơn
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc tới thầy TS. Võ Đình
Hiếu, người đã tận tình hướng dẫn và chỉ bảo tôi trong suốt thời gian học tập bốn
năm đại học, hai năm cao học và đặt biệt là thời gian thực hiện luận văn thạc sỹ.
Tôi cũng xin chân thành cảm ơn các thầy, cô trong trường Đại học Công Nghệ và
sự hỗ trợ của đề tài QG.18.61 của Đại học Quốc gia Hà Nội đã tạo mọi điều kiện
thuận lợi cho tôi học tập và nghiên cứu.
Tôi cũng xin cảm ơn đồng nghiệp tại Công ty Cổ phần Khoa học Dữ liệu đã hỗ
trợ thiết bị phần cứng, đóng góp dữ liệu cho đề tài này.
Tơi xin gửi lời cảm ơn đến các thầy cô, các anh chị, các bạn trong phịng thí nghiệm
của bộ mơn Cơng nghệ phần mềm đã hỗ trợ tôi rất nhiều về kiến thức chun mơn
trong q trình thực hiện luận văn.
Tơi xin cảm ơn các bạn trong lớp K26 đã ủng hộ và khuyến khích tơi trong suốt
q trình học tập tại trường.
Cuối cùng, tôi xin được gửi cám ơn vô hạn tới gia đình, người thân và bạn bè,
những người đã luôn bên cạnh, giúp đỡ và động viên tôi trong những năm tháng
học tập nghiên cứu và trong cuộc sống.
Hà Nội, ngày . . . tháng . . . năm 2020
Học viên

Trần Minh Tuấn


ii


Tóm tắt
Tóm tắt:
Những năm gần đây, các hoạt động trong lĩnh vực thương mại điện tử ngày càng phát
triển tại Việt Nam và quốc tế. Các nền tảng website thương mại điện tử đang nỗ lực đem
lại trải nghiệm tốt hơn cho người mua sắm. Một trong những yếu tố quan trọng của lĩnh
vực này là khả năng xử lý dữ liệu khi số lượng sản phẩm và giao dịch gia tăng mỗi ngày.
Các dữ liệu này sẽ được ứng dụng trong bài toán như gợi ý sản phẩm, phân loại sản phẩm,
trích xuất thơng tin, tìm kiếm sản phẩm.
Nghiên cứu của luận văn tập trung vào mơ hình biểu diễn vectơ sản phẩm giàu thông tin
để làm đầu vào cho các bài toán học máy ứng dụng trong thương mại điện tử. Mơ hình
này sử dụng đặc trưng của thuộc tính sản phẩm và dữ liệu mối quan hệ. Nghiên cứu sử
dụng phương pháp "graph embedding" - học không giám sát các thuộc tính của sản phẩm
từ đồ thị quan hệ. Nghiên cứu cũng chỉ ra sự hiệu quả của mơ hình khi thực nghiệm với
dữ liệu đồ thị sản phẩm hàng chục triệu đỉnh và trăm triệu cạnh quan hệ.
Từ khóa: thương mại điện tử, khai phá đồ thị, vectơ hóa sản phẩm, mạng nơ-ron tích
chập

iii


Abstract
Abstract: In recent years, activities in the field of e-commerce have been increasingly
developing in Vietnam and internationally. E-commerce website platforms are striving to
bring a better experience to shoppers. One of the key factors of this area is the ability to
process data as the number of products and transactions increases every day. These data
will be applied in problems such as product suggestions, product classification, information
extraction, product search.

The thesis’s research focuses on constructing the model product vector representation as
an input to the applied many tasks in e-commerce. This model uses the characteristics of
product attributes and the relationship between them. Research using the method graph
embedding - unsupervised learning of product attributes from the e-commerce graph. The
research also shows the effectiveness of the model when experimenting with millions of
product vertices and hundreds of millions of edges.
Keywords: e-commerce, graph embedding, product embedding, convolution neural network

iv


Mục lục
Lời cam đoan

i

Lời cảm ơn

ii

Tóm tắt

iii

Abstract

iv

Mục lục


v

Danh mục các từ viết tắt và thuật ngữ
Danh sách hình vẽ

vii
ix

Chương 1 Đặt vấn đề

1

1.1 Lý do chọn đề tài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

1.2 Các nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . . . . .

3

1.3 Mục tiêu của luận văn . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

1.4 Cấu trúc luận văn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8

Kết luận chương 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


8

Chương 2 Cơ sở lý thuyết và khảo sát các phương pháp

9

2.1 Cơ sở lý thuyết . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

9

2.1.1 Phương pháp biểu diễn dữ liệu ảnh . . . . . . . . . . . . . . . . .

9

2.1.2 Phương pháp biểu diễn nội dung văn bản . . . . . . . . . . . . .

11

2.1.3 Phương pháp biểu diễn dữ liệu đồ thị . . . . . . . . . . . . . . .

15

2.2 Khảo sát các phương pháp biểu diễn vectơ sản phẩm . . . . . . . . . .

18

2.2.1 Phân tích đặc điểm dữ liệu thương mại điện tử . . . . . . . . . .

18


2.2.2 Biểu diễn sản phẩm bằng nhúng tên sản phẩm . . . . . . . . . .

19

2.2.3 Biểu diễn sản phẩm bằng hình ảnh . . . . . . . . . . . . . . . . .

21

Kết luận chương 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

25

v


Chương 3 Mơ hình biểu diễn vector sản phẩm bằng phương pháp
khai phá đồ thị

26

3.1 Định nghĩa bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

26

3.2 Mô tả phương pháp . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

29

3.3 Đánh giá phương pháp . . . . . . . . . . . . . . . . . . . . . . . . . . .


32

3.3.1 Phương pháp đánh giá mơ hình . . . . . . . . . . . . . . . . . . .

32

3.3.2 Điểm mạnh của phương pháp . . . . . . . . . . . . . . . . . . . .

33

3.3.3 Hạn chế của phương pháp . . . . . . . . . . . . . . . . . . . . . .

33

Kết luận chương 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

34

Chương 4 Thực nghiệm và đánh giá kết quả

35

4.1 Phương pháp và dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . .

35

4.2 Xây dựng hệ thống trong thực tế với dữ liệu lớn . . . . . . . . . . . .

37


4.3 Kết quả thực nghiệm và phân tích . . . . . . . . . . . . . . . . . . . .

41

Kết luận chương 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

42

Chương 5 Kết luận

43

Tài liệu tham khảo

45

vi


Danh mục các từ viết tắt và thuật ngữ
STT Từ viết tắt

Cụm từ tiếng Anh

Cụm từ tiếng Việt

1

TMĐT


E-commerce

Thương mại điện tử

2

GMV

Gross Merchandise Value

Tổng giá trị giao dịch

Deep Learning

Học sâu

Word embedding

Nhúng từ

Graph embedding

Nhúng đồ thị

3
4

Deep
learning
Word embedding

Graph

5

embedding

5

PEBG

6

Product

Embedding

Big Biểu diễn vectơ sản phẩm

Graph

trong đồ thị lớn

CNN

Convolution Neuron Network

Mạng nơ-ron tích chập

7


SVM

Support Vector Machine

Máy vectơ hỗ trợ

8

API

Application Programming Interface

vii

Giao diện lập trình ứng dụng


Danh sách hình vẽ
2.1 Kiến trúc mơ hình mạng nơ-ron tích chập Alexnet . . . . . . . . . . .

10

2.2 Khối residual block trong mơ hình mạng ResNet . . . . . . . . . . . .

11

2.3 Kiến trúc mơ hình mạng ResNet . . . . . . . . . . . . . . . . . . . . .

11


2.4 Kiến trúc mơ hình mạng Inception . . . . . . . . . . . . . . . . . . . .

12

2.5 Mơ hình word2vec kiến trúc CBOW và Skip-gram . . . . . . . . . . .

13

2.6 Sơ đồ kiến trúc Transformer kết hợp với cơ chế attention . . . . . . .

14

2.7 Ví dụ về kết quả thuật toán Random Walk . . . . . . . . . . . . . . .

16

2.8 Ví dụ về kết quả thuật tốn Random Walk trong mơ hình Metapath2Vec 17
2.9 Mơ hình học sâu cơ bản và mơ hình có sử dụng lớp embedding . . . .

19

2.10Mơ hình biểu diễn vectơ bằng dữ liệu tên sản phẩm . . . . . . . . . .

20

2.11Mô hình biểu diễn vectơ bằng dữ liệu ảnh sản phẩm . . . . . . . . . .

22

2.12So sánh độ chính xác phân loại ảnh giữa các mơ hình nhúng ảnh

(image embedding) . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

24

3.1 Ví dụ đồ thị quan hệ sản phẩm thương mại điện tử . . . . . . . . . .

28

3.2 Q trình mơ hình xếp hạng điểm của các cạnh quan hệ . . . . . . .

31

3.3 Mơ hình nhúng đồ thị TransE . . . . . . . . . . . . . . . . . . . . . . .

32

4.1 Thống kê sản phẩm theo ngành hàng . . . . . . . . . . . . . . . . . . .

35

4.2 Ví dụ bản ghi dữ liệu sản phẩm thương mại điện tử . . . . . . . . . .

36

4.3 Biểu đồ dòng chảy hệ thống biểu diễn vectơ sản phẩm . . . . . . . . .

38

4.4 Kết quả sản phẩm gợi ý lựa chọn khác . . . . . . . . . . . . . . . . . .


42

viii


Danh sách bảng
1.1 Các yếu tố ảnh hưởng đến quyết định mua hàng trực tuyến . . . . . .

2

1.2 Các thành phần dữ liệu trong thương mại điện tử . . . . . . . . . . .

4

2.1 Ánh xạ dữ liệu đồ thị và mô hình ngơn ngữ tự nhiên . . . . . . . . . .

16

3.1 Thông tin của đỉnh trong dữ liệu đồ thị TMĐT . . . . . . . . . . . . .

27

3.2 Thông tin các quan hệ trong dữ liệu đồ thị TMĐT . . . . . . . . . . .

27

3.3 Hàm biến đổi của mơ hình RESCAL, DistM ult, T ransE , và ComplEx

29


4.1 So sánh kết quả Hits@10, Hits@50 giữa các mơ hình khai phá đồ thị
TMĐT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

ix

41


Chương 1
Đặt vấn đề
Trong chương này sẽ giới thiệu về lý do chọn đề tài. Tiếp đó luận văn sẽ trình bày
các nghiên cứu liên quan về biểu diễn sản phẩm và nghiên cứu về khai phá đồ thị.
Nhiệm vụ của luận văn sẽ được trình bày trong phần cuối của chương.

1.1

Lý do chọn đề tài

Ngành thương mại điện tử (TMĐT) toàn cầu đang tăng trưởng mạnh mẽ và sẽ
đạt 6.54 tỉ đô vào năm 2022 [5]. Tại Việt Nam doanh thu ngành TMĐT đang tăng
9.0% hàng năm và dự đoán năm 2024 tỉ lệ người tham gia mua sắm trực tuyến lên
tới 66.6%1 . Những nền tảng mua sắm trực tuyến quốc tế như Amazon, eBay và ở
Việt Nam như Tiki, Shopee, Lazada tham gia với mơ hình thị trường B2C hoặc
C2C đang có hàng triệu lượt truy cập mỗi ngày. Các nền tảng TMĐT luôn cố gắng
cải tiến dịch vụ để đem lại trải nghiệm tốt hơn khi mua sắm. Số đơn vị tham gia
bán hàng ngày càng gia tăng và có đến hàng chục triệu sản phẩm được đăng bán,
các nền tảng phải đối mặt với việc làm thế nào để phân phối đúng sản phẩm đến
đúng người dùng và đúng thời điểm. Việc này đòi hỏi bộ phận phát triển phần
mềm dành phải nhiều nỗ lực bởi dữ liệu sản phẩm đa dạng trường thông tin chưa
chuẩn hóa, số lượng rất lớn và khơng thể thao tác xử lý thủ công.

Những yếu tố ảnh hưởng đến quyết định mua sắm trực tuyến có thể kể là tính tin
cậy, tương tác ứng dụng, tính an tồn và dịch vụ chăm sóc khách hàng (bảng 1.1).
Trong đó yếu tố trải nghiệm mua sắm trên website và ứng dụng điện thoại ảnh
hưởng rất nhiều đến việc ra quyết định mua hàng.
Để nâng cao chất lượng dịch vụ, các nền tảng thương mại điện tử cần tập trung
nâng cao trải nghiệm mua sắm và giải quyết vấn đề về dữ liệu. Bằng việc áp dụng
phương pháp học máy, một số công việc này đã được xử lý tự động hoặc bán tự
động. Gần đây nhiều công bố nghiên cứu về kĩ thuật học sâu (Deep learning) từ
1

/>
e-conomy-sea-unlocking-200b-digital-opportunity

1


Bảng 1.1: Các yếu tố ảnh hưởng đến quyết định mua hàng trực tuyến
Nhóm yếu tố

Yếu tố
Nhận đúng sản phẩm khi mua

Tính tin cậy

Giao hàng đúng hẹn
Chất lượng sản phẩm đúng mô tả
Cung cấp đầy đủ thông tin mô tả sản phẩm
Cung cấp đầy đủ đánh giá, phí vận chuyển
Dễ dàng tương tác với ứng dụng


UI/UX của Website và App Tốc độ phản hồi
Thao tác mua hàng đơn giản
Kết quả sản phẩm đúng ý muốn tìm kiếm
Cá nhân hóa nội dung và trải nghiệm
Bảo mật thơng tin cá nhân
Tính an tồn

Thanh tốn trực tuyến an tồn
Dữ liệu cá nhân giao dịch, thao tác
Tốc độ phản hồi hỗ trợ

Dịch vụ khách hàng

Chính sách thanh tốn, đổi trả, bảo hành
Khuyến mại

2


trường đại học và công ty công nghệ [22, 30, 33] đã ứng dụng cho nhiều bài toán
lĩnh vực thương mại điện tử. Những mơ hình đó thường có lớp đầu vào là các đặc
trưng mức dữ liệu thơ (ví dụ: tên sản phẩm, giá sản phẩm, ảnh ...). Sau đó mơ hình
sẽ biến đổi ma trận qua các lớp tích chập và hàm kích hoạt (activation function),
cuối cùng đến lớp đầu ra. Q trình học có giám sát này sẽ giúp mơ hình cập nhật
lại giá trị ma trận của các lớp trong mạng học sâu. Đây là cách tiếp cận phổ biến
cho các bài toán như phân loại danh mục sản phẩm, phân loại quan điểm đánh giá
của người dùng và đã có những kết quả đáng kể. Tuy nhiên hạn chế của mơ hình
sử dụng đặc trưng mức thấp là yêu cầu thời gian huấn luyện dài để mơ hình "học"
được thơng qua nhiều vịng lặp "epochs". Nếu dữ liệu trong pha huấn luyện q
ít, mơ hình sẽ không học được những đặc trưng thô này và làm giảm chất lượng.

Trong lĩnh vực xử lý ảnh, xử lý âm thanh và xử lý ngôn ngữ tự nhiên, mơ hình học
sâu có sử dụng thêm lớp pretrain (Lớp được huấn luyện từ tập dữ liệu lớn trước
đó) cho kết quả tốt hơn mơ hình dùng đặc trưng mức thấp. Cụ thể các bài tốn
xử lý ảnh, mơ hình pretrain[28, 34] (ResNet, Efficient Net) thực nghiệm bằng dữ
liệu imagenet [7] (gồm hơn 14 triệu ảnh được gán nhãn) đã giúp tăng độ chính
xác phân loại ảnh từ 50% lên tới 88.5%. Mơ hình ngơn ngữ [1, 19, 31] (Word2Vec,
fastText, BERT) áp dụng cho bài toán phân loại chủ đề tin tức [6] đã giúp giảm
tỉ lệ lỗi từ 14% xuống 4.4%. Trong lĩnh vực thương mại điện tử, thông tin của sản
phẩm là đầu vào rất quan trọng cho bài tốn học máy. Luận văn tập trung nghiên
cứu mơ hình biểu diễn vectơ sản phẩm để áp dụng cho các lớp bài tốn học máy
TMĐT. Mơ hình sẽ biểu diễn sản phẩm thông quan phương pháp khai phá đồ thị
dữ liệu lớn mà các cạnh là quan hệ của sản phẩm với các thành phần khác như
ngành hàng, thương hiệu, màu sắc, kích thước, số đánh giá, số lượng đã bán...

1.2

Các nghiên cứu liên quan

Nghiên cứu của luận văn tập trung vào phương pháp biểu diễn sản phẩm dưới
dạng dữ liệu đồ thị. Mục tiêu của mơ hình nghiên cứu giúp tăng hiệu quả cho đa
dạng bài toán học máy của lĩnh vực thương mại điện tử. Thành phần dữ liệu trong
thương mại điện tử rất đa dạng như dữ liệu về sản phẩm, thông tin giao dịch, hoạt
động tương tác, thơng tin cá nhân (hình 1.2)
Vectơ biểu diễn sản phẩm là nguyên liệu quan trọng trong các bài toán học máy như

3


Bảng 1.2: Các thành phần dữ liệu trong thương mại điện tử
Nhóm dữ liệu


Thơng tin
Tên sản phẩm
Thương hiệu

Dữ liệu sản phẩm

Địa điểm
Ngành hàng
Thuộc tính (xuất xứ, dung lượng, kích thước)
Các lựa chọn loại mặt hàng (màu sắc, kích cỡ)
Danh sách sản phẩm đơn hàng
Số lượng

Thơng tin giao dịch

Phí vận chuyển
Thơng tin người mua, người bán
Địa chỉ lấy hàng, nhận hàng
Thông tin View, Click trên Web/App
Hoạt động thêm sản phẩm yêu thích

Dữ liệu hoạt động tương tác Theo dõi sản phẩm và giảm giá
Dữ liệu hội thoại, hỏi đáp
Dữ liệu đánh giá sản phẩm của người mua
Họ tên, số điện thoại
Thông tin cá nhân

Độ tuổi, nghề nghiệp, trường học
Danh sách bạn bè, người theo dõi

Liên kết mạng xã hội

4


hệ khuyến nghị sản phẩm, hệ thống tìm kiếm sản phẩm, phân loại sản phẩm... Mỗi
dạng biểu diễn dữ liệu của sản phẩm sẽ có những ưu điểm và hạn chế. Tùy thuộc
vào từng bài toán và trường hợp cụ thể, mơ hình sẽ lựa chọn tiếp cận dạng biểu
diễn khác nhau. Mơ hình biểu diễn vectơ sản phẩm có thể phân loại thành 3 nhóm
chính gồm dữ liệu dạng nội dung (content–based), dạng hình ảnh (image-based)
và dạng đồ thị (graph-based).
a) Mơ hình biểu diễn dữ liệu dạng nội dung
Nội dung của sản phẩm gồm: tên sản phẩm, mô tả ngắn, thông số kĩ thuật, chi
tiết sản phẩm. Dữ liệu này được sử dụng nhiều nhất để xây dựng chức năng tìm
kiếm sản phẩm. Khi người dùng phát sinh tìm kiếm, hệ thống tìm kiếm sẽ xếp
hạng kết quả dựa trên thông tin (tên sản phẩm, mô tả) để chọn sản phẩm tương
đồng với nội dung tìm kiếm nhất. Phương pháp này đang được sử dụng phổ
biến cho những website TMĐT quy mơ nhỏ và trung bình [13] bởi tính dễ triển
khai tích hợp. Hạn chế của phương pháp tìm kiếm fulltext-search này là kết
quả khó sắp xếp theo tiêu chí nâng cao cũng như khơng hoạt động tốt khi tên
sản phẩm chỉ chứa từ khóa đồng nghĩa. Để khắc phục vấn đề này, mơ hình học
máy dựa trên phương pháp nhúng từ (word embedding), nhúng câu (sentence
embedding) đã cho kết quả tốt hơn. Ý tưởng này cũng được sàn thương mại
điện tử lớn nhất của Indonesia (Tokopedia2 ) áp dụng [26]. Bước đầu tiên tên
sản phẩm sẽ được chuẩn hóa: chuyển tên sản phẩm về chữ thường, sau đó loại
bỏ ký tự không phải chữ, số và cuối cùng loại bỏ các từ xuất hiện ít hơn 5 lần.
Mơ hình biểu diễn nhúng từ word embedding theo hai phương pháp CBOW
và Skip-gram. Phương pháp này được trình bày lần đầu tiên trong mơ hình
word2vec [19]. Mơ hình CBOW sẽ cố gắng dự đoán từ trung tâm dựa vào các
từ bên cạnh, trong khi đó phương pháp Skip-gram sẽ cố gắng dự đoán từ bên

cạnh dựa vào từ trung tâm. Trong nghiên cứu này, Tokopedia đã huấn luyện dữ
liệu của 25 triệu tên sản phẩm và đo bằng định tính với 4000 cặp tên sản phẩm
tương đồng. Đầu ra của mơ hình pre-train này là vectơ biểu diễn các token từ
điển. Tên sản phẩm là tập hợp của các token. Vectơ sản phẩm được tính bằng
cách lấy trung bình giá trị các token. Giá trị của vectơ biểu diễn sản phẩm đó
được làm đầu vào của bài tốn phân loại danh mục (category classification) đạt
độ chính xác 86.71%. Phương pháp này có ưu điểm nổi bật là biểu diễn sản
2



5


phẩm đa dạng tên hiển thị (tên viết tắt, đồng nghĩa). Tuy nhiên hạn chế của
cách biểu diễn này là không quan tâm đến thứ tự của các từ. Tên sản phẩm có
thể bao gồm nhiều stop-word trong ngành như các cụm từ: "chất lượng", "giảm
giá", "khuyến mại", "bán chạy"... Những từ này sẽ làm giảm độ chính xác nếu
tên sản phẩm xuất hiện nhiều thơng tin nhiễu, sai chính tả.
b) Mơ hình biểu diễn dữ liệu dạng hình ảnh
Hình ảnh trong lĩnh vực thương mại điện tử bao gồm: danh sách các ảnh mô
tả và ảnh chụp thực tế từ sản phẩm người mua. Những mặt hàng ngành thời
trang sẽ không dễ dàng để gọi tên sản phẩm, bởi thế ý trải nghiệm của người
dùng khi tìm kiếm sản phẩm là chụp hình và tìm ảnh tương tự. Chức năng tìm
kiếm hình ảnh đã được các cơng ty lớn như Google, Pinterest, Bing, Alibaba,
v.v xây dựng sản phẩm (hình )
Biểu diễn hình ảnh sản phẩm là đầu vào của các bài tốn tìm kiếm hình ảnh,
gợi ý sản phẩm thời trang... Mơ hình cơ bản nhất là thơng qua lớp pre-train
image. Đối với ngành thời trang, một số thông tin sản phẩm khơng có trong
mơ tả ví dụ như kiểu dáng cổ áo, tay áo, họa tiết mà chỉ có thể quan sát bằng

hình ảnh. Việc embedding từ ảnh sẽ giúp khuyến nghị sản phẩm liên quan hơn
và tăng tỉ lệ chuyển đổi.
Ngồi ưu điểm của mơ hình là học được các đặc trưng ảnh sản phẩm, những
hạn chế của thuật tốn này là giải quyết khơng tốt lớp bài tốn mặt hàng kĩ
thuật, trong đó thơng số kĩ thuật rất quan trọng. Ví dụ hình ảnh TV, tủ lạnh
tìm kiếm hình ảnh sẽ bị nhiễu rất nhiều và mơ hình khó phân loại chính xác
được. Ngồi ra ảnh embedding yêu cầu số chiều khá lớn để có thể phân loại tốt.
Ví dụ mơ hình inception net B7[27] số trọng số lên tới 400M, và số chiều ảnh
được nhúng lên tới 2048 chiều. Số ảnh học có thể lên tới tỉ vectơ gây khó khăn
trong việc triển khai rộng rãi.
c) Mơ hình biểu diễn dữ liệu dạng đồ thị
Dữ liệu dạng đồ thị trong lĩnh vực thương mại điện tử gồm chủ yếu là lịch sử
tương tác (click, xem trang, mua hàng) của người dùng với các sản phẩm, đồ
thị mơ tả quan hệ sản phẩm với thuộc tính, ngành hàng, thương hiệu, màu sắc,
nơi bán, người bán...Dạng dữ liệu đồ thị có tính lịch sử và dữ liệu giao dịch này
có đặc điểm có số lượng rất lớn và rất có ý nghĩa để hiểu các tương tác trong
6


hệ thống TMĐT. Một số nghiên cứu gần đây của cơng ty Pinterest, Alibaba,
Wallmart, Amazon đã ứng dụng mơ hình graph embedding để làm bài toán về
khuyến nghị sản phẩm và đạt kết quả tích cực.
Mơ hình Pinterest [21] cơng bố năm 2020 sử dụng graph embedding để biểu
diễn các thực thể dữ liệu như người dùng, sản phẩm để làm một loạt bài toán
khuyến nghị đa mục tiêu như mơ hình giúp tăng lượt tương tác vào trang danh
mục, tăng tỉ lệ xem sản phẩm, tăng tỉ lệ chuyển đổi mua hàng...
Mơ hình của Alibaba [3, 36] đã giúp tăng 5% tổng giá trị giao dịch bằng việc
áp dụng dữ liệu đồ thị mạng lưới mối quan hệ người mua. Nghiên cứu này xem
xét đưa ra các sản phẩm khuyến nghị dựa trên lịch sử tương tác của bạn bè,
đồng nghiệp trên sàn thương mại điện tử. Nghiên cứu về hành vi thương mại

điện tử cho thấy rằng người mua sắm thường tin tưởng sản phẩm khi được bạn
bè, đồng nghiệp giới thiệu hơn là thấy trên quảng cáo truyền thông.

1.3

Mục tiêu của luận văn

Xây dựng các hệ thống khuyến nghị sản phẩm, tìm kiếm sản phẩm, gợi ý tìm
kiếm, phân loại sản phẩm là cơng việc khơng đơn giản và địi hỏi nhiều về thời
gian, nguồn lực. Mơ hình trung gian biểu diễn sản phẩm là cách phương án tốt hơn
để áp dụng cho nhiều lớp bài toán học máy của thương mại điện tử. Nhận thấy
tầm quan trọng của việc biểu diễn thông tin sản phẩm, luận văn tập trung nghiên
cứu và đề xuất mơ hình biểu diễn vectơ sản phẩm, sau đó cài đặt mơ hình vào hệ
thống có thể triển khai thực tế giúp tăng hiệu quả cho các lớp bài toán học máy
lĩnh vực thương mại điện tử. Phương pháp biểu diễn sản phẩm là phương pháp
khai phá dữ liệu dạng đồ thị bằng kĩ thuật học sâu. Thiết kế của mơ hình này cần
đáp ứng tính tổng quát của lĩnh vực thương mại điện tử, khả thi để triển khai với
dữ liệu lớn thực tế và dễ dàng tích hợp với các mơ hình học máy khác.
Mơ hình biểu diễn dữ liệu ở dạng đồ thị, trong đó mỗi mã sản phẩm, thơng tin sản
phẩm là các đỉnh và cạnh là mối quan hệ của sản phẩm với những thuộc tính cịn
lại. Kết quả thực nghiệm mơ hình đã chứng tỏ sự hiệu quả với tập dữ liệu TMĐT
lớn, kết quả huấn luyện của dữ liệu biểu diễn dạng đồ thị hơn 176 triệu cạnh quan
hệ đạt kết quả Hits@10 đạt 0.737 và Hits@50 đạt 0.962.

7


1.4

Cấu trúc luận văn


Luận văn sẽ trình bày và cấu trúc như sau. Chương 1 giới thiệu về lý do, mục tiêu
của nghiên cứu đề tài và đề cập một số nghiên cứu liên quan. Chương 2 trình bày
cơ sở lý thuyết về các mơ hình biểu diễn dữ liệu dạng văn bản, ảnh, đồ thị và khảo
sát các phương pháp học máy biểu diễn vectơ sản phẩm hiện nay. Mơ hình biểu
diễn vectơ sản phẩm bằng phương pháp khai phá đồ thị và đánh giá sẽ được trình
bày ở chương 3. Chương 4 báo cáo và đánh giá kết quả nghiên cứu thực nghiệm.
Chương cuối cùng trình bày kết luận và thảo luận một số hướng mở rộng trong
tương lai.

Kết luận chương 1
Trong chương này, luận văn đã giới thiệu khái quát lý do đề tài. Bên cạnh đó luận
văn trình bày các nghiên cứu liên quan về biểu diễn sản phẩm và nghiên cứu về
khai phá đồ thị và mục tiêu của luận văn.
Chương tiếp theo sẽ trình bày về các cơ sở lý thuyết và kiến thức nền tảng. Cụ thể
luận văn trình bày về mơ hình biểu diễn dữ liệu văn bản, dữ liệu ảnh, dữ liệu đồ
thị bằng kĩ thuật học sâu. Tiếp đó chương này sẽ khảo sát các phương pháp biểu
diễn vectơ sản phẩm.

8


Chương 2
Cơ sở lý thuyết và khảo sát các phương
pháp
Trong chương này sẽ trình bày về các cơ sở lý thuyết và kiến thức nền tảng. Phần
đầu chương trình bày về mơ hình biểu diễn dữ liệu văn bản, dữ liệu ảnh, dữ liệu
đồ thị bằng kĩ thuật học sâu. Tiếp đó luận văn đề cập các phương pháp biểu diễn
vectơ sản phẩm thương mại điện tử.


2.1

Cơ sở lý thuyết

2.1.1

Phương pháp biểu diễn dữ liệu ảnh

Ảnh được biểu diễn bằng giá trị của các pixel 2 chiều (ảnh đen trắng), và 3 chiều
(ảnh màu - rbg). Kích thước của ma trận ảnh độ phân giải cao sẽ tốn chi phí lưu
trữ và khó xử lý trong các bài tốn phân loại ảnh, xác định thực thể trong ảnh,
v.v. Một số mơ hình biểu diễn dữ liệu ảnh bằng phương pháp học sâu là Alexnet,
ResNet, InceptionNet, v.v
• Mơ hình Alexnet

Năm 2012, một trong những mơ hình đầu tiên sử dụng mạng tích chập (CNN)
là mơ hình mạng Alexnet [15] đã được đề xuất để giải quyết bài toán phân
loại dữ liệu 15 triệu ảnh. Mơ hình nhận đầu vào là ảnh kích thước 224x224x3
và đi qua 8 lớp tích chập (hình 2.1). Trong đó lớp thứ 6 và lớp thứ 7 là lớp
kết nối đầy đủ (fully-connection) với 4096 nơ-ron đầu ra kết hợp với việc sử
dụng dropout để giảm overfitting, lớp cuối cùng có 1000 nơ-ron đầu ra tương
ứng với từng loại danh mục ảnh. Thông tin vectơ biểu diễn ảnh sẽ được trích
từ giá trị của lớp giữa. Tổng cộng mơ hình có 60 triệu tham số sử dụng để
huấn luyện. Trong bài tốn biểu diễn ảnh, mơ hình Alexnet đã sử dụng nhiều
phương pháp xử lý dữ liệu và mạng nơ-ron mà các mơ hình cải tiến sau này
vẫn còn kế thừa. Kĩ thuật làm giàu dữ liệu (data augmentation) để giải quyết
9


Hình 2.1: Kiến trúc mơ hình mạng nơ-ron tích chập Alexnet

vấn đề thiếu dữ liệu ảnh. Mơ hình dịch chuyển ảnh từ kích thước gốc về kích
thước 224x224. Bên cạnh đó mơ hình cũng sử dụng phương pháp sinh dữ liệu
bằng việc thay đổi độ sáng, lật ảnh, đổi màu. Mơ hình AlexNet khơng sử dụng
hàm Tanh mà giới thiệu hàm kích hoạt mới là ReLU giúp q trình huấn luyện
nhanh hơn.
• Mơ hình ResNet

Mơ hình ResNet[34] được đề xuất năm 2015 bởi Microsoft. Mục tiêu ra đời
của mơ hình là khắc phục vấn đề vanishing gradient (giá trị đạo hàm quá nhỏ
khi qua nhiều lớp học sâu). Kiến trúc của mơ hình ResNet gồm nhiều residual
block (hình 2.2). Ý tưởng của residual block là từ x(input) qua một số lớp
nơ-ron tích chập thu được giá trị F(x) sau đó cộng thêm x vào để được H(x)
= F(x) + x bỏ qua một số lớp và gộp với lớp trước. Điều này giúp mơ hình
dễ học hơn khi thêm các feature từ layer trước vào. Bằng phương pháp này,
mơ hình ResNet có thể hỗ trợ huấn luyện với 152 layer (hình 2.3)
• Mơ hình InceptionNet

Mơ hình Inception [27] được đề xuất năm 2016 bởi các kĩ sư Google. Mơ hình
này có các inception layer (hình 2.4) giúp mỗi lớp tích chập có thể sử nhiều
kernel size như 1x1, 3x3, 5x5 và tổng hợp kết quả lại. Phương pháp này giúp
mô hình học được nhiều thơng tin hơn sau mỗi layer.

10


Hình 2.2: Khối residual block trong mơ hình mạng ResNet

Hình 2.3: Kiến trúc mơ hình mạng ResNet

2.1.2


Phương pháp biểu diễn nội dung văn bản

Trong lĩnh vực xử lý ngôn ngữ tự nhiên, biểu diễn từ (word embedding) là đầu vào
quan trọng để mơ hình học sâu huấn luyện hiệu quả. Giá trị vectơ này giúp biểu
diễn ngữ cảnh của một từ trong tài liệu văn bản so với các từ khác. Bằng cách
này mơ hình học máy có thể huấn luyện với tập dữ liệu nhỏ hơn nhưng vẫn đạt độ
chính xác tốt do "học" được ngữ cảnh, từ đồng nghĩa từ tập dữ liệu đã huấn luyện
từ trước (pre-training). Một số mơ hình học sâu để biểu diễn vectơ ngôn ngữ phổ
biến là Word2Vec [19], Fasttext [1], ELMO[23], GPT[24], BERT[31], XLNet[37],
ALBERT[16], ELECTRA[4].
• Mơ hình Word2Vec

Một trong những nghiên cứu đầu tiên về biểu diễn từ bằng phương pháp học
sâu là mơ hình word2vec[19]. Phương pháp này biểu diễn vectơ từ thông qua
11


Hình 2.4: Kiến trúc mơ hình mạng Inception

việc dự đốn từ và học các từ xung quanh. Có hai cách xây dựng mơ hình này
là CBOW và Skip-gram (hình 2.5). Với thiết kế của CBOW, mơ hình nhận
đầu vào là các từ ngữ cảnh, đầu ra là xác suất dự đốn từ đích. Cịn thiết kế
Skip-gram ngược lại, nhận đầu vào là từ đích và đầu ra là xác suất của các từ
ngữ cảnh. Thực nghiệm cho thấy mơ hình skip-gram đạt hiệu quả hơn và có
khả năng dự đốn các từ ít xuất hiện.
• Mơ hình ngơn ngữ Fasttext

Mơ hình Fasttext [1] đề xuất năm 2017 do Facebook phát triển. Mơ hình này
cải tiến so với Word2Vec là thay vì huấn luyện cho đơn vị "từ" thì sẽ chia nhỏ

thành n-gram cho "từ". Ví dụ "apple" sẽ tách thành "app", "ppl", "ple", và
vectơ của từ "apple" bằng tổng của tất cả các từ này. Ưu điểm của mơ hình
này giúp giải quyết tốt với các từ hiếm gặp.
• Mơ hình ngơn ngữ BERT

Năm 2018, các kĩ sư Google đã nghiên cứu cơng bố mơ hình ngơn ngữ BERT
(Bidirectional Encoder Representations from Transformers) biểu diễn "từ"
theo hai chiều bằng kĩ thuật Transformer (hình 2.6). Cơ chế attention của
kĩ thuật Transformer là gửi các từ trong câu văn mà không cần quan tâm đến
chiều của câu. Transformer bao gồm 2 pha là mã hóa và giải mã.
12


Hình 2.5: Mơ hình word2vec kiến trúc CBOW và Skip-gram
- Mã hóa (encoder): Gồm 6 lớp liên tiếp nhau, mỗi layer sẽ bao gồm một
sub-layer là Multi-Head Attention kết hợp với fully-connected layer như mô
tả ở nhánh encoder bên trái của hình 2.6. Kết thúc q trình mã hóa ta được
vector embedding output cho mỗi từ.
- Giải mã (decoder): Kiến trúc cũng bao gồm các layers liên tiếp nhau và mỗi
một layer của pha giải hóa cũng có các sub-layers gần tương tự như layer của
pha mã hóa nhưng bổ sung thêm sub-layer đầu tiên là Masked Multi-Head
Attention có tác dụng loại bỏ các từ trong tương lai khỏi quá trình attention.
Đặc điểm này cho phép mơ hình học được ngữ cảnh của từ dựa trên toàn bộ
các từ xung quanh nó bao gồm cả từ bên trái và từ bên phải. Một ưu điểm
của mơ hình BERT là kết quả huấn luyện có thể fine-tuning (tinh chỉnh) mơ
hình áp dụng cho các bài tốn xử lý ngơn ngữ. Các kiến trúc biến thể mới
của mơ hình BERT vẫn đang được nghiên cứu và tiếp tục phát triển như
ELECTRA[4], ALBERT [16], v.v.

13



×