PHÂN TÍCH HÀNH VI KHÁCH HÀNG DỰA VÀO KỸ THUẬT KHAI PHÁ DỮ LIỆU NHẰM HỖ TRỢ HOẠT ĐỘNG BÁN HÀNG (THỰC NGHIỆM DỮ LIỆU TẠI MỘT SIÊU THỊ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.51 MB, 112 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC KINH TÊ


KHÓA LUẬN TỐT NGHIỆP
Chuyên ngành: Thương mại điện tư
Đề tài:

PHÂN TÍCH HÀNH VI KHÁCH HÀNG DỰA
VÀO KỸ THUẬT KHAI PHÁ DỮ LIỆU NHẰM
HỖ TRỢ HOẠT ĐỘNG BÁN HÀNG (THỰC
NGHIỆM DỮ LIỆU TẠI MỘT SIÊU THỊ)
Họ và tên
Mã sinh viên
Lớp
Khóa
Giáo viên hướng dẫn

:
:
:
:
:

Nguyễn Thị Phượng
171121522143
43K22
43
TS. Lê Diên Tuấn

ThS. Trần Văn Lộc

Đà Nẵng, ngày 27 tháng 12 năm 2020

TRANG BÌA PHU

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC KINH TÊ


KHÓA LUẬN TỐT NGHIỆP
Chuyên ngành: Thương mại điện tư
Đề tài:

PHÂN TÍCH HÀNH VI KHÁCH HÀNG DỰA
VÀO KỸ THUẬT KHAI PHÁ DỮ LIỆU NHẰM
HỖ TRỢ HOẠT ĐỘNG BÁN HÀNG (THỰC
NGHIỆM DỮ LIỆU TẠI MỢT SIÊU THỊ)
Họ và tên
Mã sinh viên
Đà
Lớp
ngày 27 Khóa
Giáo viên hướng dẫn
12 năm

:
:
:
:
:

Nguyễn Thị Phượng
171121522143

Nẵng,

43K22

tháng

43

2020

TS. Lê Diên Tuấn
ThS. Trần Văn Lộc

TÓM TẮT
Trên thế giới, các tập đoàn lớn từ Ford đến Apple đã chi hàng tỷ đô la để phân
tích hành vi khách hàng. Họ muốn biết người tiêu dùng đưa ra quyết định mua như thế
nào và điều gì ảnh hưởng đến những quyết định đó để phát triển kinh doanh cũng như
phát triển chiến lược Marketing. Trong bối cảnh thời đại công nghệ 4.0 các doanh
nghiệp thực hiện triển khai doanh nghiệp số do đó việc phân tích hành vi khách hàng
dựa vào dữ liệu là một xu thế. Chính vì vậy tôi đã chọn để tài “Phân tích hành vi khách
hàng dựa vào kỹ thuật khai phá dữ liệu nhằm nâng cao hiệu quả bán hàng và
marketing online”.
Mục đích nghiên cứu của đề tài là hệ thống hóa những vấn đề lý luận liên quan
đến hành vi khách hàng dựa vào kỹ thuật khai phá dữ liệu như trực quan hóa dữ liệu,
phân cụm và luật kết hợp. Sau đó phân tích tiến hành đề xuất những giải pháp nhằm

nâng cao hiệu quả bán hàng và marketing online cho siêu thị.

3

LỜI CAM ĐOAN
Tôi xin cam đoan đề tài luận văn “Phân tích hành vi khách hàng dựa vào kỹ
thuật khai phá dữ liệu nhằm nâng cao hiệu quả bán hàng và marketing online” là công
trình nghiên cứu của riêng tôi, thực hiện dưới sự hướng dẫn của TS. Lê Diên Tuấn và
ThS. Trần Văn Lộc.
Bài báo cáo luận văn có sử dụng một số tài liệu tham khảo được trích dẫn cụ thể
ở mục tài liệu tham khảo. Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn
chịu trách nhiệm về nội dung bài báo cáo của mình.
Đà Nẵng, ngày 27 tháng 12 năm 2020
Sinh viên thực hiện
Nguyễn Thị Phượng

4

LỜI CẢM ƠN
Trong lời đầu tiên của báo cáo luận văn này, tôi muốn gửi lời cảm ơn và biết ơn
sâu sắc nhất của mình tới hai Thầy TS. Lê Diên Tuấn và ThS. Trần Văn Lộc – Giảng
viên khoa Thương mại điện tử, Trường ĐH Kinh Tế-ĐH Đà Nẵng, người đã trực tiếp
nhận xét, hỗ trợ và chỉ bảo tôi rất nhiều trong thời gian tôi thực hiện luận văn.
Xin chân thành cảm ơn Thầy cô trong khoa Thương mại điện tử và các phòng
ban đã tạo điều kiện tốt nhất cho tôi trong suốt thời gian tôi được học tập tại trường.
Cuối cùng tôi xin gửi lời cảm ơn đến gia đình, bạn bè đặc biệt là những người
bạn trong nhóm The Zoo đã động viên tôi trong quá trình học tập và làm đề tài.
Do sự hạn chế về kiến thức cũng như thời gian thực hiện nên luận văn chắc

chắn sẽ không tránh khỏi những thiếu sót. Tôi rất mong nhận được ý kiến đóng góp
của quý Thầy cô để có thêm kinh nghiệm hoàn thiện luận văn của mình hơn.
Tôi xin chân thành cảm ơn!
Đà Nẵng, ngày 27 tháng 12 năm 2020
Sinh viên thực hiện
Nguyễn Thị Phượng

5

MUC LUC

6

7

DANH MUC HÌNH VẼ ĐỒ THỊ

8

DANH MUC CÁC KÝ HIỆU, CHỮ VIÊT TẮT
STT

Ký hiệu

1

KDD

Nguyên nghĩa
Knowledge Discovery in Database (Phát hiện tri
thức trong cơ sở dữ liệu)

2

DM

3

CRISP-DM

Data Mining (Khai phá dữ liệu)
Cross- Industry Standard Process for Data Mining
(Quy trình tiêu chuẩn xuyên ngành cho khai phá dữ liệu)

4

IR

Information Retrieval (Truy xuất thông tin)

5

KM

Knowledge Management (Quản lý tri thức)

6

CRM

Customer Relationship Management (Quản trị
quan hệ khách hàng)

7

BI

8

DSS

Business Intelligence (Kinh doanh thông minh)
Decision Support System (Hệ thống hỗ trợ ra
quyết định)

9

DW

Data Warehouse (Kho dữ liệu)

10

EIS

Executive Information System (Hệ thống điều

hành thông tin)

11

ETL

Extract – Transform – Load (Trích xuất - Chuyển
đổi – Tải)

12

ODS

Operational Data Store (Kho lưu trữ dữ liệu vận
hành)

13

OLTP

On-line Transactional Processing (Tiến trình xử lý
giao dịch trực tuyến)

14

OLAP

On-line Analytical Processing (Tiến trình phân
tích trực tuyến)
9

15

EM

Expectation Maximization (Tối đa hóa sự kỳ
vọng)

16

FP

17

SPSS

Frequent Pattern (Tập phổ biến)
Statistical Package for the Social Sciences (Gói
phần mềm thống kê cho khoa học xã hội)

18

GDN

Google Display Network (Mạng lưới quảng cáo
hiển thị Google)

10

CHƯƠNG 1:
GIỚI THIỆU TỔNG QUAN
1.1 Tính cấp thiết của đề tài
Trong những năm gần đây với sự phát triển vượt bậc không ngừng của tiến bộ
khoa học kĩ thuật đã tạo nên sự bùng nổ về dữ liệu, đặc biệt là với các nhà bán lẻ tích
tụ một khối lượng thông tin khổng lồ được lưu trữ trong cơ sở dữ liệu của doanh
nghiệp. Trên thế giới, Walmart đóng vai trò tiên phong trong việc sử dụng DM cho
doanh nghiệp, công ty này được công nhận là công ty tốt nhất tỏng việc tận dụng cơ sở
dữ liệu khổng lồ của họ để hỗ trợ chiến lược dẫn đầu chi phí thấp [1].
Có thể nói, dữ liệu thông tin khách hàng đóng vai trò quan trọng trong trung
tâm hệ sinh thái kinh doanh của mỗi doanh nghiệp. Tuy nhiên, từ dữ liệu đó làm thế
nào để có được những kết quả chính xác phục vụ cho việc nâng cao hiệu quả bán hàng
hay hỗ trợ đưa ra những giải pháp marketing online thì vẫn còn là vấn đề nan giải của
nhiều doanh nghiệp.
Tại Việt Nam, thói quen mua sắm của người tiêu dùng tại các đô thị dần thay
đổi dưới sự phát triển của thương mại điện tử. Với sự tiện nghi và an toàn có thể thấy
người tiêu dùng chuyển hướng sang mua sắm tại siêu thị tăng dần. Các giao dịch mua
sắm của khách hàng được lưu lại trong cơ sở dữ của siêu thị đã tạo ra một nhu cầu rất
cấp thiết về các kỹ thuật và công cụ có thể chuyển đổi dữ liệu thành thông tin và kiến
thức hữu ích nhằm hỗ trợ trong kinh doanh. Những nhà quản lý siêu thị mong muốn
tìm ra được những thông tin có giá trị, những hành vi mua sắm của khách hàng nhằm
hỗ trợ chiến lược marketing online hiệu quả cũng như hỗ trợ phát triển bán hàng cho
doanh nghiệp.
Từ nhận định những vấn đề đã phân tích ở trên, tôi đã quyết định chọn đề tài
khóa luận tốt nghiệp “Phân tích hành vi khách hàng dựa vào kỹ thuật khai phá dữ liệu
nhằm nâng cao hiệu quả bán hàng và Marketing online” với dữ liệu xây dựng thực
nghiệm từ siêu thị.

11

1.2

Mục tiêu nghiên cứu

1.2.1 Lý thuyết
- Tìm hiểu khái quát quy trình khai phá dữ liệu và phát hiện tri thức dựa vào dữ
liệu, nắm được lý thuyết cơ bản về môi trường BI có liên quan đến khai phá dữ
liệu.
- Hệ thống hóa được các kỹ thuật cơ bản trong khai phá dữ liệu như phân cụm,
luật kết hợp.
- Nắm được bản chất về marketing online đặc biệt một số lý thuyết liên quan đến
marketing online hướng vào dữ liệu.
1.2.2 Ứng dụng
- Phân tích thực trạng hoạt động bán hàng từ dữ liệu thực nghiệm của siêu thị
bằng trực quan hóa dữ liệu dựa vào phần mềm Power BI.
- Phân tích hành vi khách hàng có cùng đặc điểm mua hàng giống nhau dựa vào
phân cụm bằng phần mềm Rstudio.
- Phát hiện mối quan hệ giữa các thuộc tính sản phẩm mà khách hàng đã mua dựa
vào luật kết hợp bằng phần mềm Rstudio.
- Đề xuất giải pháp để nâng cao hiệu quả bán hàng và marketing online cho siêu
thị từ thực trạng đã phân tích.
1.3 Đối tượng, phạm vi nghiên cứu
 Đối tượng nghiên cứu: dữ liệu siêu thị từ cộng đồng nghiên cứu Kaggle
 Mẫu nghiên cứu: 500 khách hàng mua sắm tại siêu thị
 Thời gian nghiên cứu: từ tháng 9 đến tháng 12 năm 2020
1.4 Phương pháp nghiên cứu
Đề tài sử dụng kết hợp nhiều phương pháp nghiên cứu, với một số phương pháp
được liệt kê như sau:

 Phương pháp thống kê mô tả
 Phương pháp thống kê suy luận
 Phương pháp tổng hợp
 Phương pháp data mining
 Phương pháp mô hình hóa
1.5 Kết cấu đề tài
Kết cấu khóa luận bao gồm 4 chương:
12

Chương 1: Giới thiệu tổng quan
Chương 2: Cơ sở lý thuyết
Chương 3: Phân tích thực trạng hành vi khách hàng dựa vào kỹ thuật khai phá
dữ liệu
Chương 4: Đề xuất giải pháp nhằm nâng cao hiệu quả bán hàng và Marketing
online.
Chương 5: Kết luận và hướng phát triển của đề tài

13

CHƯƠNG 2:
CƠ SỞ LÝ THUYÊT
2.1 Tổng quan khai phá dữ liệu
2.1.1 Khái niệm
 Phát hiện tri thức từ cơ sở dữ liệu
Phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in Database –
KDD) là một quá trình quan trọng để xác định các mẫu hoặc mối quan hệ hợp lệ, mới
lạ có thể hữu ích và cuối cùng là dễ hiểu trong tập dữ liệu để đưa ra các quyết định
quan trọng ( Fayyad, Piatetsky-shapiro, & Smyth, 1996 ) [2].

Để bắt đầu phát hiện tri thức cần phân biệt rõ ba khái niệm: dữ liệu, thông tin và
tri thức. Dữ liệu là tín hiệu (signals) thu được do quan sát, đo dạc, thu thập, cụ thể dữ
liệu là giá trị (values) của các thuộc tính (features) của các đối tượng. Thông tin là dữ
liệu có ý nghĩa (data equiped with meaning), thu được khi xử lý dữ liệu để lọc bỏ đi
các phần dư thừa, tìm ra phần cốt lõi đặc trưng cho dữ liệu. Kiến thức là nhận thức
hoặc công nhận, năng lực hành động và hiểu (biết tại sao) nằm trong hoặc chứa trong
tâm trí hoặc trong não. Mục đích của kiến thức là cải thiện cuộc sống của chúng
ta. Trong bối cảnh kinh doanh, mục đích của kiến thức là tạo ra hoặc gia tăng giá trị
cho doanh nghiệp và tất cả các bên liên quan. Tóm lại, mục đích cuối cùng của tri thức
là để tạo ra giá trị [3].
Trong hình dưới đây thấy được quá trình phát hiện tri thức gồm nhiều giai đoạn.
Đầu ra của giai đoạn này là đầu vào của giai đoạn sau, quá trình phát hiện tri thức gồm
các bước cơ bản sau:

Hình 2.0.1. Quá trình khai phá tri thức [4]

14

Chọn lọc dữ liệu (Data selection): Giai đoạn này thực hiện hai công việc chính.
Thứ nhất, phát triển và tìm hiểu miền ứng dụng. Thứ hai tạo tập dữ liệu đích từ nguồn
dữ liệu vô cùng lớn. Kết quả của bước này là dữ liệu mục tiêu (Target data).
Tiền xử lý dữ liệu (Data preprocessing): bao gồm xử lý dữ liệu bị nhiễu và
thiếu. Giai đoạn này cũng đảm bảo các giá trị có ý nghĩa thống nhất tạo ra quy trình
KDD có kết quả chính xác. Kết quả của bước này là dữ liệu được làm sạch (Cleaned
data) hoặc dữ liệu được tiền xử lý ( Pre-processed data).
Chuyển đổi dữ liệu (Data transformation): Quá trình này là giai đoạn xử lý dữ
liệu cuối cùng trước khi áp dụng các kỹ thuật phân tích dữ liệu. Nó bao gồm việc tìm
kiếm các thuộc tính hữu ích bằng cách áp dụng các phương pháp biến đổi và giảm thứ
nguyên, đồng thời tìm cách biểu diễn bất biến của dữ liệu. Kết quả của tiến trình này là

dữ liệu được biến đổi (Transformed data).
Khai phá dữ liệu (Data mining): Quá trình này bao gồm ba bước hoặc nhiệm vụ
con. Đầu tiên, chọn nhiệm vụ khai thác dữ liệu bằng cách so với các mục tiêu được
xác định trong giai đoạn đầu với một phương pháp khai thác dữ liệu cụ thể như phân
cụm, hồi quy, phân lớp, v.v. Thứ hai, chọn (các) thuật toán khai thác dữ liệu và chọn
(các) phương pháp và tham số để tìm kiếm các mẫu trong dữ liệu. Thứ ba, áp dụng
(các) thuật toán khai thác dữ liệu để tạo ra các mẫu dữ liệu trong một dạng biểu diễn
cụ thể. Kết quả của giai đoạn này là mẫu (Patterns) và mô hình (Models).
Đánh giá kết quả mẫu (Interpretation/Evaluation): Quá trình này bao gồm hai
bước. Đầu tiên, diễn giải các mẫu đã khai thác. Bước này cũng có thể bao gồm việc
trực quan hóa các mẫu và mô hình được trích xuất hoặc dữ liệu được trích xuất từ các
mô hình được trích xuất. Thứ hai, củng cố kiến thức đã khám phá bằng cách kết hợp
kiến thức đó vào hệ thống thực hiện, hoặc đơn giản là tài liệu hóa và báo cáo cho các
bên mong muốn. Bước này có thể bao gồm việc kiểm tra và khắc phục mọi xung đột
tiềm ẩn với kiến thức đã tin trước đó. Kết quả của quá trình này là kiến thức tiềm năng
(Knowledge) [5].
 Khai phá dữ liệu
Khai phá dữ liệu (Data mining - DM) là một khái niệm có nguồn gốc ra đời vào
những năm cuối những năm 1980. Nó là quá trình trích xuất thông tin ẩn, ngầm mới lạ
15

và hữu ích từ trong các kho dữ liệu, cơ sở dữ liệu để ứng dụng vào những quyết định
kinh doanh hoặc những lĩnh vực khác [6].
Các bước của quá trình khai phá dữ liệu có thể được mô tả dưới sơ đồ sau:

Hình 2.0.2. Quá trình khai phá dữ liệu
Quy trình xử lý khai phá dữ liệu bắt đầu bằng cách xác định chính xác vấn đề
cần giải quyết. Sau đó sẽ xác định các dữ liệu liên quan dùng để xây dựng giải pháp
giải quyết nhiệm vụ bài toán.

Bước tiếp theo là thu thập các dữ liệu có liên quan và xử lý chúng thành dạng
sao cho giải thuật khai phá dữ liệu có thể hiểu được. Đây thực sự là một quá trình rất
khó khăn, gặp phải rất nhiều vướng mắc như: các dữ liệu phải được sao ra nhiều bản
(nếu được chiết xuất vào các tệp), quản lý tập các tệp dữ liệu, phải lặp đi lặp lại nhiều
lần toàn bộ quá trình (nếu mô hình dữ liệu thay đổi),… Do đó, trong bước này phải
thực hiện tiền xử lý dữ liệu . Quá trình tiền xử lý yêu cầu đầu tiên phải nắm được dạng
dữ liệu, thuộc tính, mô tả của dữ liệu thao tác. Sau đó tiến hành 4 giai đoạn chính: làm
sạch, tích hợp, biến đổi, thu giảm dữ liệu.
Bước tiếp theo trong quy trình khai phá dữ liệu là chọn thuật toán khai phá dữ
liệu thích hợp và thực hiện việc khai phá nhằm tìm được các mẫu có ý nghĩa dưới dạng
biểu diễn tương ứng với ý nghĩa đó.
 CRISP-DM (Cross Industry Standard Process for Data Mining)
Ngày nay, các nhà nghiên cứu với sự tham gia mạnh mẽ trong lĩnh vực công
nghiệp đã nhận ra nhu cầu từ DM đến KDD để cung cấp kiến thức hữu ích cho việc ra
16

quyết định kinh doanh. Theo truyền thống, một tiêu chuẩn, được đặt tên là CRISP-DM
(Cross Industry Standard Process for Data Mining).

Hình 2.0.3. Tiến trình CRISP - DM [7]


Hiểu biết kinh doanh: Giai đoạn này tập trung vào việc hiểu các mục tiêu dự án
và các yêu cầu từ quan điểm kinh doanh.



Hiểu dữ liệu: Giai đoạn hiểu dữ liệu bắt đầu với việc thu thập dữ liệu ban đầu
và tiến hành các hoạt động để làm quen với dữ liệu, xác định dữ liệu vấn đề

chất lượng, để khám phá thông tin chi tiết đầu tiên về dữ liệu hoặc phát hiện các
tập hợp con thú vị để hình thành các giả thuyết cho thông tin ẩn.



Chuẩn bị dữ liệu: Giai đoạn chuẩn bị dữ liệu bao gồm tất cả các hoạt động cần
thiết để xây dựng tập dữ liệu cuối cùng từ dữ liệu thô ban đầu. Các nhiệm vụ
chuẩn bị dữ liệu có thể được thực hiện lặp đi lặp lại và không theo bất kỳ thứ tự
quy định nào.



Mô hình hóa: Trong giai đoạn này, các kỹ thuật mô hình hóa khác nhau được
lựa chọn và áp dụng và các tham số của chúng được hiệu chỉnh đến giá trị tối
ưu. Thông thường, có một số kỹ thuật cho cùng một loại vấn đề DM. Một số kỹ
thuật có các yêu cầu cụ thể về dạng dữ liệu.

17



Đánh giá: Từ góc độ phân tích dữ liệu, các mô hình có vẻ chất lượng cao sẽ
được xây dựng trong giai đoạn này của dự án. Trước khi chuyển sang mô hình
cuối cùng triển khai, điều quan trọng là phải đánh giá mô hình kỹ lưỡng hơn và
xem xét các bước thực hiện để xây dựng nó để chắc chắn rằng nó đạt được các
mục tiêu kinh doanh. Tại cuối giai đoạn này, cần đạt được quyết định về cách sử
dụng các kết quả DM.



Triển khai: Xây dựng mô hình nói chung không phải là kết thúc của dự án.
Thậm chí nếu mục đích của mô hình là tăng cường kiến thức về dữ liệu, kiến
thức thu được sẽ cần được tổ chức và trình bày theo cách mà khách hàng có thể
sử dụng.

2.1.2 Sự liên ngành của hệ thống khai phá dữ liệu
Khai phá dữ liệu đã kết hợp nhiều kỹ thuật từ các lĩnh vực khác như thống kê,
học máy, nhận dạng mẫu, cơ sở dữ liệu và hệ thống kho dữ liệu, truy xuất thông tin,
trực quan hóa, thuật toán, tính toán hiệu suất cao và nhiều miền ứng dụng khác. Bản
chất liên ngành của nghiên cứu và phát triển khai phá dữ liệu đóng góp đáng kể vào sự
thành công của khai phá dữ liệu và các ứng dụng rộng rãi của nó.
Khai phá dữ liệu có nguồn gốc liên quan đến các lĩnh vực sau:

Hình 2.0.4. Khai phá dữ liệu từ nhiều lĩnh vực [8]
 Hệ thống cơ sở dữ liệu và kho dữ liệu
Nghiên cứu hệ thống cơ sở dữ liệu chủ đích để tạo, duy trì và sử dụng cơ sở dữ
liệu cho các tổ chức và người dùng cuối. Đặc biệt, các nhà nghiên cứu hệ thống cơ sở
dữ liệu đã thiết lập các nguyên tắc được công nhận cao trong mô hình dữ liệu, ngôn
18

ngữ truy vấn, phương pháp xử lý và tối ưu hóa truy vấn, lưu trữ dữ liệu cũng như
phương pháp lập chỉ mục và truy cập. Hệ thống cơ sở dữ liệu thường được biết đến với
khả năng mở rộng cao trong việc xử lý các tập dữ liệu rất lớn, có cấu trúc tương đối.
Các hệ thống cơ sở dữ liệu gần đây đã xây dựng khả năng phân tích dữ liệu có
hệ thống trên dữ liệu cơ sở dữ liệu bằng cách sử dụng kho dữ liệu và các phương tiện
khai thác dữ liệu. Kho dữ liệu tích hợp dữ liệu có nguồn gốc từ nhiều nguồn và nhiều
khung thời gian khác nhau [9]. Nó hợp nhất dữ liệu trong không gian đa chiều để tạo
thành các khối dữ liệu được vật chất hóa một phần. Mô hình khối dữ liệu không chỉ

tạo điều kiện cho OLAP trong cơ sở dữ liệu đa chiều mà còn thúc đẩy khai thác dữ liệu
đa chiều.
 Thống kê
Thống kê nghiên cứu việc thu thập, phân tích, hoặc giải thích và trình bày dữ
liệu. Khai phá dữ liệu có một kết nối cố hữu với thống kê [10]. Mô hình thống kê là
một tập hợp các hàm toán học mô tả hành vi của các đối tượng trong lớp mục tiêu dưới
dạng các biến ngẫu nhiên và phân phối xác suất liên quan của chúng. Mô hình thống
kê được sử dụng rộng rãi để biểu diễn mô hình dữ liệu và các lớp dữ liệu.
Chẳng hạn như, trong các tác vụ khai phá dữ liệu như đặc tính và phân loại dữ
liệu, có thể xây dựng các mô hình thống kê của các lớp mục tiêu. Nói cách khác, các
mô hình thống kê như vậy có thể là kết quả của một nhiệm vụ khai thác dữ liệu. Ngoài
ra, các nhiệm vụ khai thác dữ liệu có thể được xây dựng dựa trên các mô hình thống
kê. Ví dụ, chúng ta có thể sử dụng thống kê để lập mô hình nhiễu và các giá trị dữ liệu
bị thiếu. Sau đó, khi khai thác các mẫu trong một tập dữ liệu lớn, quá trình khai phá dữ
liệu có thể sử dụng mô hình để giúp xác định và xử lý các giá trị bị nhiễu hoặc bị thiếu
trong dữ liệu.
Nghiên cứu thống kê phát triển các công cụ để dự đoán và dự báo bằng cách sử
dụng dữ liệu và mô hình thống kê. Phương pháp thống kê có thể được sử dụng để tóm
tắt hoặc mô tả một tập hợp dữ liệu.
Áp dụng các phương pháp thống kê trong khai thác dữ liệu không phải là điều
tầm thường. Thông thường, một thách thức nghiêm trọng là làm thế nào để mở rộng
một phương pháp thống kê trên một tập dữ liệu lớn. Nhiều phương pháp thống kê có
19

độ phức tạp cao trong tính toán. Khi các phương pháp này được áp dụng trên các tập
dữ liệu lớn cũng được phân phối trên nhiều vị trí logic hoặc vật lý, các thuật toán nên
được thiết kế và điều chỉnh cẩn thận để giảm chi phí tính toán. Thách thức này thậm
chí còn trở nên khó khăn hơn đối với các ứng dụng trực tuyến, chẳng hạn như đề xuất
truy vấn trực tuyến trong công cụ tìm kiếm, nơi yêu cầu khai thác dữ liệu để liên tục

xử lý các luồng dữ liệu nhanh, theo thời gian thực.
 Học máy
Máy học nghiên cứu cách máy tính có thể học (hoặc cải thiện hiệu suất của
chúng) dựa trên dữ liệu. Một lĩnh vực nghiên cứu chính là dành cho các chương trình
máy tính tự động học cách nhận ra các mẫu phức tạp và đưa ra các quyết định thông
minh dựa trên dữ liệu.
Đối với các nhiệm vụ phân lớp và phân cụm, nghiên cứu học máy thường tập
trung vào độ chính xác của mô hình. Ngoài độ chính xác, nghiên cứu khai phá dữ liệu
còn nhấn mạnh vào hiệu quả và khả năng mở rộng của các phương pháp khai thác trên
tập dữ liệu lớn, cũng như về các cách xử lý các loại dữ liệu phức tạp và khám phá các
phương pháp thay thế mới.
 Khoa học thông tin
Đây là lĩnh vực học thuật chủ yếu liên quan đến phân tích, thu thập, phân loại ,
thao tác, lưu trữ, truy xuất , di chuyển, phổ biến và bảo vệ thông tin. Một mặt là việc
mở rộng khám phá kiến thức vào kiến trúc dữ liệu của các kho dữ liệu phân tích và
mặt khác là phân tích hình ảnh, giọng nói và văn bản phức tạp với các thuật toán học
máy phát triển cao.
Truy xuất thông tin (IR) là khoa học tìm kiếm tài liệu hoặc thông tin trong tài
liệu. Tài liệu có thể là văn bản hoặc đa phương tiện và có thể nằm trên web. Sự khác
biệt giữa hệ thống cơ sở dữ liệu và truy xuất thông tin truyền thống là gấp đôi:
Truy xuất thông tin giả định rằng (1) dữ liệu đang tìm kiếm là không có cấu
trúc; và (2) các truy vấn được hình thành chủ yếu bởi các từ khóa, không có cấu trúc
phức tạp (không giống như truy vấn SQL trong hệ thống cơ sở dữ liệu) [11].

20

Hơn nữa, một chủ đề trong một tập hợp các tài liệu văn bản có thể được mô
hình hóa dưới dạng phân phối xác suất trên từ vựng, được gọi là mô hình chủ đề. Một
tài liệu văn bản, có thể liên quan đến một hoặc nhiều chủ đề, có thể được coi là một

hỗn hợp của nhiều mô hình chủ đề. Bằng cách tích hợp các mô hình truy xuất thông tin
và kỹ thuật khai phá dữ liệu, có thể tìm thấy các chủ đề chính trong bộ sưu tập tài liệu
và đối với mỗi tài liệu trong bộ sưu tập, các chủ đề chính liên quan.
Ngày càng có nhiều văn bản và dữ liệu đa phương tiện được tích lũy và cung
cấp trực tuyến do tốc độ phát triển nhanh chóng của Web và các ứng dụng như thư
viện in nghiêng, chính phủ kỹ thuật số và hệ thống thông tin chăm sóc sức khỏe. Việc
tìm kiếm và phân tích hiệu quả của họ đã đặt ra nhiều vấn đề thách thức trong việc
khai phá dữ liệu.
 Trực quan hóa
Trực quan hóa dữ liệu cung cấp một cơ chế mạnh mẽ để hỗ trợ người dùng
trong cả quá trình tiền xử lý dữ liệu và khai thác dữ liệu thực tế. Thông qua việc hiển
thị trực quan dữ liệu gốc, người dùng có thể duyệt qua để có được "cảm nhận" về các
thuộc tính của dữ liệu đó. Ví dụ, các mẫu lớn có thể được hình dung và phân tích.
Đặc biệt, trực quan hóa có thể được sử dụng để phát hiện ngoại lệ, làm nổi bật
những điều bất ngờ trong dữ liệu, tức là các trường hợp dữ liệu không tuân thủ hành vi
hoặc mô hình chung của dữ liệu.
Trong quá trình chuyển đổi dữ liệu, việc trực quan hóa dữ liệu có thể giúp
người dùng đảm bảo tính đúng đắn của việc chuyển đổi. Nghĩa là, người dùng có thể
xác định xem hai chế độ xem (gốc so với đã chuyển đổi) của dữ liệu có tương đương
nhau hay không. Hình ảnh hóa cũng có thể được sử dụng để hỗ trợ người dùng khi tích
hợp các nguồn dữ liệu, giúp họ nhìn thấy các mối quan hệ trong các định dạng khác
nhau.
 Các lĩnh vực khác
Ngoài ra, khai phá dữ liệu còn kết hợp các kỹ thuật từ nhiều lĩnh vực khác nhau
như nhận dạng mẫu (Pattern recognition), thuật toán (Algorithms), Tính toán hiệu suất
cao (High-performance computing).
21

2.1.3 Các loại dữ liệu sư dụng

Cơ sở dữ liệu quan hệ (Relational database): Một cơ sở dữ liệu quan hệ là một
loại cơ sở dữ liệu. Nó sử dụng một cấu trúc cho phép chúng ta xác định và truy cập dữ
liệu liên quan đến một phần dữ liệu khác trong cơ sở dữ liệu.
Cơ sở dữ liệu đa chiều (Multidimention strutures, data mart, data warehouse):
Cơ sở dữ liệu đa chiều là một dạng mở rộng của mảng dữ liệu hai chiều, chẳng hạn
như bảng tính, được tổng quát hóa để bao gồm nhiều chiều phục vụ cho quá trình phân
tích cũng như khai phá tri thức.
Cơ sở dữ liệu giao tác (Transactional database): Một bài toán khá điển hình về
dữ liệu giao tác là bài toán khai phá luật kết hợp, mà xuất phát từ việc xem xét các
CSDL giao dịch (bán hàng). Dữ liệu giao tác chính là dữ liệu nguyên thủy xuất hiện
trong định nghĩa về luật kết hợp cùng với các độ đo của luật như độ hỗ trợ và độ tin
cậy.
Cơ sở dữ liệu quan hệ theo hướng đối tượng (Object relational database): là
dạng lai giữa hai mô hình hướng đối tượng và quan hệ.
Cơ sở dữ liệu đa phương tiện (Multimedia databases): là dạng dữ liệu hình ảnh,
văn bản âm thanh,..
2.1.4 Hướng tiếp cận và kỹ thuật chính trong khai phá dữ liệu

Hình 2.0.5. Các vấn đề về học máy [12]

22



Học có giám sát (Supervised Learning): Học có giám sát là một mô hình học máy để
thu thập thông tin mối quan hệ đầu vào - đầu ra của một hệ thống dựa trên một tập hợp
các mẫu đào tạo đầu vào, đầu ra được ghép nối nhất định .
Vì đầu ra được coi là nhãn của dữ liệu đầu vào hoặc sự giám sát, mẫu đào tạo
đầu vào, đầu ra còn được gọi là dữ liệu đào tạo có nhãn, hoặc dữ liệu được giám sát.

Trong các bài toán học có giám sát, các mô hình dự đoán được tạo dựa trên tập
hợp các bản ghi đầu vào với dữ liệu đầu ra (số hoặc nhãn). Dựa trên kết quả / phản hồi
hoặc biến phụ thuộc, các vấn đề học tập có giám sát có thể được phân ra làm hai loại
khác nhau:
 Hồi quy : Khi biến kết quả hoặc biến phản hồi là một biến liên tục (số hoặc số),
nó có thể được gọi là các bài toán hồi quy.
 Phân lớp : Khi biến kết quả hoặc biến phản hồi là một biến rời rạc (nhãn), nó có
thể được gọi là các bài toán phân loại.



Học không giám sát (Unsupervised learning): Quá trình học tập không được giám sát
vì các ví dụ đầu vào không có nhãn lớp. Thông thường, có thể sử dụng phân cụm để
khám phá các lớp trong dữ liệu. Tuy nhiên, vì dữ liệu huấn luyện không được gắn nhãn
nên mô hình đã học không thể cho chúng ta biết ý nghĩa ngữ nghĩa của các cụm được
tìm thấy.

 Học bán giám sát (Semi- Supervised learning): Các vấn đề trong đó bạn có một lượng
lớn dữ liệu đầu vào (X) và chỉ một số dữ liệu được gắn nhãn (Y) được gọi là các vấn
đề học bán giám sát. Những vấn đề này nằm giữa cả việc học có giám sát và không
giám sát.

23

2.1.5 Một số ứng dụng khai phá dữ liệu
2.1.5.1 Ứng dụng trong marketing

Hình 2.0.6. Mô hình tích hợp DM và KM trong Marketing [13]
Mô hình trên được đề xuất bao gồm hai thành phần được kết nối với nhau: khai

thác (DM) và quản lý tri thức (KM).
Thành phần DM bao gồm 2 giai đoạn, giai đoạn 1 “What” nhằm mục đích
khám phá các mặt hàng được mua cùng nhau. Kỹ thuật DM sử dụng cho giai đoạn này
là luật kết hợp (Association rules). Giai đoạn 2 “Who” nhằm trả lời cho câu hỏi ai
đang mua các tập phổ biến được xác định trong giai đoạn 1, tức là xác định thông tin
khách hàng có khả năng mua những món hàng quan trọng. Để làm việc này có thể sử
dụng kỹ thuật phân cụm (Clustering) hoặc mạng neuron (Neural networks) như trong
sơ đồ.
Thành phần thứ hai KM mục đích là nhằm trích xuất kiến thức từ các kết quả
thu được trong thành phần DM trước đó. Nó còn được gọi là giai đoạn “Know” bao
gồm hai nhóm hoạt động chính: (1) Chia sẻ các mẫu thú vị và hồ sơ khách hàng, (2)
Thu thập các ý tưởng mới, xếp hạng và chọn các ý tưởng tiềm năng, từ đó chuyển
thành các chiến lược tiếp thị mới.
Giai đoạn cuối cùng là giai đoạn 4 “How” , nó tập trung tạo ra nhiều chiến lược
hỗ trợ cho không những các nhà quản trị marketing và bán hàng mà còn nhân viên
24

khác. Trong giai đoạn này, điều quan trọng là sử dụng các ý tưởng được trích xuất
trong thành phần KM và hình thành các chiến lược mới, chủ yếu là tập trung vào các
loại chiến lược sáng tạo tiếp thị sau được xác định bởi European Commision (2012):
(1) Phương tiện hoặc kỹ thuật mới để quảng bá sản phẩm, (2) Các phương pháp mới
để bố trí sản phẩm hoặc các kênh bán hàng và (3) Các phương pháp mới về định giá
hàng hóa hoặc dịch vụ. Tác động của giai đoạn này sẽ làm tăng doanh số, chỉ số bán
chéo và khả năng cạnh tranh của công ty. Chúng cũng nên đóng vai trò là phản hồi cho
các thành phần mô hình khác để cải thiện hiệu quả của chúng.
2.1.5.2 Ứng dụng trong quản trị quan hệ khách hàng
Khai phá dữ liệu là một phương pháp hoặc công cụ có thể hỗ trợ các doanh
nghiệp trong các nhiệm vụ hướng đến khách hàng. Mô hình tích hợp bao gồm ba loại
quy trình khai phá dữ liệu, ba giai đoạn của quy trình CRM, một số kỹ thuật cụ thể của

khai phá dữ liệu có thể được sử dụng trong các giai đoạn khác nhau của quy trình
CRM và khả năng áp dụng các kỹ thuật đó. Các ứng dụng của kỹ thuật Khai phá dữ
liệu trở thành yếu tố kích hoạt quan trọng để đưa ra các quyết định chiến lược liên
quan đến quy trình CRM. Việc thực hiện các hành động này được thực hiện trong giai
đoạn hành động của vòng đời CRM.

Hình 2.0.7. Khai phá dữ liệu trong CRM [14]
Trong sơ đồ có các kỹ thuật khai phá dữ liệu khác nhau ứng dụng vào CRM:
25

PHÂN TÍCH HÀNH VI KHÁCH HÀNG DỰA VÀO KỸ THUẬT KHAI PHÁ DỮ LIỆU NHẰM HỖ TRỢ HOẠT ĐỘNG BÁN HÀNG (THỰC NGHIỆM DỮ LIỆU TẠI MỘT SIÊU THỊ)

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về