ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC KINH TÊ
KHÓA LUẬN TỐT NGHIỆP
Chuyên ngành: Thương mại điện tư
Đề tài:
PHÂN TÍCH HÀNH VI KHÁCH HÀNG DỰA
VÀO KỸ THUẬT KHAI PHÁ DỮ LIỆU NHẰM
HỖ TRỢ HOẠT ĐỘNG BÁN HÀNG (THỰC
NGHIỆM DỮ LIỆU TẠI MỘT SIÊU THỊ)
Họ và tên
Mã sinh viên
Lớp
Khóa
Giáo viên hướng dẫn
:
:
:
:
:
Nguyễn Thị Phượng
171121522143
43K22
43
TS. Lê Diên Tuấn
ThS. Trần Văn Lộc
Đà Nẵng, ngày 27 tháng 12 năm 2020
TRANG BÌA PHU
ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC KINH TÊ
KHÓA LUẬN TỐT NGHIỆP
Chuyên ngành: Thương mại điện tư
Đề tài:
PHÂN TÍCH HÀNH VI KHÁCH HÀNG DỰA
VÀO KỸ THUẬT KHAI PHÁ DỮ LIỆU NHẰM
HỖ TRỢ HOẠT ĐỘNG BÁN HÀNG (THỰC
NGHIỆM DỮ LIỆU TẠI MỢT SIÊU THỊ)
Họ và tên
Mã sinh viên
Đà
Lớp
ngày 27 Khóa
Giáo viên hướng dẫn
12 năm
:
:
:
:
:
Nguyễn Thị Phượng
171121522143
Nẵng,
43K22
tháng
43
2020
TS. Lê Diên Tuấn
ThS. Trần Văn Lộc
TÓM TẮT
Trên thế giới, các tập đoàn lớn từ Ford đến Apple đã chi hàng tỷ đô la để phân
tích hành vi khách hàng. Họ muốn biết người tiêu dùng đưa ra quyết định mua như thế
nào và điều gì ảnh hưởng đến những quyết định đó để phát triển kinh doanh cũng như
phát triển chiến lược Marketing. Trong bối cảnh thời đại công nghệ 4.0 các doanh
nghiệp thực hiện triển khai doanh nghiệp số do đó việc phân tích hành vi khách hàng
dựa vào dữ liệu là một xu thế. Chính vì vậy tôi đã chọn để tài “Phân tích hành vi khách
hàng dựa vào kỹ thuật khai phá dữ liệu nhằm nâng cao hiệu quả bán hàng và
marketing online”.
Mục đích nghiên cứu của đề tài là hệ thống hóa những vấn đề lý luận liên quan
đến hành vi khách hàng dựa vào kỹ thuật khai phá dữ liệu như trực quan hóa dữ liệu,
phân cụm và luật kết hợp. Sau đó phân tích tiến hành đề xuất những giải pháp nhằm
nâng cao hiệu quả bán hàng và marketing online cho siêu thị.
3
LỜI CAM ĐOAN
Tôi xin cam đoan đề tài luận văn “Phân tích hành vi khách hàng dựa vào kỹ
thuật khai phá dữ liệu nhằm nâng cao hiệu quả bán hàng và marketing online” là công
trình nghiên cứu của riêng tôi, thực hiện dưới sự hướng dẫn của TS. Lê Diên Tuấn và
ThS. Trần Văn Lộc.
Bài báo cáo luận văn có sử dụng một số tài liệu tham khảo được trích dẫn cụ thể
ở mục tài liệu tham khảo. Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn
chịu trách nhiệm về nội dung bài báo cáo của mình.
Đà Nẵng, ngày 27 tháng 12 năm 2020
Sinh viên thực hiện
Nguyễn Thị Phượng
4
LỜI CẢM ƠN
Trong lời đầu tiên của báo cáo luận văn này, tôi muốn gửi lời cảm ơn và biết ơn
sâu sắc nhất của mình tới hai Thầy TS. Lê Diên Tuấn và ThS. Trần Văn Lộc – Giảng
viên khoa Thương mại điện tử, Trường ĐH Kinh Tế-ĐH Đà Nẵng, người đã trực tiếp
nhận xét, hỗ trợ và chỉ bảo tôi rất nhiều trong thời gian tôi thực hiện luận văn.
Xin chân thành cảm ơn Thầy cô trong khoa Thương mại điện tử và các phòng
ban đã tạo điều kiện tốt nhất cho tôi trong suốt thời gian tôi được học tập tại trường.
Cuối cùng tôi xin gửi lời cảm ơn đến gia đình, bạn bè đặc biệt là những người
bạn trong nhóm The Zoo đã động viên tôi trong quá trình học tập và làm đề tài.
Do sự hạn chế về kiến thức cũng như thời gian thực hiện nên luận văn chắc
chắn sẽ không tránh khỏi những thiếu sót. Tôi rất mong nhận được ý kiến đóng góp
của quý Thầy cô để có thêm kinh nghiệm hoàn thiện luận văn của mình hơn.
Tôi xin chân thành cảm ơn!
Đà Nẵng, ngày 27 tháng 12 năm 2020
Sinh viên thực hiện
Nguyễn Thị Phượng
5
MUC LUC
6
7
DANH MUC HÌNH VẼ ĐỒ THỊ
8
DANH MUC CÁC KÝ HIỆU, CHỮ VIÊT TẮT
STT
Ký hiệu
1
KDD
Nguyên nghĩa
Knowledge Discovery in Database (Phát hiện tri
thức trong cơ sở dữ liệu)
2
DM
3
CRISP-DM
Data Mining (Khai phá dữ liệu)
Cross- Industry Standard Process for Data Mining
(Quy trình tiêu chuẩn xuyên ngành cho khai phá dữ liệu)
4
IR
Information Retrieval (Truy xuất thông tin)
5
KM
Knowledge Management (Quản lý tri thức)
6
CRM
Customer Relationship Management (Quản trị
quan hệ khách hàng)
7
BI
8
DSS
Business Intelligence (Kinh doanh thông minh)
Decision Support System (Hệ thống hỗ trợ ra
quyết định)
9
DW
Data Warehouse (Kho dữ liệu)
10
EIS
Executive Information System (Hệ thống điều
hành thông tin)
11
ETL
Extract – Transform – Load (Trích xuất - Chuyển
đổi – Tải)
12
ODS
Operational Data Store (Kho lưu trữ dữ liệu vận
hành)
13
OLTP
On-line Transactional Processing (Tiến trình xử lý
giao dịch trực tuyến)
14
OLAP
On-line Analytical Processing (Tiến trình phân
tích trực tuyến)
9
15
EM
Expectation Maximization (Tối đa hóa sự kỳ
vọng)
16
FP
17
SPSS
Frequent Pattern (Tập phổ biến)
Statistical Package for the Social Sciences (Gói
phần mềm thống kê cho khoa học xã hội)
18
GDN
Google Display Network (Mạng lưới quảng cáo
hiển thị Google)
10
CHƯƠNG 1:
GIỚI THIỆU TỔNG QUAN
1.1 Tính cấp thiết của đề tài
Trong những năm gần đây với sự phát triển vượt bậc không ngừng của tiến bộ
khoa học kĩ thuật đã tạo nên sự bùng nổ về dữ liệu, đặc biệt là với các nhà bán lẻ tích
tụ một khối lượng thông tin khổng lồ được lưu trữ trong cơ sở dữ liệu của doanh
nghiệp. Trên thế giới, Walmart đóng vai trò tiên phong trong việc sử dụng DM cho
doanh nghiệp, công ty này được công nhận là công ty tốt nhất tỏng việc tận dụng cơ sở
dữ liệu khổng lồ của họ để hỗ trợ chiến lược dẫn đầu chi phí thấp [1].
Có thể nói, dữ liệu thông tin khách hàng đóng vai trò quan trọng trong trung
tâm hệ sinh thái kinh doanh của mỗi doanh nghiệp. Tuy nhiên, từ dữ liệu đó làm thế
nào để có được những kết quả chính xác phục vụ cho việc nâng cao hiệu quả bán hàng
hay hỗ trợ đưa ra những giải pháp marketing online thì vẫn còn là vấn đề nan giải của
nhiều doanh nghiệp.
Tại Việt Nam, thói quen mua sắm của người tiêu dùng tại các đô thị dần thay
đổi dưới sự phát triển của thương mại điện tử. Với sự tiện nghi và an toàn có thể thấy
người tiêu dùng chuyển hướng sang mua sắm tại siêu thị tăng dần. Các giao dịch mua
sắm của khách hàng được lưu lại trong cơ sở dữ của siêu thị đã tạo ra một nhu cầu rất
cấp thiết về các kỹ thuật và công cụ có thể chuyển đổi dữ liệu thành thông tin và kiến
thức hữu ích nhằm hỗ trợ trong kinh doanh. Những nhà quản lý siêu thị mong muốn
tìm ra được những thông tin có giá trị, những hành vi mua sắm của khách hàng nhằm
hỗ trợ chiến lược marketing online hiệu quả cũng như hỗ trợ phát triển bán hàng cho
doanh nghiệp.
Từ nhận định những vấn đề đã phân tích ở trên, tôi đã quyết định chọn đề tài
khóa luận tốt nghiệp “Phân tích hành vi khách hàng dựa vào kỹ thuật khai phá dữ liệu
nhằm nâng cao hiệu quả bán hàng và Marketing online” với dữ liệu xây dựng thực
nghiệm từ siêu thị.
11
1.2
Mục tiêu nghiên cứu
1.2.1 Lý thuyết
- Tìm hiểu khái quát quy trình khai phá dữ liệu và phát hiện tri thức dựa vào dữ
liệu, nắm được lý thuyết cơ bản về môi trường BI có liên quan đến khai phá dữ
liệu.
- Hệ thống hóa được các kỹ thuật cơ bản trong khai phá dữ liệu như phân cụm,
luật kết hợp.
- Nắm được bản chất về marketing online đặc biệt một số lý thuyết liên quan đến
marketing online hướng vào dữ liệu.
1.2.2 Ứng dụng
- Phân tích thực trạng hoạt động bán hàng từ dữ liệu thực nghiệm của siêu thị
bằng trực quan hóa dữ liệu dựa vào phần mềm Power BI.
- Phân tích hành vi khách hàng có cùng đặc điểm mua hàng giống nhau dựa vào
phân cụm bằng phần mềm Rstudio.
- Phát hiện mối quan hệ giữa các thuộc tính sản phẩm mà khách hàng đã mua dựa
vào luật kết hợp bằng phần mềm Rstudio.
- Đề xuất giải pháp để nâng cao hiệu quả bán hàng và marketing online cho siêu
thị từ thực trạng đã phân tích.
1.3 Đối tượng, phạm vi nghiên cứu
Đối tượng nghiên cứu: dữ liệu siêu thị từ cộng đồng nghiên cứu Kaggle
Mẫu nghiên cứu: 500 khách hàng mua sắm tại siêu thị
Thời gian nghiên cứu: từ tháng 9 đến tháng 12 năm 2020
1.4 Phương pháp nghiên cứu
Đề tài sử dụng kết hợp nhiều phương pháp nghiên cứu, với một số phương pháp
được liệt kê như sau:
Phương pháp thống kê mô tả
Phương pháp thống kê suy luận
Phương pháp tổng hợp
Phương pháp data mining
Phương pháp mô hình hóa
1.5 Kết cấu đề tài
Kết cấu khóa luận bao gồm 4 chương:
12
Chương 1: Giới thiệu tổng quan
Chương 2: Cơ sở lý thuyết
Chương 3: Phân tích thực trạng hành vi khách hàng dựa vào kỹ thuật khai phá
dữ liệu
Chương 4: Đề xuất giải pháp nhằm nâng cao hiệu quả bán hàng và Marketing
online.
Chương 5: Kết luận và hướng phát triển của đề tài
13
CHƯƠNG 2:
CƠ SỞ LÝ THUYÊT
2.1 Tổng quan khai phá dữ liệu
2.1.1 Khái niệm
Phát hiện tri thức từ cơ sở dữ liệu
Phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in Database –
KDD) là một quá trình quan trọng để xác định các mẫu hoặc mối quan hệ hợp lệ, mới
lạ có thể hữu ích và cuối cùng là dễ hiểu trong tập dữ liệu để đưa ra các quyết định
quan trọng ( Fayyad, Piatetsky-shapiro, & Smyth, 1996 ) [2].
Để bắt đầu phát hiện tri thức cần phân biệt rõ ba khái niệm: dữ liệu, thông tin và
tri thức. Dữ liệu là tín hiệu (signals) thu được do quan sát, đo dạc, thu thập, cụ thể dữ
liệu là giá trị (values) của các thuộc tính (features) của các đối tượng. Thông tin là dữ
liệu có ý nghĩa (data equiped with meaning), thu được khi xử lý dữ liệu để lọc bỏ đi
các phần dư thừa, tìm ra phần cốt lõi đặc trưng cho dữ liệu. Kiến thức là nhận thức
hoặc công nhận, năng lực hành động và hiểu (biết tại sao) nằm trong hoặc chứa trong
tâm trí hoặc trong não. Mục đích của kiến thức là cải thiện cuộc sống của chúng
ta. Trong bối cảnh kinh doanh, mục đích của kiến thức là tạo ra hoặc gia tăng giá trị
cho doanh nghiệp và tất cả các bên liên quan. Tóm lại, mục đích cuối cùng của tri thức
là để tạo ra giá trị [3].
Trong hình dưới đây thấy được quá trình phát hiện tri thức gồm nhiều giai đoạn.
Đầu ra của giai đoạn này là đầu vào của giai đoạn sau, quá trình phát hiện tri thức gồm
các bước cơ bản sau:
Hình 2.0.1. Quá trình khai phá tri thức [4]
14
Chọn lọc dữ liệu (Data selection): Giai đoạn này thực hiện hai công việc chính.
Thứ nhất, phát triển và tìm hiểu miền ứng dụng. Thứ hai tạo tập dữ liệu đích từ nguồn
dữ liệu vô cùng lớn. Kết quả của bước này là dữ liệu mục tiêu (Target data).
Tiền xử lý dữ liệu (Data preprocessing): bao gồm xử lý dữ liệu bị nhiễu và
thiếu. Giai đoạn này cũng đảm bảo các giá trị có ý nghĩa thống nhất tạo ra quy trình
KDD có kết quả chính xác. Kết quả của bước này là dữ liệu được làm sạch (Cleaned
data) hoặc dữ liệu được tiền xử lý ( Pre-processed data).
Chuyển đổi dữ liệu (Data transformation): Quá trình này là giai đoạn xử lý dữ
liệu cuối cùng trước khi áp dụng các kỹ thuật phân tích dữ liệu. Nó bao gồm việc tìm
kiếm các thuộc tính hữu ích bằng cách áp dụng các phương pháp biến đổi và giảm thứ
nguyên, đồng thời tìm cách biểu diễn bất biến của dữ liệu. Kết quả của tiến trình này là
dữ liệu được biến đổi (Transformed data).
Khai phá dữ liệu (Data mining): Quá trình này bao gồm ba bước hoặc nhiệm vụ
con. Đầu tiên, chọn nhiệm vụ khai thác dữ liệu bằng cách so với các mục tiêu được
xác định trong giai đoạn đầu với một phương pháp khai thác dữ liệu cụ thể như phân
cụm, hồi quy, phân lớp, v.v. Thứ hai, chọn (các) thuật toán khai thác dữ liệu và chọn
(các) phương pháp và tham số để tìm kiếm các mẫu trong dữ liệu. Thứ ba, áp dụng
(các) thuật toán khai thác dữ liệu để tạo ra các mẫu dữ liệu trong một dạng biểu diễn
cụ thể. Kết quả của giai đoạn này là mẫu (Patterns) và mô hình (Models).
Đánh giá kết quả mẫu (Interpretation/Evaluation): Quá trình này bao gồm hai
bước. Đầu tiên, diễn giải các mẫu đã khai thác. Bước này cũng có thể bao gồm việc
trực quan hóa các mẫu và mô hình được trích xuất hoặc dữ liệu được trích xuất từ các
mô hình được trích xuất. Thứ hai, củng cố kiến thức đã khám phá bằng cách kết hợp
kiến thức đó vào hệ thống thực hiện, hoặc đơn giản là tài liệu hóa và báo cáo cho các
bên mong muốn. Bước này có thể bao gồm việc kiểm tra và khắc phục mọi xung đột
tiềm ẩn với kiến thức đã tin trước đó. Kết quả của quá trình này là kiến thức tiềm năng
(Knowledge) [5].
Khai phá dữ liệu
Khai phá dữ liệu (Data mining - DM) là một khái niệm có nguồn gốc ra đời vào
những năm cuối những năm 1980. Nó là quá trình trích xuất thông tin ẩn, ngầm mới lạ
15
và hữu ích từ trong các kho dữ liệu, cơ sở dữ liệu để ứng dụng vào những quyết định
kinh doanh hoặc những lĩnh vực khác [6].
Các bước của quá trình khai phá dữ liệu có thể được mô tả dưới sơ đồ sau:
Hình 2.0.2. Quá trình khai phá dữ liệu
Quy trình xử lý khai phá dữ liệu bắt đầu bằng cách xác định chính xác vấn đề
cần giải quyết. Sau đó sẽ xác định các dữ liệu liên quan dùng để xây dựng giải pháp
giải quyết nhiệm vụ bài toán.
Bước tiếp theo là thu thập các dữ liệu có liên quan và xử lý chúng thành dạng
sao cho giải thuật khai phá dữ liệu có thể hiểu được. Đây thực sự là một quá trình rất
khó khăn, gặp phải rất nhiều vướng mắc như: các dữ liệu phải được sao ra nhiều bản
(nếu được chiết xuất vào các tệp), quản lý tập các tệp dữ liệu, phải lặp đi lặp lại nhiều
lần toàn bộ quá trình (nếu mô hình dữ liệu thay đổi),… Do đó, trong bước này phải
thực hiện tiền xử lý dữ liệu . Quá trình tiền xử lý yêu cầu đầu tiên phải nắm được dạng
dữ liệu, thuộc tính, mô tả của dữ liệu thao tác. Sau đó tiến hành 4 giai đoạn chính: làm
sạch, tích hợp, biến đổi, thu giảm dữ liệu.
Bước tiếp theo trong quy trình khai phá dữ liệu là chọn thuật toán khai phá dữ
liệu thích hợp và thực hiện việc khai phá nhằm tìm được các mẫu có ý nghĩa dưới dạng
biểu diễn tương ứng với ý nghĩa đó.
CRISP-DM (Cross Industry Standard Process for Data Mining)
Ngày nay, các nhà nghiên cứu với sự tham gia mạnh mẽ trong lĩnh vực công
nghiệp đã nhận ra nhu cầu từ DM đến KDD để cung cấp kiến thức hữu ích cho việc ra
16
quyết định kinh doanh. Theo truyền thống, một tiêu chuẩn, được đặt tên là CRISP-DM
(Cross Industry Standard Process for Data Mining).
Hình 2.0.3. Tiến trình CRISP - DM [7]
Hiểu biết kinh doanh: Giai đoạn này tập trung vào việc hiểu các mục tiêu dự án
và các yêu cầu từ quan điểm kinh doanh.
Hiểu dữ liệu: Giai đoạn hiểu dữ liệu bắt đầu với việc thu thập dữ liệu ban đầu
và tiến hành các hoạt động để làm quen với dữ liệu, xác định dữ liệu vấn đề
chất lượng, để khám phá thông tin chi tiết đầu tiên về dữ liệu hoặc phát hiện các
tập hợp con thú vị để hình thành các giả thuyết cho thông tin ẩn.
Chuẩn bị dữ liệu: Giai đoạn chuẩn bị dữ liệu bao gồm tất cả các hoạt động cần
thiết để xây dựng tập dữ liệu cuối cùng từ dữ liệu thô ban đầu. Các nhiệm vụ
chuẩn bị dữ liệu có thể được thực hiện lặp đi lặp lại và không theo bất kỳ thứ tự
quy định nào.
Mô hình hóa: Trong giai đoạn này, các kỹ thuật mô hình hóa khác nhau được
lựa chọn và áp dụng và các tham số của chúng được hiệu chỉnh đến giá trị tối
ưu. Thông thường, có một số kỹ thuật cho cùng một loại vấn đề DM. Một số kỹ
thuật có các yêu cầu cụ thể về dạng dữ liệu.
17
Đánh giá: Từ góc độ phân tích dữ liệu, các mô hình có vẻ chất lượng cao sẽ
được xây dựng trong giai đoạn này của dự án. Trước khi chuyển sang mô hình
cuối cùng triển khai, điều quan trọng là phải đánh giá mô hình kỹ lưỡng hơn và
xem xét các bước thực hiện để xây dựng nó để chắc chắn rằng nó đạt được các
mục tiêu kinh doanh. Tại cuối giai đoạn này, cần đạt được quyết định về cách sử
dụng các kết quả DM.
Triển khai: Xây dựng mô hình nói chung không phải là kết thúc của dự án.
Thậm chí nếu mục đích của mô hình là tăng cường kiến thức về dữ liệu, kiến
thức thu được sẽ cần được tổ chức và trình bày theo cách mà khách hàng có thể
sử dụng.
2.1.2 Sự liên ngành của hệ thống khai phá dữ liệu
Khai phá dữ liệu đã kết hợp nhiều kỹ thuật từ các lĩnh vực khác như thống kê,
học máy, nhận dạng mẫu, cơ sở dữ liệu và hệ thống kho dữ liệu, truy xuất thông tin,
trực quan hóa, thuật toán, tính toán hiệu suất cao và nhiều miền ứng dụng khác. Bản
chất liên ngành của nghiên cứu và phát triển khai phá dữ liệu đóng góp đáng kể vào sự
thành công của khai phá dữ liệu và các ứng dụng rộng rãi của nó.
Khai phá dữ liệu có nguồn gốc liên quan đến các lĩnh vực sau:
Hình 2.0.4. Khai phá dữ liệu từ nhiều lĩnh vực [8]
Hệ thống cơ sở dữ liệu và kho dữ liệu
Nghiên cứu hệ thống cơ sở dữ liệu chủ đích để tạo, duy trì và sử dụng cơ sở dữ
liệu cho các tổ chức và người dùng cuối. Đặc biệt, các nhà nghiên cứu hệ thống cơ sở
dữ liệu đã thiết lập các nguyên tắc được công nhận cao trong mô hình dữ liệu, ngôn
18
ngữ truy vấn, phương pháp xử lý và tối ưu hóa truy vấn, lưu trữ dữ liệu cũng như
phương pháp lập chỉ mục và truy cập. Hệ thống cơ sở dữ liệu thường được biết đến với
khả năng mở rộng cao trong việc xử lý các tập dữ liệu rất lớn, có cấu trúc tương đối.
Các hệ thống cơ sở dữ liệu gần đây đã xây dựng khả năng phân tích dữ liệu có
hệ thống trên dữ liệu cơ sở dữ liệu bằng cách sử dụng kho dữ liệu và các phương tiện
khai thác dữ liệu. Kho dữ liệu tích hợp dữ liệu có nguồn gốc từ nhiều nguồn và nhiều
khung thời gian khác nhau [9]. Nó hợp nhất dữ liệu trong không gian đa chiều để tạo
thành các khối dữ liệu được vật chất hóa một phần. Mô hình khối dữ liệu không chỉ
tạo điều kiện cho OLAP trong cơ sở dữ liệu đa chiều mà còn thúc đẩy khai thác dữ liệu
đa chiều.
Thống kê
Thống kê nghiên cứu việc thu thập, phân tích, hoặc giải thích và trình bày dữ
liệu. Khai phá dữ liệu có một kết nối cố hữu với thống kê [10]. Mô hình thống kê là
một tập hợp các hàm toán học mô tả hành vi của các đối tượng trong lớp mục tiêu dưới
dạng các biến ngẫu nhiên và phân phối xác suất liên quan của chúng. Mô hình thống
kê được sử dụng rộng rãi để biểu diễn mô hình dữ liệu và các lớp dữ liệu.
Chẳng hạn như, trong các tác vụ khai phá dữ liệu như đặc tính và phân loại dữ
liệu, có thể xây dựng các mô hình thống kê của các lớp mục tiêu. Nói cách khác, các
mô hình thống kê như vậy có thể là kết quả của một nhiệm vụ khai thác dữ liệu. Ngoài
ra, các nhiệm vụ khai thác dữ liệu có thể được xây dựng dựa trên các mô hình thống
kê. Ví dụ, chúng ta có thể sử dụng thống kê để lập mô hình nhiễu và các giá trị dữ liệu
bị thiếu. Sau đó, khi khai thác các mẫu trong một tập dữ liệu lớn, quá trình khai phá dữ
liệu có thể sử dụng mô hình để giúp xác định và xử lý các giá trị bị nhiễu hoặc bị thiếu
trong dữ liệu.
Nghiên cứu thống kê phát triển các công cụ để dự đoán và dự báo bằng cách sử
dụng dữ liệu và mô hình thống kê. Phương pháp thống kê có thể được sử dụng để tóm
tắt hoặc mô tả một tập hợp dữ liệu.
Áp dụng các phương pháp thống kê trong khai thác dữ liệu không phải là điều
tầm thường. Thông thường, một thách thức nghiêm trọng là làm thế nào để mở rộng
một phương pháp thống kê trên một tập dữ liệu lớn. Nhiều phương pháp thống kê có
19
độ phức tạp cao trong tính toán. Khi các phương pháp này được áp dụng trên các tập
dữ liệu lớn cũng được phân phối trên nhiều vị trí logic hoặc vật lý, các thuật toán nên
được thiết kế và điều chỉnh cẩn thận để giảm chi phí tính toán. Thách thức này thậm
chí còn trở nên khó khăn hơn đối với các ứng dụng trực tuyến, chẳng hạn như đề xuất
truy vấn trực tuyến trong công cụ tìm kiếm, nơi yêu cầu khai thác dữ liệu để liên tục
xử lý các luồng dữ liệu nhanh, theo thời gian thực.
Học máy
Máy học nghiên cứu cách máy tính có thể học (hoặc cải thiện hiệu suất của
chúng) dựa trên dữ liệu. Một lĩnh vực nghiên cứu chính là dành cho các chương trình
máy tính tự động học cách nhận ra các mẫu phức tạp và đưa ra các quyết định thông
minh dựa trên dữ liệu.
Đối với các nhiệm vụ phân lớp và phân cụm, nghiên cứu học máy thường tập
trung vào độ chính xác của mô hình. Ngoài độ chính xác, nghiên cứu khai phá dữ liệu
còn nhấn mạnh vào hiệu quả và khả năng mở rộng của các phương pháp khai thác trên
tập dữ liệu lớn, cũng như về các cách xử lý các loại dữ liệu phức tạp và khám phá các
phương pháp thay thế mới.
Khoa học thông tin
Đây là lĩnh vực học thuật chủ yếu liên quan đến phân tích, thu thập, phân loại ,
thao tác, lưu trữ, truy xuất , di chuyển, phổ biến và bảo vệ thông tin. Một mặt là việc
mở rộng khám phá kiến thức vào kiến trúc dữ liệu của các kho dữ liệu phân tích và
mặt khác là phân tích hình ảnh, giọng nói và văn bản phức tạp với các thuật toán học
máy phát triển cao.
Truy xuất thông tin (IR) là khoa học tìm kiếm tài liệu hoặc thông tin trong tài
liệu. Tài liệu có thể là văn bản hoặc đa phương tiện và có thể nằm trên web. Sự khác
biệt giữa hệ thống cơ sở dữ liệu và truy xuất thông tin truyền thống là gấp đôi:
Truy xuất thông tin giả định rằng (1) dữ liệu đang tìm kiếm là không có cấu
trúc; và (2) các truy vấn được hình thành chủ yếu bởi các từ khóa, không có cấu trúc
phức tạp (không giống như truy vấn SQL trong hệ thống cơ sở dữ liệu) [11].
20
Hơn nữa, một chủ đề trong một tập hợp các tài liệu văn bản có thể được mô
hình hóa dưới dạng phân phối xác suất trên từ vựng, được gọi là mô hình chủ đề. Một
tài liệu văn bản, có thể liên quan đến một hoặc nhiều chủ đề, có thể được coi là một
hỗn hợp của nhiều mô hình chủ đề. Bằng cách tích hợp các mô hình truy xuất thông tin
và kỹ thuật khai phá dữ liệu, có thể tìm thấy các chủ đề chính trong bộ sưu tập tài liệu
và đối với mỗi tài liệu trong bộ sưu tập, các chủ đề chính liên quan.
Ngày càng có nhiều văn bản và dữ liệu đa phương tiện được tích lũy và cung
cấp trực tuyến do tốc độ phát triển nhanh chóng của Web và các ứng dụng như thư
viện in nghiêng, chính phủ kỹ thuật số và hệ thống thông tin chăm sóc sức khỏe. Việc
tìm kiếm và phân tích hiệu quả của họ đã đặt ra nhiều vấn đề thách thức trong việc
khai phá dữ liệu.
Trực quan hóa
Trực quan hóa dữ liệu cung cấp một cơ chế mạnh mẽ để hỗ trợ người dùng
trong cả quá trình tiền xử lý dữ liệu và khai thác dữ liệu thực tế. Thông qua việc hiển
thị trực quan dữ liệu gốc, người dùng có thể duyệt qua để có được "cảm nhận" về các
thuộc tính của dữ liệu đó. Ví dụ, các mẫu lớn có thể được hình dung và phân tích.
Đặc biệt, trực quan hóa có thể được sử dụng để phát hiện ngoại lệ, làm nổi bật
những điều bất ngờ trong dữ liệu, tức là các trường hợp dữ liệu không tuân thủ hành vi
hoặc mô hình chung của dữ liệu.
Trong quá trình chuyển đổi dữ liệu, việc trực quan hóa dữ liệu có thể giúp
người dùng đảm bảo tính đúng đắn của việc chuyển đổi. Nghĩa là, người dùng có thể
xác định xem hai chế độ xem (gốc so với đã chuyển đổi) của dữ liệu có tương đương
nhau hay không. Hình ảnh hóa cũng có thể được sử dụng để hỗ trợ người dùng khi tích
hợp các nguồn dữ liệu, giúp họ nhìn thấy các mối quan hệ trong các định dạng khác
nhau.
Các lĩnh vực khác
Ngoài ra, khai phá dữ liệu còn kết hợp các kỹ thuật từ nhiều lĩnh vực khác nhau
như nhận dạng mẫu (Pattern recognition), thuật toán (Algorithms), Tính toán hiệu suất
cao (High-performance computing).
21
2.1.3 Các loại dữ liệu sư dụng
Cơ sở dữ liệu quan hệ (Relational database): Một cơ sở dữ liệu quan hệ là một
loại cơ sở dữ liệu. Nó sử dụng một cấu trúc cho phép chúng ta xác định và truy cập dữ
liệu liên quan đến một phần dữ liệu khác trong cơ sở dữ liệu.
Cơ sở dữ liệu đa chiều (Multidimention strutures, data mart, data warehouse):
Cơ sở dữ liệu đa chiều là một dạng mở rộng của mảng dữ liệu hai chiều, chẳng hạn
như bảng tính, được tổng quát hóa để bao gồm nhiều chiều phục vụ cho quá trình phân
tích cũng như khai phá tri thức.
Cơ sở dữ liệu giao tác (Transactional database): Một bài toán khá điển hình về
dữ liệu giao tác là bài toán khai phá luật kết hợp, mà xuất phát từ việc xem xét các
CSDL giao dịch (bán hàng). Dữ liệu giao tác chính là dữ liệu nguyên thủy xuất hiện
trong định nghĩa về luật kết hợp cùng với các độ đo của luật như độ hỗ trợ và độ tin
cậy.
Cơ sở dữ liệu quan hệ theo hướng đối tượng (Object relational database): là
dạng lai giữa hai mô hình hướng đối tượng và quan hệ.
Cơ sở dữ liệu đa phương tiện (Multimedia databases): là dạng dữ liệu hình ảnh,
văn bản âm thanh,..
2.1.4 Hướng tiếp cận và kỹ thuật chính trong khai phá dữ liệu
Hình 2.0.5. Các vấn đề về học máy [12]
22
Học có giám sát (Supervised Learning): Học có giám sát là một mô hình học máy để
thu thập thông tin mối quan hệ đầu vào - đầu ra của một hệ thống dựa trên một tập hợp
các mẫu đào tạo đầu vào, đầu ra được ghép nối nhất định .
Vì đầu ra được coi là nhãn của dữ liệu đầu vào hoặc sự giám sát, mẫu đào tạo
đầu vào, đầu ra còn được gọi là dữ liệu đào tạo có nhãn, hoặc dữ liệu được giám sát.
Trong các bài toán học có giám sát, các mô hình dự đoán được tạo dựa trên tập
hợp các bản ghi đầu vào với dữ liệu đầu ra (số hoặc nhãn). Dựa trên kết quả / phản hồi
hoặc biến phụ thuộc, các vấn đề học tập có giám sát có thể được phân ra làm hai loại
khác nhau:
Hồi quy : Khi biến kết quả hoặc biến phản hồi là một biến liên tục (số hoặc số),
nó có thể được gọi là các bài toán hồi quy.
Phân lớp : Khi biến kết quả hoặc biến phản hồi là một biến rời rạc (nhãn), nó có
thể được gọi là các bài toán phân loại.
Học không giám sát (Unsupervised learning): Quá trình học tập không được giám sát
vì các ví dụ đầu vào không có nhãn lớp. Thông thường, có thể sử dụng phân cụm để
khám phá các lớp trong dữ liệu. Tuy nhiên, vì dữ liệu huấn luyện không được gắn nhãn
nên mô hình đã học không thể cho chúng ta biết ý nghĩa ngữ nghĩa của các cụm được
tìm thấy.
Học bán giám sát (Semi- Supervised learning): Các vấn đề trong đó bạn có một lượng
lớn dữ liệu đầu vào (X) và chỉ một số dữ liệu được gắn nhãn (Y) được gọi là các vấn
đề học bán giám sát. Những vấn đề này nằm giữa cả việc học có giám sát và không
giám sát.
23
2.1.5 Một số ứng dụng khai phá dữ liệu
2.1.5.1 Ứng dụng trong marketing
Hình 2.0.6. Mô hình tích hợp DM và KM trong Marketing [13]
Mô hình trên được đề xuất bao gồm hai thành phần được kết nối với nhau: khai
thác (DM) và quản lý tri thức (KM).
Thành phần DM bao gồm 2 giai đoạn, giai đoạn 1 “What” nhằm mục đích
khám phá các mặt hàng được mua cùng nhau. Kỹ thuật DM sử dụng cho giai đoạn này
là luật kết hợp (Association rules). Giai đoạn 2 “Who” nhằm trả lời cho câu hỏi ai
đang mua các tập phổ biến được xác định trong giai đoạn 1, tức là xác định thông tin
khách hàng có khả năng mua những món hàng quan trọng. Để làm việc này có thể sử
dụng kỹ thuật phân cụm (Clustering) hoặc mạng neuron (Neural networks) như trong
sơ đồ.
Thành phần thứ hai KM mục đích là nhằm trích xuất kiến thức từ các kết quả
thu được trong thành phần DM trước đó. Nó còn được gọi là giai đoạn “Know” bao
gồm hai nhóm hoạt động chính: (1) Chia sẻ các mẫu thú vị và hồ sơ khách hàng, (2)
Thu thập các ý tưởng mới, xếp hạng và chọn các ý tưởng tiềm năng, từ đó chuyển
thành các chiến lược tiếp thị mới.
Giai đoạn cuối cùng là giai đoạn 4 “How” , nó tập trung tạo ra nhiều chiến lược
hỗ trợ cho không những các nhà quản trị marketing và bán hàng mà còn nhân viên
24
khác. Trong giai đoạn này, điều quan trọng là sử dụng các ý tưởng được trích xuất
trong thành phần KM và hình thành các chiến lược mới, chủ yếu là tập trung vào các
loại chiến lược sáng tạo tiếp thị sau được xác định bởi European Commision (2012):
(1) Phương tiện hoặc kỹ thuật mới để quảng bá sản phẩm, (2) Các phương pháp mới
để bố trí sản phẩm hoặc các kênh bán hàng và (3) Các phương pháp mới về định giá
hàng hóa hoặc dịch vụ. Tác động của giai đoạn này sẽ làm tăng doanh số, chỉ số bán
chéo và khả năng cạnh tranh của công ty. Chúng cũng nên đóng vai trò là phản hồi cho
các thành phần mô hình khác để cải thiện hiệu quả của chúng.
2.1.5.2 Ứng dụng trong quản trị quan hệ khách hàng
Khai phá dữ liệu là một phương pháp hoặc công cụ có thể hỗ trợ các doanh
nghiệp trong các nhiệm vụ hướng đến khách hàng. Mô hình tích hợp bao gồm ba loại
quy trình khai phá dữ liệu, ba giai đoạn của quy trình CRM, một số kỹ thuật cụ thể của
khai phá dữ liệu có thể được sử dụng trong các giai đoạn khác nhau của quy trình
CRM và khả năng áp dụng các kỹ thuật đó. Các ứng dụng của kỹ thuật Khai phá dữ
liệu trở thành yếu tố kích hoạt quan trọng để đưa ra các quyết định chiến lược liên
quan đến quy trình CRM. Việc thực hiện các hành động này được thực hiện trong giai
đoạn hành động của vòng đời CRM.
Hình 2.0.7. Khai phá dữ liệu trong CRM [14]
Trong sơ đồ có các kỹ thuật khai phá dữ liệu khác nhau ứng dụng vào CRM:
25