Tải bản đầy đủ (.pdf) (68 trang)

Phân loại nhóm khách hàng bằng luật kết hợp cho hệ thống bán hàng Chay Âu Lạc (Luận văn thạc sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.92 MB, 68 trang )

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
--------------------------------

VŨ XUÂN AN

PHÂN LOẠI NHÓM HÁCH HÀNG
BẰNG LUẬT KẾT HỢP CHO HỆ THỐNG BÁN HÀNG
CHAY ÂU LẠC
CHUYÊN NGÀNH:
MÃ SỐ:

HỆ THỐNG THÔNG TIN
84.80.104

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. TÂN HẠNH

TP HỒ CHÍ MINH - 2018


HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
--------------------------------

VŨ XUÂN AN

PHÂN LOẠI NHÓM KHÁCH HÀNG
BẰNG LUẬT KẾT HỢP CHO HỆ THỐNG BÁN HÀNG
CHAY ÂU LẠC
LUẬN VĂN THẠC SĨ KỸ THUẬT


(Theo định hướng ứng dụng)

TP HỒ CHÍ MINH - 2018


LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai
công bố trong bất kì tài liệu nào khác.
TP. Hồ Chí Minh, ngày 08 tháng 5 năm 2018
Học viên thực hiện luận văn

VŨ XUÂN AN


LỜI CẢM ƠN
Tôi xin bày tỏ lòng biết ơn chân thành nhất đến TS. Tân Hạnh, Thầy đã tận
tâm chỉ dẫn, truyền đạt những kiến thức và kinh nghiệm quý báu cho tôi suốt quá
trình thực hiện luận văn này.
Tôi cũng xin được gửi lời cảm ơn đến các quí Thầy Cô giáo trong khoa Quốc
tế và Đào tạo Sau đại học, Học Viện Công Nghệ Bưu Chính Viễn Thông đã trang bị
cho tôi những kiến thức nền tảng quan trọng trong suốt quá trình tôi theo học.
Tôi xin chân thành cảm ơn Lãnh đạo Công Ty Trách Nhiệm Hữu Hạn &
Kinh Doanh Thực Phẩm Chay Âu Lạc đã tạo điều kiện và cung cấp số liệu cho tôi
hoàn thiện luận văn này.
Và cuối cùng, tôi xin được gửi lời cảm ơn đến gia đình và bạn bè, những
người đã động viên tôi trong suốt thời gian vừa qua.
Mặc dù đã cố gắng song luận văn cũng không tránh khỏi những thiếu sót.
Tôi rất mong nhận được những ý kiến đóng góp của Thầy Cô để tôi có thể hoàn

thiện hơn đề tài của mình.
Xin trân trọng cảm ơn.
Tp. Hồ Chí Minh, ngày 08 tháng 05 năm 2018
Học viên thực hiện luận văn

VŨ XUÂN AN


iii

MỤC LỤC
LỜI CAM ĐOAN ............................................................................................................ i
LỜI CẢM ƠN ................................................................................................................ iii
DANH SÁCH BẢNG .................................................................................................... vi
DANH SÁCH HÌNH VẼ .............................................................................................. vii
MỞ ĐẦU ......................................................................................................................... 1
CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI............................................................................. 2
1.1 Tổng quan về tình hình nghiên cứu đề tài ............................................................. 2
1.2 Mục đích nghiên cứu ............................................................................................. 3
1.3 Đối tượng và phạm vi nghiên cứu ......................................................................... 3
1.4 Phương pháp nghiên cứu....................................................................................... 3
1.5 Cấu trúc của luận văn ............................................................................................ 4
1.6 Giới thiệu thực phẩm Chay Âu Lạc ...................................................................... 4
CHƯƠNG 2: LÝ THUYẾT DỰ ĐOÁN ........................................................................ 7
DỰA TRÊN KHAI PHÁ DỮ LIỆU ............................................................................... 7
2.1 Khái niệm dự đoán ................................................................................................ 7
2.2 Khai phá dữ liệu .................................................................................................... 9
2.2.1 Quá trình khai phá tri thức từ dữ liệu ............................................................ 9
2.2.2 Mục tiêu của khai phá dữ liệu ..................................................................... 10
2.2.3 Các bài toán thông dụng trong khai phá dữ liệu.......................................... 10

2.2.4 Các Cơ sở dữ liệu phục vụ cho việc khai phá dữ liệu ................................. 11
2.3 Dự đoán dựa trên khai phá dữ liệu ...................................................................... 11
2.3.1 Ứng dụng của khai phá dữ liệu ................................................................... 11
2.3.2 Các thách thức trong khai phá dữ liệu ......................................................... 12
2.3.3 Các khái niệm cơ bản trong thuật toán Apriori và Kmeans ........................ 12


iv

2.3.4 Thuật toán Apriori ....................................................................................... 22
2.3.5 Thuật toán Kmeans ...................................................................................... 23
2.3.6 Kết luận ....................................................................................................... 27
CHƯƠNG 3. XÂY DỰNG VÀ THỰC NGHIỆM ....................................................... 28
3.1 Khảo sát ............................................................................................................... 29
3.1.1 Quy trình bán hàng ................................................................................... 29
3.1.2 Vấn đề đặt ra ............................................................................................. 33
3.1.3 Sơ đồ tổng quát của hệ thống.................................................................... 35
3.2

Phân tích, thiết kế và xây dựng........................................................................ 36

3.2.1 Kiến trúc tổng thể của hệ thống................................................................... 36
3.2.2 Chức năng hệ thống ..................................................................................... 37
3.2.3 Lấy dữ liệu khách hàng từ hệ thống Oracle EBS của Chay Âu Lạc ........... 37
3.2.4 Thông tin về bộ dữ liệu ............................................................................... 38
3.2.5 Xây dựng thuật toán Apriori, Kmeans và dự đoán phân loại nhóm khách
hàng ........................................................................................................................... 39
3.3

Thử nghiệm và kết quả .................................................................................... 39


3.3.1 Mô tả phương pháp thực nghiệm .............................................................. 39
3.3.2 Thực nghiệm và kết quả............................................................................ 47
3.4

Tổng kết chương 3 ........................................................................................... 55

KẾT LUẬN ................................................................................................................... 56
1. Kết quả đạt được ................................................................................................... 56
1.1. Về mặt lý thuyết ............................................................................................ 56
1.2 Về mặt thực tiễn ............................................................................................. 56
2.

Hạn chế ............................................................................................................ 56

3.

Hướng phát triển .............................................................................................. 56


v

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

Viết tắt

Tiếng Anh

Tiếng Việt




product

Tích đại số.

{xi}

The set whose elements are

Tập gồm các phần tử là xi

xi
|X|

cardinality of the set X

Số lượng phần tử của tập hợp X

CSDL

Database

Cơ sở dữ liệu


vi

DANH SÁCH BẢNG


Bảng 1: Table transaction Apriori .............................................................................15
Bảng 2: Dữ liệu mẫu .................................................................................................20
Bảng 3 Mô tả quy trình quản lý bán hàng .................................................................30
Bảng 4: Dữ liệu bán hàng tại chay Âu Lạc ...............................................................38


vii

DANH SÁCH HÌNH VẼ
Hình 1: Cửa hàng chay Âu Lạc ...................................................................................5
Hình 2: Quy trình bán hàng tại chay Âu Lạc ..............................................................6
Hình 3: Mối tương quan của khai phá dữ liệu với các ngành khác ............................7
Hình 4: Minh hoạ khai thác dữ liệu ............................................................................8
Hình 5: Quy trình khai phá tri thức .............................................................................9
Hình 6: Quá trình tập các tập mục thường xuyên .....................................................19
Hình 7: Sơ đồ thuật toán K-means clustering ...........................................................26
Hình 8: Quy trình quản lý bán hàng ..........................................................................29
Hình 9: Sơ đồ tổng quát xây dựng hệ thống .............................................................35
Hình 10: Kiến trúc tổng thể của hệ thống .................................................................37
Hình 11: Lựa chọn mặt hàng muốn khai phá ............................................................48
Hình 12: Tìm tập phổ biến ........................................................................................51
Hình 13: Tìm luật kết hợp .........................................................................................52
Hình 14: Danh sách khách hàng................................................................................54
Hình 15: Các thông số phân loại khách hàng theo thuật toán Kmeans.....................54
Hình 16: Kết quả phân loại nhóm khách hàng ..........................................................55


1

MỞ ĐẦU

Trong giai đoạn hiện nay, toàn cầu hóa và hội nhập quốc tế đang trở thành xu hướng
tất yếu của các quốc gia trên thế giới, Việt Nam cũng không nằm ngoài xu hướng đó. Để
có thể tồn tại và nâng cao sức cạnh tranh trong nền kinh tế thị trường đầy khó khăn và
thách thức như hiện nay, các doanh nghiệp đã, đang và sẽ phải nỗ lực rất nhiều. Hơn nữa,
sức cạnh tranh của các doanh nghiệp phụ thuộc lớn vào hiệu quả của hoạt động kinh
doanh và sự đầu tư của chính các doanh nghiệp đó. Chính điều này đã tạo ra một áp lực
rất lớn lên các nhà quản trị doanh nghiệp. Làm thế nào có thể đưa ra được những quyết
định kinh doanh tối ưu, mang lại lợi thế cạnh tranh so với các doanh nghiệp khác? Làm
thế nào để dự đoán được diễn biến của thị trường tương lai (nhu cầu thị trường, xu hướng
mua hàng, đối tượng khách hàng tiềm năng, ...).
Ngoài ra, trong kinh doanh yếu tố khách hàng đóng vai trò hết sức quan trọng và
quyết định đến sự thành bại của doanh nghiệp nói chung và các chiến lược kinh doanh
của doanh nhiệp nói riêng, khi thông tin đang trở thành yếu tố quyết định trong kinh
doanh thì vấn đề tìm ra các thông tin hữu ích trong các CSDL khổng lồ ngày càng trở
thành mục tiêu quan trọng của các doanh nghiệp. Vì vậy một trong những giải pháp hữu
hiệu nhất nhằm khắc phục các vấn đề nêu trên là tiến hành triển khai xây dựng một hệ
thống khai phá dữ liệu, khai thác quản lý nguồn khách hàng nói trên. Đó là một hệ thống
được thiết kế giúp cho lãnh đạo doanh nghiệp nắm bắt được nguồn thông tin khách hàng
hữu ích và các tri thức chiết xuất được từ CSDL trên sẽ là một nguồn tài liệu hỗ trợ cho
lãnh đạo xây dựng chiến lược kinh doanh. Chính vì những lý do nêu trên, tôi quyết định
chọn đề tài “Phân loại nhóm khách hàng bằng luật kết hợp cho hệ thống bán hàng
Chay Âu Lạc”.


2

CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI
1.1 Tổng quan về tình hình nghiên cứu đề tài
Tại chay Âu Lạc, có rất nhiều mặt hàng, ví dụ như thực phẩm đóng hộp chay,
đóng gói chay, …. khách hàng khi đi đến siêu thị sẽ bỏ vào giỏ mua hàng của họ một số

mặt hàng nào đó, và chúng ta muốn tìm hiểu các khách hàng thường mua những mặt
hàng nào đồng thời, chúng ta thậm chí không quan tâm khách hàng cụ thể là ai. Nhà quản
lý dùng những thông tin này để điều chỉnh việc nhập hàng về siêu thị, hay đơn giản là để
bố trí sắp xếp các mặt hàng gần nhau, hoặc bán các mặt hàng đó theo một gói hàng, giúp
cho khách hàng đỡ mất công tìm kiếm và lựa chọn mặt hàng đễ dàng hơn.
Khi phân tích các giao dịch khách hàng thông qua giỏ hàng mua bán bằng cách sử
dụng thuật toán data mining như: Apriori, Kmeans … sẽ giúp chúng có thể biết được
những sản phẩn nào sẽ được mua chung một giỏ hàng với nhau và đây cũng cách để biết
một sản phẩm nào đó sẽ được mua chung với một sản phẩm khác. Khi đã có thông tin,
chúng ta có thể thực hiện một số công việc để tăng số lượng khách hàng mua những sản
phẩm đó lên. Các công việc có thể là thay đổi cách bố trí sản phẩm cho việc tăng doanh
số. Chúng ta có thể xem các sản phẩm trong giỏ hàng sản phẩm nào có nhiều lợi nhuận
hơn, có thể đưa ra các hình thức khuyến mãi để khuyến khích mua những loại sản phẩm
này.
Ngoài ra, chúng ta đang sống trong một nền kinh tế mà khách hàng là thượng đế.
Một thực tế là hiện nay, không chỉ có một hay vài người bán mà có rất nhiều người bán
cùng một sản phẩm. Khách hàng có nhiều sự lựa chọn hơn. Điều cần làm của một nhà
quản lý, người lãnh đạo giỏi chính là làm sản phẩm của bạn đặc biệt hơn sản phẩm các
doanh nghiệp khác và thuyết phục khách mua hàng. Từ những dữ liệu bán hàng, chúng ta
hoàn toàn có thể phân loại được những đối tượng khách hàng khác nhau, độ tuổi khác
nhau, nghề nghiệp khác nhau, …
Từ những dữ liệu phân tích được, khách hàng sẽ được phân loại theo: nhóm khách
hàng (doanh nghiệp, các nhân), độ tuổi, sở thích, … từ đó nhà quản lý sẽ chủ động hơn
trong việc đưa ra các quyết định sản xuất, kinh doanh hướng tới nhóm khách hàng đó.


3

Mặt khác, giữa một chuỗi các doanh nghiệp cùng bán dòng sản phẩm với chất
lượng, giá thành và kiểu dáng tương tự, việc chăm sóc khách hàng lúc này đóng vai trò

quyết định. Vì vậy việc phân loại nhóm khách hàng thật sự rất cần thiết và cấp bách.
Luận văn sẽ đi sâu vào tìm hiểu các thuật toán: Apriori, Kmeans, … cài đặt và ứng
dụng thuật toán vào thực tế tại công ty thực phẩm chay Âu Lạc.
Đồng thời, luận văn cũng tìm hiểu và đề xuất cải tiến giải thuật để tối ưu cho phân
tích thị trường, phân loại khách hàng và cho ra kết quả phân tích chính xác hơn.

1.2 Mục đích nghiên cứu
Xây dựng ứng dụng phân loại nhóm khách hàng cho phép:
-

Xác định các luật kết hợp giữa các sản phẩm

-

Phân loại nhóm khách hàng theo độ tuổi, địa lý, …

-

Mối quan hệ giữa các nhóm khách hàng với các sản phẩm

1.3 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu:
-

Đối tượng nghiên cứu được sử dụng trong bài luận này là tập dữ liệu được trích
xuất từ dữ liệu bán hàng năm 2016 và 2017 tại Âu Lạc

Phạm vi nghiên cứu:
-


Tập trung nghiên cứu các thuật toán: Apriori, Kmeans trong data mining

-

Cài đặt và áp dụng vào thực tế tại Âu Lạc

-

Tìm hiểu công cụ R để thực nghiệm và đối chiếu so sánh kết quả với phần
mềm tự phát triển

1.4 Phương pháp nghiên cứu
- Nghiên cứu lý luận: tập trung nghiên cứu các vấn đề cơ bản về khai phá dữ liệu,
tổng hợp tài liệu, phân tích và xử lý dữ liệu
- Phương pháp nghiên cứu tài liệu: Phân tích và tổng hợp các tài liệu về khai phá
dữ liệu sử dụng thuật toán về Apriori, Kmeans


4

- Phương pháp thực nghiệm: Ứng dụng kết hợp kỹ thuật phân loại và mô hình cây
quyết định để phân loại khách hàng

1.5 Cấu trúc của luận văn
Toàn bộ nội dung luận văn được chia thành 3 chương:
Chương 1: Tổng quan đề tài: Chương này sẽ trình bảy tổng quan về đề tài bao
gồm mục tiêu nghiên cứu, đối tượng và phạm vi nghiên cứu, phương pháp nghiên cứu và
giới thiệu về Chay Âu Lạc
Chương 2: Lý thuyết dự đoán dựa trên khai phá dữ liệu: Chương này trình bày
tìm hiểu về các quy trình bán hàng và tình hình bán hàng tại hệ thống chay Âu Lạc. Từ

tình hình đó đưa ra vấn đề cần giải quyết, và việc phân tích xây dựng hệ thống
Chương 3: Xây dựng và thực nghiệm: Chương cuối này sẽ trình bày quá trình
phân tích chức năng và tổ chức tổng thể hệ thống. Qua đó, đặc tả việc xây dựng hệ thống
và thực nghiệm hệ thống

1.6 Giới thiệu thực phẩm Chay Âu Lạc
Hơn 20 năm hình thành và phát triển, thương hiệu thực phẩm chay “Âu Lạc” đã
khẳng định được uy tính của mình trên thị trường trong nước và quốc tế. Thương hiệu
thực phẩm chay Âu Lạc đã tạo được uy tín hàng đầu Việt Nam về dây chuyền sản xuất
thực phẩm chay. Với phương châm “chất lượng hàng đầu”, công ty cam kết luôn cung
cấp những sản phẩm chất lượng cao nhất. Bên cạnh đó, vệ sinh an toàn thực phẩm cũng
là tiêu chí hàng đầu mà Âu Lạc đặt ra trước khi đưa sản phẩm ra thị trường. Công ty luôn
quan tâm đến sức khỏe của người tiêu dùng và công nghệ thân thiện với môi trường xanh.
Các nhóm sản phẩm chính của công ty gồm có: sản phẩm lạnh, sản phẩm ăn liền, sản
phẩm khô, sản phẩm gia vị, sản phẩm nước, sản phẩm đóng hộp.


5

Hình 1: Cửa hàng chay Âu Lạc
Thực phẩm chay Âu Lạc hiện không chỉ có mặt trên khắp các chợ, siêu thị, nhà
hàng Việt Nam, mà còn xuất khẩu sang các nước Mỹ, Canada, Úc, Đức, Anh… Sản
phẩm công ty đa dạng phong phú và không ngừng cải tiến, nâng cao chất lượng. Công ty
thực phẩm chay Âu Lạc đã đạt được nhiều thành tích và danh hiệu uy tín trong nước.
Công ty luôn nỗ lực phấn đấu để xứng đáng với sự tin cậy của khách hàng, các đối tác
trong và ngoài nước.
Với hệ thống siêu thị và chuỗi cửa rộng khắp cả nước, hệ thống phân phối chuyên
nghiệp, thực phẩm chay Âu Lạc hiện tại đang là công ty tiên phong trong việc sản xuất,
phân phối trực tiếp đến người tiêu dùng.



6

Hiện nay, chay Âu Lạc đã có 87 show room phủ rộng khắp cả nước và đang tiến
hành mở rộng chuỗi phân phối thực phẩm chay của mình qua các nước láng giếng như
Campuchia, Lào, …

Hình 2: Quy trình bán hàng tại chay Âu Lạc


7

CHƯƠNG 2: LÝ THUYẾT DỰ ĐOÁN
DỰA TRÊN KHAI PHÁ DỮ LIỆU
Trong chương này, luận văn sẽ trình bày các cơ sở lý thuyết làm nền tảng để xây
dựng ứng dụng, bao gồm những nội dung sau:
-

Giới thiệu tổng quan về kỹ thuật khai phá dữ liệu

-

Ứng dụng của khai phá dữ liệu trong lĩnh vực bán hàng

-

Trình bày tổng quan về thuật toán Apriori, Kmeans và sử dụng Apriori, Kmeans
trong việc tìm luật kết hợp và phân loại nhóm khách hàng

2.1 Khái niệm dự đoán

Khai phá dữ liệu (Data mining) là quá trình tìm kiếm các mẫu mới, những thông
tin tiềm ẩn mang tính dự đoán trong các khối dữ liệu lớn
Khai phá dữ liệu là một lĩnh vực liên ngành, nơi hội tụ của nhiều học thuyết và
công nghệ

Hình 3: Mối tương quan của khai phá dữ liệu với các ngành khác


8

Sự phát triển nhanh chóng của các các công nghệ trong thời đại hiện nay đã và đang
tạo ra nguồn dữ liệu khổng lồ, ẩn chứa bên trong là vô số dữ liệu có ích cho cuộc sống
(sức khoẻ, môi trường, tình hình kinh tế, …). Và cùng với khoa học ngày càng phát triển
đã cho ra đời ngành Khoa học dữ liệu và trong đó Khai thác dữ liệu là lĩnh vực phát triển
nhanh chóng nhất. Khai thác dữ liệu là quá trình tìm kiếm các mẫu từ tập dữ liệu lớn và
phân tích dữ liệu từ những quan điểm khác nhau. Nó cho phép người dùng trong doanh
nghiệp phân tích dữ liệu từ nhiều góc độ khác nhau và tóm tắt các nhận xét trên mạng xã
hội.
Khái niệm về khai phá dữ liệu hay khám phá tri thức (Knowledge Discovery) có rất
nhiều cách diễn đạt khác nhau nhưng về bản chất đó là quá trình tự động trích xuất thông
tin có giá trị (Thông tin dự đoán - Predictive Information) ẩn chứa trong khối lượng dữ
liệu khổng lồ trong thực tế.
Một cách nhìn đơn giản về Khai thác dữ liệu:

Hình 4: Minh hoạ khai thác dữ liệu
(Nguồn: /> Chuẩn bị dữ liệu để cho máy tính “học” (Data).
 Xây dựng mô hình thông qua dữ liệu đầu vào (Algorithm).
 Đánh giá mô hình vừa mới xây dựng (Model).
Data mining nhấn mạnh 2 khía cạnh chính đó là khả năng trích xuất thông tin có ích
tự động (Automated) và thông tin mang tính dự đoán (Predictive).Khai phá dữ liệu



9

2.2 Khai phá dữ liệu
2.2.1 Quá trình khai phá tri thức từ dữ liệu

Hình 5: Quy trình khai phá tri thức
(Nguồn: />Quy trình là chuỗi lặp lại các thao tác:
 Làm sạch dữ liệu (Data cleaning): Loại bỏ nhiễu và những giá trị không nhất
quá.
 Tích hợp dữ liệu (Data intergation): Dữ liệu của nhiều nguồn có thể tổ hợp
lại.
 Lựa chọn dữ liệu (Data selection): Những dữ liệu phù hợp với phân tích
được trích rút từ nguồn dữ liệu ban đầu.
 Chuyển đổi dữ liệu (Data transformation): Dữ liệu được chuyển đổi hay
được hợp nhất về dạng thích hợp cho việc khai phá.
 Khai phá dữ liệu (Data mining): Là tiến trình chính, trong đó các phương
pháp tính toán được áp dụng nhằm trích ra các mẫu dữ liệu.
 Đánh giá mẫu (Pattem evyalution): Dựa trên các phương pháp đo nhằm xác
định độ chuẩn xác và lợi ích từ các mẫu biểu diễn tri thức.


10

 Biễu diễn tri thức (Knowledge presentation): Sử dụng kỹ thuật biểu diễn và
hiển thị tri thức được tổng hợp cho người dùng.

2.2.2 Mục tiêu của khai phá dữ liệu
Có thể phân thành 2 loại chính đó là Dự đoán (Predictive) và Mô tả (Descriptive).

 Predictive:
o Classification - phân lớp
o Regression - hồi quy
 Descriptive:
o Clustering - phân cụm
o Association Rule Discovery - phát hiện luật kết hợp
Một số thuật toán phổ biến được dùng trong khai phá dữ liệu.
 Descision tree: Cây quyết định (Classification Task)
 Nearest Neighbor: Láng giềng gần nhất (Classification Task)
 Neural Network: Mạng Neural (Classification and Clustering Task)
 Rule Induction: Luật quy nạp (Classification Task)
 K-Means: Thuật toán K-Means (Clustering Task)

2.2.3 Các bài toán thông dụng trong khai phá dữ liệu
Trong khai phá dữ liệu, các bài toán có thể phân thành bốn loại chính:
Phân lớp (Classification): Là bài toán thông dụng nhất trong khai phá dữ liệu. Với một
tập các dữ liệu huấn luyện cho trước và sự huấn luyện của con người, các giải thuật phân
loại sẽ học ra bộ phân loại (classifier) dùng để phân các dữ liệu mới vào một trong những
lớp (còn gọi là loại) đã được xác định trước. Nhận dạng cũng là một bài toán thuộc kiểu
phân lớp
Dự đoán (Prediction): Với mô hình học tương tự như bài toán Phân lớp, lớp bài toán
Dự đoán sẽ học ra các bộ dự đoán. Khi có dữ liệu mới đến, bộ dự đoán sẽ dựa trên thông
tin đang có để đưa ra một giá trị số học cho hàm cần dự đoán. Bài toán tiêu biểu trong
nhóm này là dự đoán giá sản phẩm để lập kế hoạch trong kinh doanh.


11

Luật kết hợp (Association Rule): Các giải thuật tìm luật kết hợp tìm kiếm các mối
liên kết giữa các phần tử dữ liệu, ví dụ như nhóm các món hàng thường được mua kèm

với nhau trong siêu thị
Phân cụm (Clustering): Các kỹ thuật Phân cụm sẽ nhóm các đối tượng dữ liệu có
tính chất giống nhau vào cùng một nhóm. Có nhiều cách tiếp cận với những mục tiêu
khác nhau trong phân cụm. Các tài liệu giới thiệu khá đầy đủ và chi tiết về các cách tiếp
cận trong phân cụm. Các kỹ thuật trong bài toán này thường được vận dụng trong vấn đề
phân hoạch dữ liệu tiếp thị hay khảo sát sơ bộ các dữ liệu.

2.2.4 Các Cơ sở dữ liệu phục vụ cho việc khai phá dữ liệu
Dựa vào những kiểu dữ liệu mà kỹ thuật khai phá áp dụng, có thể chia dữ
liệu thành các loại khác nhau.
- Cơ sở dữ liệu quan hệ
- Cơ sở dữ liệu giao tác
- Cơ sở dữ liệu không gian
- Cơ sở dữ liệu có yếu tố thời gian
- Cơ sở dữ liệu đa phương tiện

2.3 Dự đoán dựa trên khai phá dữ liệu
2.3.1 Ứng dụng của khai phá dữ liệu
Khai phá dữ liệu tuy là một lĩnh vực mới nhưng đã thu hút được sự quan tâm của rất
nhiều nhà nghiên cứu, nhờ có nhiều những ứng dụng trong thực tiễn, các ứng dụng điển
hình, có thể liệt kê như sau:
-

Phân tích dữ liệu và hỗ trợ ra quyết định (Analysis & decision support)

-

Điều trị trong y học (Medical): mối liên hệ giữa triệu chứng, chuẩn đoán
và phương pháp điều trị (chế độ dinh dưỡng, thuốc men, phẫu thuật)


-

Phân lớp văn bản, tóm tắt văn bản và phân lớp các trang Web (Text
mining & Web mining)


12

-

Tin sinh học (Bio-informatics): Tìm kiếm, đối sánh các hệ gen và thông tin di
truyền, mối liên hệ giữa một số hệ gen và một số bệnh di truyền

-

Nhận dạng

-

Tài chính và thị trường chứng khoán (Finance & stock market): Phân tích tình
hình tài chính và dự đoán giá cổ phiếu

-

Bảo hiểm (Insurance)

-

Giáo dục (Education)


2.3.2 Các thách thức trong khai phá dữ liệu
Tuy đã có rất nhiều các giải pháp và phương pháp được ứng dụng trong khai phá dữ
liệu nhưng trên thực tế quá trình này vẫn gặp không ít khó khăn và thách thức như:
-

Cơ sở dữ liệu lớn

-

Số chiều các thuộc tính lớn

-

Thay đổi dữ liệu và tri thức có thể làm cho các mẫu đã phát hiện không còn
phù hợp

-

Dữ liệu bị thiếu hoặc bị nhiễu

-

Quan hệ giữa các trường phức tạp

-

Giao tiếp với người sử dụng và kết hợp với các tri thức đã có

-


Tích hợp với các hệ thống khác

2.3.3 Các khái niệm cơ bản trong thuật toán Apriori và Kmeans
Một số khái niệm về xác suất
-

Việc biến cố ngẫu nhiên xảy ra hay không trong kết qủa của một phép thử là điều
không thể biết hoặc đoán trước được. Tuy nhiên bằng những cách khác nhau ta có
thể định lượng khả năng xuất hiện của các biến cố, gọi là xác suất xuất hiện của
biến cố.


13

-

Xác suất của một biến cố là một con số đặc trưng khả năng xuất hiện biến cố khi
thực hiện phép thử.

-

Khi thực hiện nhiều lần lặp lại một cách độc lập một phép thử, ta có thể tính ra tần
suất xuất hiện của một biến cố nào đó. Tần suất thể hiện khả năng xuất hiện của
biến cố, với cách tiếp cận này, ta có thể định nghĩa xác suất theo cách thống kê.

Định nghĩa xác suất
Giả sử phép thử C thỏa mãn điều kiện:
-

Không gian mẫu bao gồm tập số tập hữu hạn các phần tử


-

Các kết quả xảy ra cùng khả năng

Khi đó ta có định nghĩa xác suất xảy ra biến cố A là

Các tính chất
(1) Với mọi biến cố A: 0 ≤ P(A) ≤ 1
(2) Xác suất xuất hiện biến cố không thể bằng 0, biến cố chắc chắn bằng 1
P() = 0, P() = 1
Qui tắc cộng
-

Trường hợp xung khắc: A và B là hai biến cố xung khắc nhau, thì:
P(AB) = P(A) + P(B)

-

Tổng quát, nếu {A1,A2, …, An} là dạy biến cố xung khắc từng đôi một với
nhau, thì

Qui tắc xác suất biến cố đối
Với mọi biến cố A
Xác suất có điều kiện


14

-


Xác suất biến cố B xảy ra trong điều kiện biết rằng biến cố A đã xảy ra,
được gọi là xác suất của B đối với điều kiện A. Kí hiệu P(B|A)

-

Tính chất: Nếu P(A)>0 thì

Qui tắc nhân xác suất
-

Nếu A,B là hai biến cố độc lập
P(AB) = P(A).P(B)

-

Trường hợp tổng quát
P(AB)=P(A).P(B|A)

Định nghĩa luật kết hợp
Khái niệm luật kết hợp được phát biểu lần đầu tiên bởi R. Agrawal (1993), và được
hơn 6000 ý kiến tán thành thông qua Google Scholar. Trong quyển “Mining
Association Rules Between Sets of Items in Large Databases”, R. Agrawal đã đưa ra
một định nghĩa về luật kết hợp như sau:
Định nghĩa 1: Cho tập I = {i1,i2, … ,in} là tập n thuộc tính nhị phân gọi là các phần
tử (tên tiếng anh là item). Cho D = {t1,t2, … ,tm} là tập các giao tác gọi là cơ sở dữ
liệu. Mỗi giao tác trong D có một ID duy nhất và chứa tập các mục trong I. Một luật
được định nghĩa sự kéo theo có dạng X  Y trong đó X,Y  I và X  Y = . Tập
các mục gọi là tập mục (itemset) X gọi là phần mệnh đề điều kiện(phần bên trái) và
Y gọi là mệnh đề kết quả của luật tương ứng.

Ví dụ, trong siêu thị, ta có tập các mục I = {milk, bread, butter, beer} và một cơ sở
dữ liệu chứa các mục (tại mỗi giao tác, giá trị 1 là có mục, giá trị 0 là không có) như
sau:


15

Bảng 1: Table transaction Apriori
Transaction ID

milk bread butter beer

1

1

1

0

0

2

0

0

1


0

3

0

0

0

1

4

1

1

1

0

5

0

1

0


0

Dựa trên ví dụ này, ta có thể suy ra luật {butter, bread}  {milk}, có nghĩa là khi
khách hàng muc butter và bread thì người đó cũng sẽ mua milk.
Khái niệm này được xem như tổng quát nhất cho phát biểu về luật liên kết.
Các khái niệm quan trọng về luật kết hợp
Để chọn ra các luật có ích từ tập các luật có thể có, ta cần ràng buộc những số đo đảm
bảo ý nghĩa. Hai ràng buộc được xem là quan trọng nhất, đó là giá trị độ phổ biến và
độ tin cậy tối thiểu.
Độ phổ biến
Độ phổ biến (tên tiếng anh là Support – một số tài liệu dịch là độ hỗ trợ) của một
tập mục X được định nghĩa là tỷ lệ các giao tác có chứa tập mục này trong cơ sở
dữ liệu với tổng số các giao tác .
Ví dụ, tập mục {milk, bread, butter} có độ phổ biến là 1/5 = 0.2 hay 20% số giao
tác.


16

Định nghĩa 2: Độ phổ biến của một tập mục X trong cơ sở dữ liệu D là tỷ số giữa
các bản ghi T  D có chứa tập X và tổng số bản ghi trong D (hay là phần trăm
của các bản ghi trong D có chứa tập mục X), ký hiệu là Support(X) hay Supp(X)

Ta có: 0 ≤ Supp(X) ≤ 1 với mọi tập mục X.
Định nghĩa 3: Độ phổ biến của một luật kết hợp XY là tỷ lệ giữa số lượng các
bản ghi chứa tập hợp XY, so với tổng số các bản ghi trong D. Ký hiệu
supp(XY)

Khi chúng ta nói rằng độ hỗ trợ của một luật là 50%, nghĩa là có 50% tổng số giao
tác chứa XY. Như vậy, độ hỗ trợ mang ý nghĩa thống kê của luật.

Trong một số trường hợp, chúng ta chỉ quan tâm đến những luật có độ phổ biến
cao (Ví dụ như luật kết hợp xét trong cửa hàng tạp phẩm). Nhưng cũng có trường
hợp, mặc dù độ phổ biến của luật thấp, ta vẫn cần quan tâm (ví dụ luật kết hợp liên
quan đến nguyên nhân gây ra sự đứt liên lạc ở các tổng đài điện thoại).
Độ tin cậy
Định nghĩa 4: Độ tin cậy của luật X  Y là xác suất xuất hiện Y với điều kiện X có
trong tất cả các giao tác.
Conf(XY) = Supp(XY)/Supp(X)
Ta có thêm định nghĩa khác để hiểu rõ hơn về độ tin cậy:
Định nghĩa 6: Độ tin cậy của một luật kết hợp XY là tỷ lệ giữa số lượng các bản
ghi trong D chứa XY với số bản ghi trong D có chứa tập hợp X. Ký hiệu độ tin
cậy của một luật là Conf(r). Ta có 0 ≤ conf(r) ≤ 1.


×