Tải bản đầy đủ (.pdf) (59 trang)

Phát hiện hành vi mua sắm của người dùng và các tác nhân liên quan sử dụng kỹ thuật khai phá dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.8 MB, 59 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THÀNH VINH

PHÁT HIỆN HÀNH VI MUA SẮM CỦA NGƯỜI DÙNG VÀ
CÁC TÁC NHÂN LIÊN QUAN
SỬ DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU

LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN

Hà Nội - 2018


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THÀNH VINH

PHÁT HIỆN HÀNH VI MUA SẮM CỦA NGƯỜI DÙNG VÀ
CÁC TÁC NHÂN LIÊN QUAN
SỬ DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU

Ngành: Công nghệ thông tin
Chuyên ngành: Quản lý hệ thống thơng tin
Mã Số: 8480205.01

LUẬN VĂN THẠC SỸ NGÀNH CƠNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. ĐẶNG THANH HẢI



LỜI CAM ĐOAN
Tôi xin cam đoan luận văn “Phát hiện hành vi mua sắm của người dùng và
các tác nhân liên quan sử dụng kỹ thuật khai phá dữ liệu" là cơng trình nghiên cứu
của cá nhân tơi, dưới sự hướng dẫn của cán bộ hướng dẫn khoa học, thầy giáo, TS.
Đặng Thanh Hải. Các nội dung, kết quả được thể hiện trong luận văn là hoàn toàn
trung thực. Ngoại trừ các tài liệu tham khảo và cơng trình nghiên cứu đã được tơi trích
dẫn đầy đủ thì luận văn hồn tồn là cơng trình của riêng cá nhân tơi.
Luận văn này được hồn thành trong q trình tơi đang là học tập tại Trường
Đại học Công nghệ, Đại học Quốc gia Hà Nội.
Hà Nội, ngày 10 tháng 09 năm 2018
Học viên

Nguyễn Thành Vinh

1


LỜI CẢM ƠN
Lời đầu tiên, tôi mong muốn bày tỏ sự trân trọng và biết ơn sâu sắc nhất đến
thầy giáo, TS. Đặng Thanh Hải, giảng viên trường ĐH Công nghệ, đã tận tình hướng
dẫn, nhận xét góp ý hiệu quả trong suốt q trình thực hiện bài luận văn.
Tơi chân thành cảm ơn các thầy, PGS.TS. Hà Quang Thụy, PGS.TS Hoàng
Xuân Huấn, PGS.TS Phạm Ngọc Hùng, PGS.TS Nguyễn Ngọc Hóa và cùng các thầy
cơ khác đã giúp đỡ và tạo điều kiện để tôi được học tập và tiếp cận trong q trình
nghiên cứu tại trường.
Tơi cảm ơn các anh chị và các bạn trong khóa cao học K22 và các anh chị đồng
nghiệp tại công ty VNPT-IT đã ủng hộ, động viên cũng như tạo điều kiện giúp tơi
trong suốt q trình học tập tại trường.
Cuối cùng, tơi muốn gửi lời cảm ơn chân thành tới gia đình, bạn bè, đã động

viên và giúp đỡ tôi không chỉ trong q trình thực hiện luận văn này mà cịn trong cả
hành trình này.
Hà Nội, ngày 10 tháng 09 năm 2018
Học viên

Nguyễn Thành Vinh

2


MỞ ĐẦU
Dữ liệu đã và đang được tạo ra ngày càng nhiều hơn cả về số lượng lẫn thể
loại; từ đó khiến việc lựa chọn, khai thác, sử dụng chúng gặp rất nhiều khó khăn và
thách thức. Lĩnh vực Khai phá dữ liệu (KPDL) ra đời nhằm hỗ trợ việc khai thác và sử
dụng dữ liệu được hiệu quả hơn. Khai phá dữ liệu (KPDL) là cả q trình trích xuất,
khai thác và sử dụng các dữ kiện rời rạc trong dữ liệu thành các tri thức có tính quy
luật, để mang lại giá trị tích cực trong việc đưa ra các quyết định.
Ngày nay, việc lấy khách hàng làm trung tâm (customer centricity) là một trong
những yếu tố quan trọng nhất trong dịch vụ khách hàng: khách hàng là những “cổ
đông” quan trọng nhất của công ty. Ngành thương mại điện tử đã và đang tạo ra một
khối lượng dữ liệu khổng lồ, bao gồm: chi tiết hóa đơn bán hàng, thơng tin cảnh báo
tình trạng của hệ thống dữ liệu hàng hóa và thơng tin dữ liệu về khách hàng. Do đó,
các doanh nghiệp có nhu cầu cần hiểu rõ những thị hiếu của khách hàng cũng như xu
hướng thị trường sắp tới.
Ứng dụng khai phá dữ liệu trong ngành thương mại để phát hiện các quy luật
ẩn chứa trong khối dữ liệu khổng lồ đó nhằm xây dựng mơ hình giúp xác định xu
hướng mua hàng của khách hàng, giúp doanh nghiệp cải thiện chất lượng sản phẩm,
dịch vụ nhằm nâng cao sự hài lòng của khách hàng và giữ chân khách hàng tốt hơn.
Khoá luận sẽ tập trung giới thiệu tổng quan về khai phá dữ liệu, nghiên cứu các
mơ hình phát hiện hành vi mua hàng của người dùng và thử nghiệm, đánh giá thuật

toán Krimp và thuật tốn TopKRules áp dụng vào mơ hình thực tế dựa vào dữ liệu các
hóa đơn bán hàng của công ty Công nghệ Cổ phần PAC Việt Nam.

3


MỤC LỤC
LỜI CAM ĐOAN ........................................................................................................... 1
LỜI CẢM ƠN ................................................................................................................. 2
MỞ ĐẦU ........................................................................................................................ 3
MỤC LỤC ...................................................................................................................... 4
DANH MỤC HÌNH VẼ ................................................................................................. 6
DANH MỤC BẢNG BIỂU ............................................................................................ 7
DANH MỤC VIẾT TẮT................................................................................................ 8
CHƯƠNG 1: TỔNG QUAN ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG VIỆC
PHÁT HIỆN HÀNH VI MUA SẮM ............................................................................. 9
1.1. Thị trường và hành vi mua sắm hàng hóa ........................................................... 9
1.1.1. Khái niệm ..................................................................................................... 9
1.1.2. Hành vi mua sắm của người dùng ................................................................ 9
1.1.3. Hành vi mua của đơn vị, tổ chức ................................................................ 11
1.2. Khai phá dữ liệu và phát hiện tri thức ............................................................... 14
1.2.1. Khai phá dữ liệu ......................................................................................... 14
1.2.2. Các bước cơ bản của quá trình phát hiện tri thức ....................................... 14
1.2.3. Kiến trúc của một hệ thống khai phá dữ liệu.............................................. 16
1.2.4. Một số kỹ thuật khai phá dữ liệu ................................................................ 17
1.3. Ứng dụng khai phá dữ liệu cho thị trường hàng hóa ......................................... 20
1.3.1. Ứng dụng của khai phá dữ liệu................................................................... 20
1.3.2. Phát hiện hành vi mua sắm của người dùng ............................................... 22
CHƯƠNG 2: TỔNG QUAN VỀ KHAI PHÁ LUẬT KẾT HỢP ................................ 23
2.1. Luật kết hợp ....................................................................................................... 23

2.2. Khai phá luật kết hợp......................................................................................... 25
2.2.1. Thuật toán Apriori ...................................................................................... 28
2.2.2. Thuật toán AIS ........................................................................................... 29
2.2.3. Thuật toán SETM ....................................................................................... 30
4


2.2.4. Thuật toán Krimp ....................................................................................... 32
2.2.5. Thuật toán TopKRules ............................................................................... 34
CHƯƠNG 3: THỬ NGHIỆM PHÁT HIỆN HÀNH VI MUA SẮM CỦA NGƯỜI
DÙNG ........................................................................................................................... 38
3.1. Giới thiệu bài toán ............................................................................................. 38
3.2. Cài đặt ứng dụng................................................................................................ 39
3.2.1. Cấu hình phần cứng .................................................................................... 39
3.2.2. Các công cụ phần mềm sử dụng ................................................................. 39
3.3. Thực nghiệm ...................................................................................................... 39
3.3.1. Quá trình thực nghiệm và đánh giá ........................................................... 39
3.3.2. Tiền xử lý dữ liệu ....................................................................................... 40
3.3.3. Cấu hình thơng tin trong mơ hình Krimp ................................................... 41
3.4. Kết quả và đánh giá ........................................................................................... 42
3.4.1. Kết quả phân tích dữ liệu............................................................................ 42
3.4.2. Đánh giá kết quả ......................................................................................... 43
KẾT LUẬN .................................................................................................................. 55
TÀI LIỆU THAM KHẢO ............................................................................................ 56

5


DANH MỤC HÌNH VẼ
Hình 1.1. Q trình thơng qua quyết định mua hàng[4]............................................... 10

Hình 1.2. Quá trình phát hiện tri thức trong CSDL [1] ................................................ 15
Hình 1.3. Kiến trúc điển hình của hệ thống khai phá dữ liệu [1] ................................. 17
Hình 1.4. Phân tích giỏ hàng ........................................................................................ 19
Hình 2.1. Mơ tả thuật tốn AIS qua các bước .............................................................. 30
Hình 2.2. Mơ tả thuật tốn SETM qua các bước .......................................................... 32
Hình 2.3. Mơ hình tổng quan thuật tốn Krimp [5]...................................................... 34
Hình 3.1. Thơng tin phiếu xuất hàng ............................................................................ 38
Hình 3.2. Các bước thử nghiệm phát hiện hành vi người dùng ................................... 40
Hình 3.3. Thơng tin dữ liệu hóa đơn bán hàng ............................................................. 41
Hình 3.4. Danh mục sản phẩm PAC............................................................................. 41
Hình 3.5. Cấu hình thơng tin trong Krimp ................................................................... 42

6


DANH MỤC BẢNG BIỂU
Bảng 1.1. Các ứng dụng khai phá dữ liệu nổi bật [1] ................................................... 21
Bảng 2.1. Một ví dụ về cơ sở dữ liệu gồm 5 giao dịch: ............................................... 23
Bảng 2.2. Giao dịch mua hàng ..................................................................................... 25
Bảng 2.3. Tính độ hỗ trợ cho các tập hợp chứa các mặt hàng...................................... 27
Bảng 2.4. Tính độ tin cậy cho luật kết hợp................................................................... 27
Bảng 3.1. Cấu hình phần cứng ..................................................................................... 39
Bảng 3.2. Các phần mềm sử dụng ................................................................................ 39

7


DANH MỤC VIẾT TẮT
STT


Từ viết tắt

Diễn giải tiếng Anh

Diễn giải tiếng Việt

1

KPDL

Data mining

Khai phá dữ liệu

2

WTO

World Trade Organization

Tổ chức Thương mại Thế giới

3

GRDI

Global Retail Development Chỉ số phát triển bán lẻ toàn
Index
cầu


4

CSDL

Database

Cơ sở dữ liệu

5

KDD

Knowledge Discovery in
Database

Khám phá tri thức trong
cơ sở dữ liệu

6

DN

7

DNSX

Doanh nghiệp
Doanh nghiệp sản xuất

8



CHƯƠNG 1: TỔNG QUAN ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG
VIỆC PHÁT HIỆN HÀNH VI MUA SẮM
1.1. Thị trường và hành vi mua sắm hàng hóa
1.1.1. Khái niệm
Thị trường bao gồm tất cả những khách hàng tiềm ẩn cùng có một nhu cầu hay
mong muốn cụ thể, sẵn sàng và có khả năng tham gia trao đổi để thỏa mãn nhu cầu và
mong muốn đó [3].
Như vậy, theo khái niệm này, quy mô thị trường sẽ tùy thuộc vào số người có
cùng nhu cầu, cùng mong muốn, có đủ thu nhập và sẵn sàng bỏ ra mua sắm hàng hóa
để thỏa mãn nhu cầu và mong muốn đó. Quy mơ thị trường không phụ thuộc vào số
người đã mua hàng hay số người có nhu cầu và mong muốn nhưng khơng có đủ thu
nhập (kể cả nguồn tự có và vay mượn) hay có thu nhập nhưng khơng sẵn sàng chi ra
để mua sắm.
Các sản phẩm cho tiêu dùng cá nhân, tiêu dùng cho đơn vị tổ chức thường rất
đa dạng như quần áo, thức ăn, xe cộ, đồ trang sức, các dịch vụ vui chơi giải trí, vật tư
sản xuất… Nhờ tiêu dùng các sản phẩm đó, con người đáp ứng được các nhu cầu cá
nhân để tồn tại, các tổ chức cũng đáp ứng được nhu cầu về mặt sản xuất kinh doanh.
Mặt khác, cũng qua tiêu dùng, con người có thể thể hiện mình trước con mắt của cộng
đồng. Đó là văn hố tiêu dùng. Điều dễ dàng có thể rất nhận thấy là các dân tộc, các
tơn giáo khác nhau thì văn hố tiêu dùng khác nhau. Văn hóa tiêu dùng tạo nên hành
vi tiêu dùng.
Như vậy, thị trường tiêu dùng có thể chia theo 2 đặc điểm lớn:
- Nhu cầu tiêu dùng đa dụng và biến đổi theo thời gian
- Quy mô thị trường lớn và ngày càng tăng.

1.1.2. Hành vi mua sắm của người dùng
Nghiên cứu hành vi của người tiêu dùng giúp cho doanh nghiệp tìm hiểu xem
khách hàng mua và sử dụng hàng hoá như thế nào. Trên cơ sở nhận định rõ được hành

vi của người tiêu dùng thì từ đó doanh nghiệp sẽ có căn cứ để giải quyết các vấn đề
liên quan tới các chiến lược cần vạch ra. Đó là các vấn đề như sau:
-

Ai là người mua hàng?
Họ mua các hàng hố, dịch vụ gì?
Mục đích mua các hàng hố, dịch vụ đó?
Họ mua như thế nào? Mua khi nào? Mua ở đâu?

9


Q trình thơng qua quyết định mua của người tiêu dùng
Hành vi mua của người tiêu dùng xảy ra trong một quá trình. Để đi đến quyết
định mua một loại hàng hố dịch vụ gì đó thì nói chung người mua phải trải qua quá
trình bao gồm 5 giai đoạn như Hình 1.1.
Đây là quá trình đầy đủ khi mới bắt đầu mua. Người mua thường xuyên có thể
bỏ qua các giai đoạn không cần thiết (do đã được thực hiện ở các lần mua trước đây),
tức là quá trình mua lặp lại sẽ bỏ qua một số giai đoạn.

Hình 1.1. Q trình thơng qua quyết định mua hàng[4]

-

Nhận biết nhu cầu
Đây là bước đầu tiên. Nhu cầu phát sinh do các yếu tố kích thích từ bên trong
cũng như từ bên ngồi.
-

Tìm kiếm thơng tin

Khi nhu cầu thơi thúc thì con người tìm kiếm thơng tin để đáp ứng nhu cầu đó.
Nhu cầu càng cấp bách, thơng tin ban đầu càng ít, sản phẩm cần mua có giá trị càng
lớn thì càng thơi thúc con người tìm kiếm thơng tin. Sau đây là các nguồn thông tin cơ
bản mà người tiêu dùng có thể tìm kiếm, tham khảo:
o Nguồn thơng tin cá nhân: từ bạn bè, gia đình, hàng xóm, đồng nghiệp…
o Nguồn thơng tin thương mại: qua quảng cáo, hội chợ, triển lãm, người bán
hàng…
o Nguồn thông tin đại chúng: dư luận, báo chí, truyền hình…
o Nguồn thơng tin kinh nghiệm thông qua tiếp xúc trực tiếp với sản phẩm.
Đánh giá các phương án
Từ các nhãn hiệu sản phẩm khác nhau đã biết qua giai đoạn tìm kiếm, khách
hàng bắt đầu đánh giá để chọn ra nhãn hiệu phù hợp với nhu cầu của mình.
Doanh nghiệp cần phải biết được là khách hàng đánh giá các phương án như
thế nào? Họ dùng tiêu chuẩn gì để lựa chọn? Chất lượng hay giá cả quan trọng hơn?
Để hiểu rõ việc đánh giá của khách hàng như thế nào, doanh nghiệp cần tìm hiểu ở
những vấn đề sau:
o Các thuộc tính của sản phẩm mà khách hàng quan tâm.
o Mức độ quan trọng của các thuộc tính đối với khách hàng.
o Niềm tin của người tiêu dùng đối với các nhãn hiệu.
10


o Độ hữu dụng của các thuộc tính đó.
Quyết định mua
Sau khi đánh giá các lựa chọn, khách hàng đi tới ý định mua. Tuy nhiên, từ ý
định mua đến quyết định mua cịn có các cản trở như thái độ của các nhóm ảnh hưởng
-

(bạn bè, gia đình...), các điều kiện mua hàng (địa điểm giao dịch, phương thức thanh
toán, các dịch vụ hậu mãi…). Do vậy các hoạt động xúc tiến bán (khuyến mại, các

dịch vụ sau bán hàng…) có vai trị rất quan trọng, đặc biệt khi có cạnh tranh.
-

Đánh giá sau khi mua
Sau khi mua xong khách hàng sử dụng sản phẩm và có các đánh giá về sản

phẩm mua được. Mức độ hài lòng của khách hàng sẽ tác động trực tiếp đến các quyết
định mua vào các lần sau. Doanh nghiệp cần thu thập thông tin để biết được đánh giá
của khách hàng để điều chỉnh các chính sách.

1.1.3. Hành vi mua của đơn vị, tổ chức
Điều khác biệt cơ bản của các đơn vị, tổ chức so với khách hàng tiêu dùng cá
nhân là các khách hàng tổ chức mua hàng hoá và dịch vụ để phục vụ cho các hoạt
động của tổ chức đó, tức là hàng hố dịch vụ họ mua là yếu tố đầu vào cho hoạt động
của tổ chức, doanh nghiệp. Đặc điểm này sẽ chi phối những đặc điểm khác như nhu
cầu, hành vi mua, số lượng mua, người tham gia mua… Ví dụ như là các doanh
nghiệp sử dụng thông tin liên lạc, vật tư, thiết bị để tiến hành hoạt động sản xuất kinh
doanh [4].
Hàng hoá, dịch vụ mua phục vụ cho sản xuất được gọi là tư liệu sản xuất.
Như vậy, các tổ chức cần đến các tư liệu sản xuất như là các yếu tố đầu vào cần
thiết cho quá trình hoạt động của các tổ chức đó. Có thể chia khách hàng là các tổ
chức thành bốn loại:
- Các doanh nghiệp sản xuất.
- Các doanh nghiệp thương mại.
- Các tổ chức phi lợi nhuận (cơ quan đào tạo, nghiên cứu, công ty phục vụ cơng
ích…)
- Các cơ quan Đảng, Nhà nước.
Đặc trưng cơ bản của thị trường các doanh nghiệp, tổ chức
- Quy mô thị trường, khối lượng mua [4]
Số lượng các khách hàng tổ chức thì ít hơn nhiều so với các khách hàng tiêu

dùng cá nhân. Nhưng số lượng mua thì lớn hơn nhiều so với nhu cầu tiêu dùng cả
nhân. Họ cũng mua thường xuyên hơn.
Quan hệ giữa khách hàng và người cung cấp dịch vụ thân thiện hơn, gần gũi
hơn. Các nhà cung cấp cũng muốn có các khách hàng ổn định và lâu dài. Các khách
11


hàng cũng muốn có nhà cung cấp tin cậy, ổn định. Điều này có lợi cho cả nhà cung
cấp và các DNSX. [4]
- Những người tham gia mua hàng trong tổ chức
Có nhiều người của cơng ty tham gia vào quá trình quyết định mua (Hội đồng
mua sắm). Số người tham gia tuỳ thuộc vào mức độ quan trong của hàng mua. Vai trò
của các thành viên trong Hội đồng là khác nhau.
Mua sắm các yếu tố đầu vào của các tổ chức mang tính chuyên nghiệp. Các
nhân viên mua sắm được đào tạo, có kinh nghiệm mua sắm. Do vậy, doanh nghiệp
bán hàng cũng phải tuyển chọn đội ngũ bán hàng chuyên nghiệp, được tuyển chọn kỹ
và đào tạo có bài bản về nghiệp vụ, kỹ thuật.
- Các đặc tính khác:
Mua sắm thường theo phương thức trực tiếp, khơng thông qua trung gian.
Lựa chọn kỹ người cung cấp và xây dựng quan hệ lâu dài, ổn định.
Xu hướng chuyển sang thuê mua tài chính hơn là mua đứt bán đoạn vì giảm
được rủi ro và nâng cao hiệu quả.
Quá trình thơng qua quyết định mua của các tổ chức
Q trình này tương tự như q trình thơng qua quyết định mua của người tiêu
dùng. Tuy nhiên, ở đây người mua phải trải qua nhiều giai đoạn hơn:
Ý thức được vấn đề cần phải mua sắm
Đó là khi tổ chức ý thức được vấn đề cần phải mua sắm. Ý thức này xuất hiện
dưới sự tác động của các yếu tố bên trong doanh nghiệp (có nhu cầu mua sắm) và từ
các yếu tố kích thích bên ngồi (quảng cáo, chào hàng).
 Khi tổ chức bắt đầu sản xuất dịch vụ, sản phẩm mới thì họ cần thiết bị, vật tư

mới cho sản xuất.
 Khi tổ chức cần thay thế, nâng cấp các thiết bị cũ, lạc hậu. Do vậy họ có nhu
cầu mua sắm thiết bị, phụ tùng.
 Khi nhà cung cấp cũ khơng đáp ứng nhu cầu, địi hỏi cao hơn của tổ chức. Họ
bắt đầu tìm kiếm các nhà cung cấp mới.
 Khi xuất hiện công nghệ mới chất lượng cao hơn, tiết kiệm chi phí, nâng cao
khả năng cạnh tranh...

-

 Khi các nhà cung ứng quảng cáo, chào hàng các vật liệu, công nghệ mới, dịch
vụ mới có ưu thế hơn so với hiện tại.
Mơ tả khái quát nhu cầu
 Xác định các đặc tính của các mặt hàng cần mua. Các chuyên gia về kỹ thuật
có thể được mời để đưa ra các yêu cầu chính xác đối với các yếu tố đầu vào cần
mua.
12


 Doanh nghiệp mua cần có thơng tin kịp thời. Người bán hàng cần cung cấp

-

thông tin đầy đủ, nhanh chóng về các loại yếu tố đầu vào khác nhau, tư vấn cho
người mua.
Đánh giá tính năng của hàng hố ( phân tích hiệu quả- chi phí)
 Hàng hố dự kiến mua mang lại giá trị gì cho cơng ty? Có tương xứng với chi
phí bỏ ra khơng?
 Có cần tất cả các chức năng của hàng hố đó khơng?
 Có loại hàng hố thay thế có tính năng tương tự với giá rẻ hơn khơng?

 Có các nhà cung cấp cùng loại khác với giá rẻ hơn không?

-

 Công ty có tự sản xuất được khơng?
Tìm hiểu người cung ứng
 Nhân viên mua hàng tìm kiếm, lập danh sách các nhà cung ứng có thể, loại bỏ
các nhà cung ứng không đạt các yêu cầu ban đầu, xếp loại các nhà cung ứng

theo các tiêu chuẩn nào đó.
 Các nguồn thơng tin khác nhau được sử dụng để tìm kiếm các nhà cung ứng.
Đó là: Các ấn phẩm thương mại; Quảng cáo; Triển lãm; Internet; Các phương
tiện thông tin đại chúng. ..
Yêu cầu chào hàng
Công ty đề nghị các nhà cung ứng có khả năng được lựa chọn thực hiện việc
chào hàng chính thức (cung cấp các tài liệu, thông tin cần thiết, cử đại diện bán hàng
đến giới thiệu). Đại diện bán hàng phải giải đáp được các vấn đề do khách hàng đặt ra.
Trong giai đoạn này, vai trò của các đại diện bán hàng rất quan trọng, giúp cho
nhà cung ứng lọt vào tầm ngắm của khách hàng.
Lựa chọn người cung cấp
Trong giai đoạn này bên mua nghiên cứu kỹ các văn bản chào hàng để lựa chọn
nhà cung ứng. Để đánh giá có cơ sở, bên mua sẽ liệt kê những đặc điểm yêu cầu ở các
nhà cung ứng. Các đặc điểm này được xếp theo thứ tự mức độ quan trọng, hoặc được
gán cho các trọng số, sau đó lấy trung bình cộng có gia quyền làm kết quả để so sánh
giữa các nhà cung ứng khác nhau.
Đối với hình thức mua qua thủ tục đấu thầu thì đây là giai đoạn mở thầu. Công
ty tiến hành mở thầu, chấm thầu và công bố người trúng thầu.
Làm các thủ tục đặt hàng
Giai đoạn này, người mua đàm phán các chi tiết, thủ tục đặt hàng và ký kết hợp
đồng với nhà cung cấp được lựa chọn. Đó là về các đặc tính kỹ thuật, số lượng mua,

thời gian giao hàng, chính sách bảo hành… Công việc này được các nhân viên mua
hàng thoả thuận thực hiện cùng với đại diện bên bán.
13


-

Đánh giá người cung ứng

Trong giai đoạn này, người mua xem xét đánh giá kết quả thực hiện của bên
cung cấp. Người mua có thể đánh giá các nhà cung cấp bằng cách sử dụng một số các
tiêu chuẩn nào đó (có thể kèm theo trọng số ứng với mỗi tiêu chuẩn). Trên cơ sở đánh
giá đó mà bên mua quyết định tiếp tục mua, mua có thay đổi hay không mua tiếp đối
với các nhà cung cấp đã chọn.

1.2. Khai phá dữ liệu và phát hiện tri thức
1.2.1. Khai phá dữ liệu
Khai phá dữ liệu (Data mining, KPDL) là q trình khám phá trích xuất thơng
tin hữu ích trong các kho dữ liệu [8] và có thể được xem là một bước quan trọng trong
tiến trình khám phá tri thức để tìm ra các mẫu từ dữ liệu theo khn dạng thích hợp
[1]. Do đó, KPDL là giai đoạn quan trọng nhất trong quá trình khai phá tri thức từ dữ
liệu, và từ các tri thức này để hỗ trợ trong việc đưa ra quyết định ở các ngành kinh
doanh, tài chính hay khoa học, giáo dục.
Theo tác giả John Naisbitt thì “Chúng ta đang chìm ngập trong dữ liệu mà vẫn
đói tri thức [21]”; phát biểu này làm nổi bật sự khác biệt về lượng lẫn về chất giữa hai
khái niệm thông tin và tri thức. Đối với hoạt động quản lý, sản xuất và dịch vụ, kinh
doanh thì lượng dữ liệu to lớn này là một một tài nguyên quý với nhiều giá trị thông
tin, là một yếu tố then chốt. Nó giúp nhà quản lý có được những thông tin hiểu biết về
các tác nhân tác động đến quá trình hoạt động của tổ chức mình trước khi ra quyết
định nhằm đạt được các mục tiêu một cách có hiệu quả và bền vững.

KPDL là một tập hợp nhiều kỹ thuật được sử dụng để tự động khai phá, với
mục đích là tìm thấy các mẫu tiềm ẩn trong tập dữ liệu, đồng thời tìm ra được các mối
quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu vô cùng lớn và phức tạp.
KPDL là một lĩnh vực còn mới mẻ và được nghiên cứu, nhằm tự động khai
thác thông tin, tri thức mới hữu ích, tiềm ẩn trong những cơ sở dữ liệu (CSDL) lớn ở
các tổ chức, doanh nghiệp,…. từ đó làm thúc đẩy được sự phát triển trong quá trình
sản xuất, kinh doanh, cũng như sự cạnh tranh cho những tổ chức, doanh nghiệp này.
Từ những kết quả trong việc nghiên cứu khoa học cùng những ứng dụng thành công
trong KDD cho thấy KPDL là lĩnh vực phát triển mang tính bền vững, đã mang lại
nhiều ích lợi và có nhiều tiềm năng triển vọng, ngồi ra KPDL có ưu thế hơn hẳn so
với các cơng cụ, phương pháp tìm kiếm phân tích dữ liệu truyền thống.

1.2.2. Các bước cơ bản của quá trình phát hiện tri thức
Phát hiện tri thức (KDD) là mục tiêu quan trọng ở trong quá trình KPDL, do
đó, trong hai khái niệm về KPDL và KDD đã được các nhà khoa học trên hai lĩnh vực
14


này xem như là tương đương nhau. Thế nhưng nếu xem xét từng quá trình một cách
chi tiết thì KPDL chính là một bước chính trong q trình KDD. Với một trường hợp
đơn giản như: KPDL được ví như tìm một cây kim ở trong một đống cỏ khơ. Thì
trong ví dụ này, cây kim được ví như là một mảnh nhỏ của thơng tin có giá trị và đống
cỏ khô đang là một kho CSDL rộng lớn.
Như vậy, nhờ có q trình khai phá dữ liệu mà trích lọc được những thơng tin
có giá trị tiềm ẩn “tri thức” từ dữ liệu trong các kho cơ sở dữ liệu khổng lồ. Khai phá
dữ liệu bao gồm 4 chức năng, cụ thể: gộp nhóm phân loại, dự báo, dự đốn và phân
tích các liên kết. Fayyad, Smyth và Piatestsky-Shapiro đã dùng khái niệm Phát hiện tri
thức từ cơ sở dữ liệu (Knowledge Discovery in Database-KDD). Trong đó, khai phá
dữ liệu sử dụng các kỹ thuật để tìm ra các mẫu từ CSDL, là một giai đoạn cực kỳ đặc
biệt trong tồn bộ q trình. Do vậy, có thể coi khai phá dữ liệu là cốt lõi của quá trình

phát hiện tri thức. Hình 1.2 thể hiện 5 giai đoạn của quá trình khai phá dữ liệu [8]

Hình 1.2. Quá trình phát hiện tri thức trong CSDL [1]

Bắt đầu của quá trình KPDL là kho các dữ liệu thơ và kết thúc là những tri thức
thu được từ kho dữ liệu ban đầu. Nếu dựa trên lý thuyết thì có thể được kết quả cao
với thao tác đơn giản nhưng thực sự đây là một quá trình phức tạp, gặp phải rất nhiều
vướng mắc trong quá trình xử lý như: quản lý dữ liệu tập trung, phải lặp đi lặp lại
thường xun tồn bộ q trình, …
Quy trình KPDL gồm 5 pha (giai đoạn), cụ thể như sau [1,13]:
1. Chọn lọc dữ liệu (Selection):

15


Ở giai đoạn này, dữ liệu được lựa chọn hoặc phân chia dựa vào những tiêu
chuẩn đã được định nghĩa ra từ trước đó. Ví dụ như: lọc những dữ liệu cá nhân có giới
tính nam, sống tại Hà Nội và có trình độ đại học.
2. Tiền xử lý dữ liệu (Pre-processing):
Có thể nói tiền xử lý và chuẩn bị dữ liệu là 1 bước quan trọng trong quá trình
khai phá dữ liệu.
Có một số lỗi thường gặp phải trong khi thu thập dữ liệu là thiếu thơng tin,
khơng có sự chặt chẽ, logíc. Vì thế, dữ liệu được lấy thường chứa các giá trị khơng có
ý nghĩa và khơng có khả năng kết nối dữ liệu. Ví dụ: tuổi = 200.
Giai đoạn này sẽ tiến hành phân tích và xử lý những kiểu dữ liệu khơng mang
tính chặt chẽ logic nói trên. Những dữ liệu ở dạng này xem như là các thơng tin dư
thừa và khơng có giá trị. Bởi vậy, đây là một quá trình xử lý rất quan trọng, vì dữ liệu
chuẩn bị nếu khơng được “tiền xử lý - chuẩn bị trước” thì sẽ gây nên những kết quả
khơng chính xác, sai lệch với mong muốn, ảnh hưởng đến quá trình KPDL.
3. Chuyển dạng (Transformation): Ở giai đoạn chuyển đổi dữ liệu này, dữ liệu

được chuyển đổi về dạng thuận tiện để tiến hành các thuật toán xử lý và khám phá dữ
liệu. Ở giai đoạn này, dữ liệu được chuyển đổi để phù hợp với mục đích khai phá dữ
liệu.
4. Khai phá dữ liệu (Data Mining): Đây được coi là bước mang tính tư duy
trong KDD. Trong giai đoạn này, nhiều phương pháp, thuật tốn khác nhau được sử
dụng để trích các mẫu từ kho dữ liệu. Thuật toán thường dùng là các nguyên tắc phân
loại, ngun tắc hoặc các mơ hình dữ liệu tuần tự, …
5. Trình diễn & đánh giá: Trong khai phá dữ diệu thì trình diễn & đánh giá kết
quả mẫu là giai đoạn cuối cùng. Ở giai đoạn này, các mẫu dữ liệu được đưa ra sau khi
các phần mềm khai phá dữ liệu xử lý. Không phải tất cả mẫu dữ liệu nào đưa ra cũng
đều hữu ích mà đơi khi nó cịn bị những sai lệch. Do đó, cần có ưu tiên về những tiêu
chuẩn đánh giá để chiết xuất ra các tri thức phù hợp (Knowledge).
Trên đây là 5 giai đoạn trong quá trình phát hiện tri thức từ dữ liệu, trong đó
giai đoạn Khai phá dữ liệu (giai đoạn 4) là giai đoạn được quan tâm nhiều nhất.

1.2.3. Kiến trúc của một hệ thống khai phá dữ liệu
Kiến trúc điển hình của một hệ thống khai phá dữ liệu được trình bày trong
hình 1.3. Bao gồm các thành phần sau:
Các nguồn dữ liệu cho các hệ thống KPDL như máy chủ cơ sở dữ liệu hay máy
chủ kho dữ liệu (Database or Data Warehouse server) hoặc World Wide Web hoặc
kho chứa dữ liệu kiểu bất kỳ khác…
16


-

Cơ sở tri thức (Knowledge base): Tìm kiếm, đánh giá mức độ quan trọng các

hình mẫu hết quả, đây là chức năng của cơ sở tri thức.
Thành phần khai phá dữ liệu (Data Mining Engine): Một tập các module chức

năng để thực hiện công việc là điều cần thiết phải có đối với một hệ thống KPDL; như
đặc trưng hóa, kết hợp, phân lớp (classification), phân cụm (clustering), phân tích sự
tiến hoá dữ liệu và độ lệch ( evolution and deviation analysis )…
-

Module đánh giá mẫu (Pattern evaluation): Để chú trọng vào việc duyệt tìm các

mẫu được quan tâm, module này phải tương tác với các module khai phá dữ liệu. Bên
cạnh đó thì bộ phận này cũng có thể được tích hợp vào module khai phá tuỳ theo sự
cài đặt của phương pháp khai phá được dùng.
Giao diện đồ họa cho người dùng (Graphical user interface): Người dùng cuối
thông qua các giao diện tương tác với hệ thống bằng cách đặc tả một yêu cầu khai phá
hoặc một nhiệm vụ. Từ đó, cung cấp thơng tin trợ giúp cho việc tìm kiếm, thực hiện
khai phá thăm dị trên các kết quả khai phá trung gian.

Hình 1.3. Kiến trúc điển hình của hệ thống khai phá dữ liệu [1]

1.2.4. Một số kỹ thuật khai phá dữ liệu
Trong kỹ thuật khai phá dữ liệu bao gồm 2 phân nhóm chính [9]:
Nhóm mơ tả dữ liệu: nhóm này có nhiệm vụ mơ tả về các tính chất hoặc các
đặc tính chung của dữ liệu trong CSDL hiện có. Các kĩ thuật này được bao gồm:
o Phân cụm (clustering)
o Tóm tắt (summarization)
17


o Trực quan hóa (visualization)

-


o Phân tích sự phát triển và độ lệch (Evolution and deviation analysis)
o Phát hiện luật kết hợp (association rules) ...
Nhóm dự đốn: Kỹ thuật này có nhiệm vụ đưa ra những dự đốn dựa vào các

suy diễn ở dữ liệu hiện thời. Các kĩ thuật này gồm:
o Phân lớp (classification)
o Hồi quy (regression), ...
1.2.4.1. Phân lớp
Phân lớp dữ liệu (Classification/Categorization) thực hiện phân các đối tượng
dữ liệu vào một hay nhiều lớp cho trước dựa vào các đặc trưng của tập dữ liệu [1].
Với đầu vào là một tập dữ liệu cho trước gồm các đối tượng dữ liệu đã được gán nhãn
phân lớp (tập huấn luyện), quá trình phân lớp sẽ học ra được bộ phân lớp/loại
(classifier) có khả năng ánh xạ các dữ liệu mới vào một trong các lớp (còn gọi là loại)
đã được xác định trước. Khi ta có rất ít thơng tin hoặc biết rất ít về đối tượng cần
nghiên cứu, phương pháp này rất hiệu quả và có ích trong giai đoạn bắt đầu nghiên
cứu, nó là tiền đề để tiến hành các phương pháp phát hiện tri thức. Quá trình phân lớp
thường bao gồm hai bước như sau [9]:
Bước 1: Xây dựng mơ hình dựa vào việc phân tích các mẫu dữ liệu huấn luyện
và trích xuất các đặc trưng. Mỗi mẫu được quyết định bởi một thuộc tính tương ứng
với một lớp khác nhau, được gọi là thuộc tính phân lớp, và các mẫu dữ liệu này được
gọi là tập dữ liệu huấn luyện (training dataset). Trước khi xây dựng mơ hình phân lớp,
ở tập dữ liệu huấn luyện thì nhãn lớp phải được xác định rõ ràng, do đó thì phương
pháp mơ hình phân lớp cịn được gọi là học có giám sát (supervised learning).
Bước 2: Sử dụng mơ hình để phân lớp dữ liệu. Cần phải tính độ chính xác của
mơ hình, mơ hình sẽ được sử dụng để dự đoán lớp cho các mẫu dữ liệu khác trong
tương lai nếu độ chính xác là đạt yêu cầu.
1.2.4.2. Phân cụm
Phân cụm (Clustering) là việc dựa trên các đặc điểm và thuộc tính của chúng để
nhóm các đối tượng dữ liệu thành các lớp đối tượng có sự tương đồng. Ở mỗi cụm bao
gồm các đối tượng có sự khác nhau với các lớp đối tượng khác, nhưng ở bản thân

chúng lại có sự ràng buộc với nhau. Phân cụm dữ liệu là một ví dụ trong phương pháp
học khơng có giám sát (unsupervised learning). Trong phân cụm dữ liệu, các mẫu dữ
liệu huấn luyện không cần địi hỏi phải làm rõ trước. Nên có thể xem kỹ thuật phân
cụm dữ liệu là phương pháp học bằng quan sát (learning by observation), trong khi
phân lớp dữ liệu là học qua ví dụ (learning by example). Ở phương pháp này, chúng ta
không thể biết trước kết quả các cụm thu được sẽ như thế nào khi bắt đầu quá trình.
18


Các cụm có thể tách riêng hoặc phân cấp hoặc gối lên nhau, điều đó có nghĩa là một
mục dữ liệu có thể vừa thuộc cụm này vừa thuộc cụm kia. Vì vậy, thơng thường sẽ
cần có một chun gia về lĩnh vực đó để đánh giá các cụm thu được sau khi kết thúc
quá trình.
Phân cụm dữ liệu được sử dụng nhiều trong nhiều ứng dụng về phân loại thị
trường, phân loại khách hàng, nhận dạng mẫu, phân loại web, … Ngồi ra, phân cụm
cịn được sử dụng như là một bước tiền xử lý cho các thuật toán khai phá dữ liệu khác.
1.2.4.3. Luật kết hợp
Luật kết hợp (Association Rules) thể hiện mối quan hệ của những đối tượng dữ
liệu xuất hiện trong kho dữ liệu [10]. Các giải thuật tìm ra luật kết hợp tìm kiếm các
mối liên kết ở các phần tử dữ liệu, ví dụ như nhóm các món hàng thường hay mua
kèm cùng nhau ở trong một quầy hàng. Trong một tập các giao dịch, trong đó với mỗi
giao dịch là một tập các mục khác nhau, tìm sự tương quan giữa các mục như là một
luật và kết quả của phương pháp khai phá dữ liệu là tập luật kết hợp tìm được. Luật
kết hợp thường có mơ hình dạng X Y. Trong đó: X là tiền đề, Y là kết quả (X, Y là
hai tập của mục). Khai phá luật kết hợp là tìm ra các luật mà dự đốn các giao dịch
của cơ sở dữ liệu mà trong đó nội dung X có khuynh hướng đến nội dung Y.
Độ hỗ trợ (support) và độ tin cậy (confidence) là 2 tham số dùng để đo lường
luật kết hợp, phản ánh nên sự hữu ích và sự chắc chắn của luật đã khám phá. Do vậy,
tìm các luật mà có độ hỗ trợ và độ tin cậy lớn hơn ngưỡng mà người dùng đã xác định
trước chính là khai phá các luật kết hợp từ kho cơ sở dữ liệu.

Với ví dụ ở hình 1.4 khi phân tích giỏ hàng của người mua trong một siêu thị ta
thu được luật như sau: “68% khách hàng mua sữa thì cũng mua bánh mỳ, 21% mua cả
sữa và bánh mỳ. Ở ví dụ này thì độ tin cậy của luật là 68% (số phần trăm giao dịch
thỏa mãn vế trái thì thỏa mãn vế phải) và độ hỗ trợ là 21% (số phần trăm giao dịch
thỏa mãn cả hai vế).

Hình 1.4. Phân tích giỏ hàng

19


Luật kết hợp hỗ trợ rất lớn trong quá trình đưa ra quyết định, mang lại những
thông tin vô cùng quan trọng. Phương pháp này được sử dụng trong nhiều lĩnh vực
khoa học cũng như đời sống như việc marketing có chủ đích, phân tích thơng tin thị
trường hay việc quản lý kinh doanh,... Nhìn chung, bài tốn khai phá luật kết hợp
thường được chia thông qua hai bước:
Bước 1: Tìm ra tất cả các tập mục phổ biến trong cơ sở dữ liệu, với mỗi tập
mục phổ biến được xác định thơng qua việc tính tốn độ hỗ trợ và thỏa mãn độ hỗ trợ
tối thiểu.
Bước 2: Xem xét mức độ thỏa mãn của các tiêu chí: độ hỗ trợ tối thiểu và độ
tin cậy tối thiểu để sinh ra luật kết hợp mạnh từ tập mục phổ biến đó.

1.3. Ứng dụng khai phá dữ liệu cho thị trường hàng hóa
1.3.1. Ứng dụng của khai phá dữ liệu
Khai phá dữ liệu được áp dụng trong rất nhiều lĩnh vực khác nhau nhằm mục
đích khai thác nguồn dữ liệu đa dạng và phong phú được lưu trữ trong các hệ thống
thơng tin (Bảng 1.2). Việc vận dụng KPDL có thể tiếp cận bằng nhiều phương thức
khác nhau, tùy theo bản chất của từng lĩnh vực, cụ thể [1]:
Ngân hàng: Áp dụng trong xây dựng mơ hình để dự báo rủi ro tín dụng, trong
tìm kiếm tri thức và tìm ra quy luật của thị trường chứng khoán và đầu tư bất động

sản.
Thương mại điện tử: Phát triển và thúc đẩy định hướng giao tiếp với khách
hàng. Phân tích hành vi, sở thích mua sắm trên mạng, để từ đó cho biết thông tin để
quảng cáo tiếp thị phù hợp với từng đối tượng khách hàng khác nhau
Marketing: Dựa trên dữ liệu mua bán hàng để phân tích nhu cầu mua hàng của
khách hàng. Từ đó, các nhà chiến lược có thể hoạch định ra các hành động về kinh
doanh, quảng cáo, kế hoạch sản xuất, phân phối, ...
Loại ứng dụng

2006
(111)

2007
(138)

2008
(107)

2009
(180)

2010
(213)

Phân tích khách hàng

39.1

26.1


38.3

32.8

26.8

Ngân hàng

0.9

23.9

31.8

24.4

19.2

Y tế

4.5

7.2

9.3

11.7

13.1


Phát hiện hành vi gian lận

21.8

18.8

19.6

13.9

12.7

Khác

13.6

13.0

13.1

7.8

11.7

x

7.2

16.8


11.1

11.3

20.0

20.3

14.0

16.1

11.3

Tài chính
Marketing truyền thơng

20


Viễn thông

12.7

15.2

12.1

14.4


10.8

Bảo hiểm

10.9

8.7

10.3

10.0

10.3

Khoa học

10.9

18.8

10.3

10.6

10.3

Giáo dục

x


x

x

4.4

9.9

Quảng cáo

x

x

12.1

10.6

9.9

Khai phá sử dụng web

10.9

10.1

7.5

8.3


8.9

Sản xuất

6.4

6.5

8.4

3.3

8.0

Y tế/dược

7.3

9.4

7.5

7.8

8.0

Bán lẻ

10.0


10.1

12.1

11.7

8.0

Rủi ro tín dụng

19.1

13.8

13.1

15.6

8.0

Thương mại điện tử

5.5

5.8

7.5

10.0


7.0

Tìm kiếm/ khai phá nội
dung web

13.6

6.5

5.6

6.7

6.6

x

x

1.9

7.8

6.6

Chính phủ/qn đội

6.4

7.2


3.7

3.9

6.1

Đầu tư/ chứng khốn

10.0

2.9

13.1

6.7

5.6

Cơng nghệ sinh học

15.5

11.6

11.2

7.8

5.6


Giải trí/ Ca nhạc

1.8

4.3

2.8

1.7

3.3

An ninh/ Chống khủng bố

4.5

3.6

5.6

5.0

1.9

Du lịch/ du khách

4.5

2.2


2.8

2.8

1.4

Email rác/ chống spam

1.8

2.2

2.8

0.6

0.9

Chính sách xã hội/ Phân
tích khảo sát

x

3.6

7.5

1.7


0.9

Không loại nào

x

x

1.9

x

x

Mạng xã hội

Bảng 1.1. Các ứng dụng khai phá dữ liệu nổi bật [1]

Ngoài ra, việc vận dụng kỹ thuật KPDL cũng đã giải quyết nhiều bài toán phức
tạp trong các ngành đòi hỏi kỹ thuật cao [11], như phát hiện và cảnh báo hỏng hóc
trong các hệ thống sản xuất, dự đoán tải sử dụng điện năng trong các công ty cung cấp
điện hay việc sử dụng lưu lượng viễn thông ở công ty điện thoại, mức tiêu thụ sản
phẩm cho các nhà sản xuất, …
KPDL còn được áp dụng vào các vấn đề về xã hội như phân tích kết quả phịng
chống và điều trị một số loại bệnh, phân tích tác hại của ma tuý, phát hiện tội phạm và
tăng cường an ninh xã hội, ... Việc vận dụng thành công khai phá dữ liệu đã mang lại
21


nhiều hiệu quả thiết thực và to lớn cho các hoạt động diễn ra hàng ngày trong đời sống

và xã hội.

1.3.2. Phát hiện hành vi mua sắm của người dùng
Xu thế phát triển chung của doanh nghiệp hiện nay là sự tập trung các hệ thống
sản xuất cũng như việc phân phối sản phẩm ngày càng được chun mơn hóa. Hiện
nay, trong lĩnh vựcthương mại, các cửa hàng quy mô nhỏ, độc lập hầu hết sẽ được
thay thế bằng những hệ thống siêu thị, trung tâm thương mại hay các khu mua sắm…
Để giúp doanh nghiệp có thể tồn tại, phát triển và cạnh tranh trên thị trường thì
các nhà quản lý cần phải đưa ra những nhận định kịp thời và cách nhìn tổng thể về
cách thức đầu tư về các mặt hàng nhằm đáp ứng đúng nhu cầu cũng như xu hướng của
khách hàng và có những định hướng đầu tư đúng đắn [7].
Với sự ra đời và phát triển mạnh mẽ của lĩnh vực công nghệ thông tin, cũng
như cách mạng cơng nghiệp 4.0 thì người dùng khơng chỉ tạo ra các thơng tin mà cịn
sử dụng những thông tin đấy dành cho công tác hỗ trợ, quản lý. Do phạm vi ứng dụng
và vai trò của công nghệ thông tin trong công tác quản lý là rất lớn, và thời gian và
điều kiện còn hạn chế nên chúng tơi chọn một khía cạnh nhỏ trong cơng tác ứng dụng
CNTT vào quản lý đó là ứng dụng phương pháp hỗ trợ khai phá dữ liệu để phát hiện
hành vi mua sắm của người dùng và các tác nhân liên quan dựa trên các thông tin giao
dịch bán hàng, để rồi từ đó, có thể hỗ trợ cho người quản lý đưa ra những nhận định
mang tính định hướng về việc kinh doanh sắp tới.
Một ví dụ kinh điển của ứng dụng khai phá dữ liệu là phân tích dữ liệu giỏ
hàng trong siêu thị: Giả định trong siêu thị có rất nhiều loại hàng hóa, ví dụ như “bánh
mỳ”, “sữa”,…(coi là tính chất hoặc trường). Khi đi trong siêu thị, khách hàng sẽ bỏ
những mặt hàng nào đó mà họ mua vào giỏ, và chúng ta-các siêu thị đang muốn tìm
hiểu rằng các mặt hàng nào các khách hàng thường mua đồng thời, thậm chí chúng ta
khơng cần quá quan tâm đến khách hàng đó là ai, làm gì. Các nhà quản lý thường dựa
vào các thơng tin này để có thể sắp xếp điều chỉnh việc nhập hàng về siêu thị, hay đơn
giản là để bố trí các mặt hàng thường có xu hướng mua đồng thời để ở gần nhau, hoặc
bán các mặt hàng đó theo một gói hàng hoặc khuyến mãi cùng, giúp cho khách hàng
đỡ mất cơng tìm kiếm.

Dựa vào những kiến thức về khai phá dữ liệu, thị trường hàng hóa và dữ liệu
đầu vào là tập hóa đơn bán hàng của công ty PAC Việt Nam, luận văn sẽ tập trung
phân tích, đưa ra tập các luật về hành vi mua hàng của khách hàng, được thể hiện
thông qua các luật kết hợp dưới dạng X → Y trong đó X, Y là tập mục (mặt hàng)
xuất hiện trong đầu vào.
22


CHƯƠNG 2: TỔNG QUAN VỀ KHAI PHÁ LUẬT KẾT HỢP
2.1. Luật kết hợp
Cho T = {t1,t2,..., tn} là tập n giao dịch (transaction), I = {i1, i2, .., im} là tập m
phần tử (items) khác nhau xuất hiện trong ti. Mỗi giao dịch ti là một tập các phần tử
xuất hiện đồng thời (Bảng 2.1). Một luật kết hợp là một mệnh đề kéo theo có dạng
X → Y, trong đó thỏa mãn điều kiện các tập mục X  I, Y ⊆ I và XY=∅. Các tập X,
Y được gọi là các tập mục hay là tập các phần tử (itemset). Tập mục X gọi là mệnh đề
điều kiện, tập Y gọi là kết quả của luật tương ứng.
Để có thể chọn ra các luật có ích, ta cần ràng buộc những số đo đảm bảo ý
nghĩa. Có 2 ràng buộc được xem là quan trọng đối với luật kết hợp:
o Độ hỗ trợ (Support).
o Độ tin cậy (Confidence).
Bảng 2.1. Một ví dụ về cơ sở dữ liệu gồm 5 giao dịch:
TID
1
2
3
4
5

Tập mục trong giao dịch
{ bút, giấy, máy tính, thước, kéo }

{ giấy, thước }
{ bút, giấy, kéo }
{ bút, giấy, thước }
{ kéo, thước }

Độ hỗ trợ
Độ hỗ trợ của tập mục X trong cơ sở dữ liệu giao dịch T (ký hiệu là supp(X)) là
tỉ lệ giao dịch trong T có chứa X:
supp(X) =

∣{𝑡𝑖 | 𝑋 ⊆ 𝑡𝑖 ,𝑡𝑖 ∈ 𝑇}∣
|𝑇|

trong đó |.| thể hiện lực lượng (số phần tử) của tập hợp
Độ hỗ trợ của một luật X→ Y là tỷ lệ % các giao dịch trong T chứa cả X và Y.
Độ hỗ trợ giúp xác định mức độ phổ biến của các giao dịch chứa tập mục (X ∪ Y)
trong tổng số tất cả các giao dịch [1]. Ký hiệu: support(X→Y) hay supp(X→Y)
support (X→Y) = supp( X ∪ Y )
Khi có kết quả độ hỗ trợ của một luật là 50%, điều đó có nghĩa là có 50% tổng
số bản ghi chứa X∪Y ở trong T.
Trong một vài trường hợp, chúng ta chỉ lưu ý đến các luật mà có độ hỗ trợ cao
(như trường hợp luật kết hợp xét trong siêu thị, cửa hàng quần áo). Tuy nhiên, cũng có
các trường hợp, mặc dù với độ hỗ trợ của luật thấp, nhưng ta vẫn cần quan tâm đến kết
23


×