Tải bản đầy đủ (.pdf) (96 trang)

NGHIÊN cứu ỨNG DỤNG một số THUẬT TOÁN KHAI PHÁ dữ LIỆU hỗ TRỢ PHÂN TÍCH cơ sở dữ LIỆU bán HÀNG SIÊU THỊ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (14.92 MB, 96 trang )

0

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC THƯƠNG MẠI

BÁO CÁO TỔNG KẾT

NGHIÊN CỨU ỨNG DỤNG
MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU
HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU
BÁN HÀNG SIÊU THỊ
Mã số: CS20 - 42

Chủ nhiệm đề tài: ThS. GVC. NGUYỄN HƯNG LONG
Thành viên tham gia: ThS. Nguyễn Thị Vân Trang
ThS. Lê Kim Anh

Hà Nội, 03/2021


1

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC THƯƠNG MẠI

BÁO CÁO TỔNG KẾT

NGHIÊN CỨU ỨNG DỤNG
MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU
HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU
BÁN HÀNG SIÊU THỊ


Chủ nhiệm đề tài: ThS. GVC. NGUYỄN HƯNG LONG
Thành viên tham gia: ThS. Nguyễn Thị Vân Trang
ThS. Lê Kim Anh
Xác nhận của Trường Đại học Thương mại

Hà Nội, 03/2021

Chủ nhiệm đề tài


2

MỤC LỤC
DANH MỤC CÁC BẢNG....................................................................................................... 4
DANH MỤC CÁC HÌNH ........................................................................................................ 5
DANH MỤC CÁC TỪ VIẾT TẮT ......................................................................................... 6
CHƯƠNG 1. TỔNG QUAN NGHIÊN CỨU CỦA ĐỀ TÀI .................................................. 9
1. Tính cấp thiết của đề tài................................................................................................... 9
2. Tổng quan đề tài nghiên cứu ......................................................................................... 10
3. Mục tiêu nghiên cứu ...................................................................................................... 15
4. Đối tượng và phạm vi nghiên cứu ................................................................................. 15
5. Phương pháp nghiên cứu ............................................................................................... 15
6. Kết cấu báo cáo nghiên cứu ........................................................................................... 16
CHƯƠNG 2. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU BÁN HÀNG SIÊU THỊ, MƠ HÌNH
VÀ THUẬT TỐN KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN........................................ 17
2.1. Hệ thống bán hàng siêu thị ......................................................................................... 17
2.1.1. Hệ thống quản lí bán hàng .................................................................................. 17
2.1.2. Siêu thị và đặc trưng của siêu thị ........................................................................ 17
2.1.3. Cơng việc và chức năng chính của siêu thị ......................................................... 18
2.2. Cơ sở dữ liệu bán hàng siêu thị .................................................................................. 19

2.2.1. Cơ sở dữ liệu và tầm quan trọng quản lí cơ sở dữ liệu ....................................... 19
2.2.2. Cơ sở dữ liệu bán hàng siêu thị ........................................................................... 21
2.3. Khai phá dữ liệu và khai phá dữ liệu bán hàng siêu ................................................... 23
2.3.1. Khai phá dữ liệu .................................................................................................. 23
2.3.2. Khai phá dữ liệu bán hàng siêu thị...................................................................... 24
2.4. Mơ hình bài tốn và thuật tốn khai phá TMTX ........................................................ 25
2.4.1. Mơ hình bài tốn và thuật tốn khai phá tập mục thường xun đa ngưỡng/một
ngưỡng .......................................................................................................................... 25
2.4.2. Mơ hình bài tốn và thuật toán khai phá tập mục thường xuyên với trọng số
thích nghi ...................................................................................................................... 28
CHƯƠNG 3: ỨNG DỤNG MỘT SỐ THUẬT TỐN KHAI PHÁ DỮ LIỆU HỖ TRỢ
PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ ..................................................... 34
3.1. Ứng dụng thuật toán khai phá tập mục thường xuyên phân tích cơ sở dữ liệu bán
hàng siêu thị ....................................................................................................................... 34
3.1.1. Ứng dụng thuật toán MFIMT khai phá TMTX đa ngưỡng ................................ 34
3.1.2. Ứng dụng thuật toán BMB khai phá TMTX ....................................................... 39


3
3.2. Ứng dụng thuật toán khai phá tập mục thường xuyên với trọng số thích nghi phân
tích cơ sở dữ liệu bán hàng siêu thị............................................................................... 43
3.2.1. Đặt bài toán ......................................................................................................... 43
3.2.2. Tổ chức khai phá dữ liệu .................................................................................... 43
3.2.3. Nhận xét, đánh giá kết quả khai phá ................................................................... 46
CHƯƠNG 4. KẾT LUẬN, THẢO LUẬN VÀ ĐỀ XUẤT VẤN ĐỀ NGHIÊN CỨU ......... 48
4.1. Các kết luận ................................................................................................................ 48
4.2. Các dự báo phát triển về các vấn đề nghiên cứu ........................................................ 48
4.3. Các đề xuất kiến nghị vấn đề nghiên cứu ................................................................... 48
Tài liệu tham khảo .................................................................................................................. 50



4
DANH MỤC CÁC BẢNG

Bảng 1. Biểu diễn ngang của CSDL giao tác ..............................................................25
Bảng 2. Dòng dữ liệu tại thời điểm T1........................................................................29
Bảng 3. Trọng số các mục theo lô tại thời điểm T1. ...................................................30
Bảng 4. Dữ liệu các giỏ hàng bán ra của siêu thị (sau mã hóa tên hàng)....................34
Bảng 5. Bảng các tập TMTX tương ứng với các ngưỡng ...........................................35
Bảng 6. Bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng nhau
với ngưỡng 𝛆𝐭𝟏 = 𝟎. 𝟓 ................................................................................................36
Bảng 7. Bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng nhau
với ngưỡng 𝛆𝐭𝟐 = 𝟎. 𝟓𝟓 𝐯à 𝛆𝐭𝟑 = 𝟎. 𝟔 ......................................................................36
Bảng 8. Bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng nhau
với ngưỡng 𝛆𝐭𝟒 = 𝟎. 𝟔𝟓 𝐯à 𝛆𝐭𝟓 = 𝟎. 𝟕 ......................................................................37
Bảng 9. Bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng nhau
với ngưỡng 𝛆𝐭𝟔 = 𝟎. 𝟕𝟓 𝐯à 𝛆𝐭𝟕 = 𝟎. 𝟖 ......................................................................37
Bảng 10. Bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng nhau
với ngưỡng 𝛆𝐭𝟖 = 𝟎. 𝟖𝟓 ..............................................................................................37
Bảng 11. Dữ liệu khác về các giỏ hàng bán ra của siêu thị (sau mã hóa tên hàng) ....39
Bảng 12. Ma trận nhị phân A ......................................................................................39
Bảng 13. Ma trận rút gọn A1......................................................................................40
Bảng 14. Ma trận rút gọn A2.......................................................................................41
Bảng 15. Ma trận nhị phân thu gọn A3 .......................................................................41
Bảng 16. Tập các mặt hàng thường xuyên và độ hỗ trợ..............................................42


5
DANH MỤC CÁC HÌNH


Hình 1. Cây SAWFI-tree sau khi chèn 12 giao tác trong 3 lơ của dịng dữ liệu .........32
Hình 2. Cây SAWFI-tree(e) và cây điều kiện của “e” ................................................44
Hình 3. Cây SAWFI-tree(d), cây điều kiện của “d” và “cd” ......................................45
Hình 4. Cây SAWFI-tree(c), cây điều kiện của “c” ....................................................45


6
DANH MỤC CÁC TỪ VIẾT TẮT

1. Danh mục từ viết tắt tiếng Việt
TT

Cụm từ đầy đủ

Từ viết tắt

1

KPDL

Khai phá dữ liệu

2

CSDL

Cơ sở dữ liệu

3


DHTVTS

Độ hỗ trợ với trọng số

4

TMTX

Tập mục thường xuyên

5

TMUV

Tập mục ứng viên

2. Ngĩa các từ tiếng Anh
TT

Nghĩa tiếng Việt

Cụm từ tiếng Anh

1

Downward Closure Property

Bao đóng xuống

2


Data Mining

Khai phá dữ liệu

3

Frequent Items Mining

Khai phá tập mục thường xuyên

4

Frequnet Pattern

Mẫu thường xuyên

5

Itemset

Tập mục

6

Transaction

Giao tác

7


Transaction Data Base

Cơ sở dữ liệu giao tác


7

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC THƯƠNG MẠI

THÔNG TIN KẾT QUẢ NGHIÊN CỨU
ĐỀ TÀI NCKH CẤP TRƯỜNG
1. Thông tin chung:
- Tên đề tài: NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TỐN KHAI
PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG
SIÊU THỊ
Mã số: CS20 - 42

- Chủ nhiệm: ThS, GVC NGUYỄN HƯNG LONG
- Cơ quan chủ trì: Trường Đại học Thương mại
- Thời gian thực hiện: 30/08/2020 – 31/03/2021
2. Mục tiêu:
Đề tài tập trung nghiên cứu về các khía cạnh sau:
- Nghiên cứu lý thuyết cơ bản của khai phá dữ liệu bán hàng siêu thị, khai phá
TMTX.
- Xây dựng mơ hình áp dụng một số thuật tốn khai phá TMTX hỗ trợ phân tích
CSDL bán hàng siêu thị.
- Đề xuất mơ hình áp dụng một số thuật toán khai phá TMTX với trọng số hỗ trợ
phân tích CSDL bán hàng siêu thị.


3. Tính mới và sáng tạo:
Đề tài đã vận dụng tính khoa học của lĩnh vực Khai phá dữ liệu, cụ thể một số
thuật toán khai phá tập mục thường xuyên và ứng dụng các thuật tốn này cho bài
tốn phân tích cơ sở dữ liệu bán hàng siêu thị. Đây cũng là xu hướng cần thiết trong
việc giải quyết các bài toán khai phá trên các cơ sở dữ liệu lớn và phức tạp trong bối
cảnh của nền kinh tế tri thức.
Trong số các thuật tốn được trình bày trong đề tài các tác giả đã vận dụng và đề
xuất thuật toán khác có tính hiệu quả hơn về bộ nhớ cũng như độ phức tạp về thời
gian. Đây cũng là sự cần thiết cho các nhà nghiên cứu khi nghiên cứu về lĩnh vực
khai phá dữ liệu.
Kết quả của đề tài có thể ứng dụng trong nhiều mặt của đời sống - xã hội chứ
khơng chỉ cho bài tốn phân tích cơ sở dữ liệu bán hàng siêu thị.


8
4. Kết quả nghiên cứu:
- Đề tài đã đạt được các mục tiêu đề ra.
- Có cơng bố 2 sản phẩm khoa học
- Một Báo cáo tổng kết.

5. Công bố sản phẩm khoa học từ kết quả nghiên cứu của đề tài
Để thực hiện đề tài tác giả và cộng sự đã công bố 2 bài viết cho Hội thảo quốc gia
và Hội thảo cấp Trường rất có uy tín.
1) Nguyễn Hưng Long, Nguyễn Minh Hoàng (2020), Ứng dụng thuật toán khai
phá tập phổ biến dựa trên ma trận nhị phân trong phân tích cơ sở dữ liệu bán hàng
siêu thị, Kỷ yếu Hội thảo quốc gia “Phát triển Thương mại điện tử Việt Nam trong kỷ
nguyên số”, tr. 717 – 727.
2) Nguyễn Hưng Long, Nguyễn Minh Hoàng (2021), Thuật toán khai phá tập
mục thường xuyên trong cơ sở dữ liệu lớn thông qua mẫu đại diện, Hội thảo khoa

học cấp trường “Ứng dụng phân tích định lượng trong kinh tế - xã hội”, tr. 284 – 294.

6. Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp
dụng:
Đề tài có ý nghĩa cả về lý luận và thực tiễn.
Đề tài có thể là tài liệu tham khảo cho giảng viên và sinh viên thuộc chuyên
ngành Quản trị HTTT kinh tế trường Đại học Thương mại hoặc các trường đại học
cao đẳng khác có đào tạo chuyên ngành tương đồng.

Ngày 20

tháng 03 năm

2021
Chủ nhiệm đề tài

NGUYỄN HƯNG LONG


9

CHƯƠNG 1. TỔNG QUAN NGHIÊN CỨU CỦA ĐỀ TÀI
1. Tính cấp thiết của đề tài
Ngày nay, cùng với xu thế hội nhập kinh tế quốc tế đã mở ra cho mỗi quốc gia
nhiều cơ hội phát triển mọi mặt về kinh tế - xã hội. Xét về góc độ của thị trường bán
lẻ (siêu thị, đại siêu thị, trung tâm thương mại - gọi chung là siêu thị), thì ở đó mỗi
siêu thị ngày càng gia tăng về qui mơ, số lượng và chất lượng. Các siêu thị lớn có thể
kinh doanh đến hàng chục nghìn mặt hàng, với hàng triệu, chục triệu lượt khách hàng
trong năm và siêu thị hàng ngày có thể phải xử lí đến hàng chục nghìn đơn hàng với
các chủng loại đa dạng khác nhau. Do vậy, CSDL bán hàng siêu thị cũng sẽ rất phức

tạp, rất lớn về số các giỏ hàng (mặt hàng/nhóm các mặt hàng) mà siêu thị bán ra theo
từng thời điểm (ngày, tuần, quí, ...).
Mặt khác, hành vi (sự quan tâm) của khách hàng đối với siêu thị thường bị ảnh
hưởng bởi nhiều yếu tố như: nhu cầu, thời gian, tính phổ biến, các vấn đề về chính
trị, sự kiện xã hội, … Do vậy, giá (trọng số) các mặt hàng bán ra của siêu thị cũng
thay đổi theo nhằm mục đích lưu chuyển hàng hóa nhanh và tăng doanh thu cho siêu
thị.
Một trong những yêu cầu đặt ra đối với nhà quản lí siêu thị là cần trả lời cho các
câu hỏi trong CSDL bán hàng của siêu thị thì: mặt hàng/nhóm các mặt hàng nào mà
các khách hàng thường xuyên mua cùng trong giỏ hàng? Mối quan hệ của các mặt
hàng trong các giỏ hàng đó là như thế nào? ... để từ đó các nhà quản lí xây dựng kế
hoạch kinh doanh với mục đích góp phần tăng doanh thu và đạt lợi nhuận tối đa cho
siêu thị.
Khai phá dữ liệu là một lĩnh vực nghiên cứu quan trọng của cơng nghệ thơng tin
nhằm trích lọc ra những thơng tin hữu ích chưa biết, tiềm ẩn trong các CSDL lớn.
Khai phá TMTX đóng vai trị quan trọng trong nhiều nhiệm vụ khai phá dữ liệu
như: khám phá luật kết hợp, khám phá mẫu tuần tự, phân tích tương quan, phân lớp,
gom cụm dữ liệu, khai phá web, ... .
Khai phá TMTX đã và đang được các nhà nghiên cứu liên tục xây dựng và phát
triển các công cụ (thuật toán) để giải quyết các bài toán kinh tế - xã hội nói chung và
bài tốn phân tích CSDL bán hàng siêu thị cũng không là ngoại lệ nhằm hỗ trợ các
nhà quản lí siêu thị ra quyết định đúng đắn hơn trong chiến lược phát triển siêu thị.
Hầu hết các thuật toán khai phá dữ liệu, khai phá TMTX đã được các nhà nghiên
cứu, đề xuất chỉ mang tính lý thuyết và ở đó khơng/ít đề xuất mơ hình ứng dụng cụ
thể của thuật tốn khai phá hỗ trợ phân tích hoạt động kinh doanh nói chung hay hỗ
trợ phân tích CSDL bán hàng siêu thị nói riêng.
Mặt khác, cùng với sự phát triển của lĩnh vực khai phá dữ liệu, một yêu cầu đòi
hỏi ngày càng hoàn thiện, phát triển, tái cấu trúc các học phần trong chương trình đào
tạo tại các trường đại học thuộc khối kinh tế, quản trị, kinh doanh, mà đặc biệt tại
Trường Đại học Thương mại với chuyên ngành Quản trị hệ thống thơng tin, thì việc

nghiên cứu ứng dụng các cơng cụ (thuật tốn) khai phá dữ liệu trong các hoạt động
kinh doanh thương mại nói chung, bán hàng siêu thị nói riêng là cần thiết.
Xuất phát từ cơ sở lý luận, nhu cầu thực tiễn bởi yêu cầu đòi hỏi của đổi mới đại
học trong tình hình mới, chúng tôi lựa chọn và đề xuất đề tài “Nghiên cứu ứng dụng


10
một số thuật toán khai phá dữ liệu hỗ trợ phân tích cơ sở dữ liệu bán hàng siêu thị”
nhằm cung cấp các thơng tin hữu ích cịn tiềm ẩn trong CSDL bán hàng siêu thị để
giúp cho nhà quản lí đề ra các quyết định kinh doanh siêu thị một cách hiệu quả,
mang lại lợi nhuận cho siêu thị. Mặt khác, đề tài cũng góp phần bổ sung các kiến
thức cơ bản, cần thiết cho một số học phần thuộc chương trình đào tạo chuyên ngành
Quản trị hệ thống thông tin tại Trường Đại học Thương mại.
2. Tổng quan đề tài nghiên cứu
Các nghiên cứu ngoài nước
Kỉ nguyên Internet bùng nổ đã góp phần cho nhiều nghiên cứu và ứng dụng của
ngành công nghệ thông tin phát triển. Ở đó, có một lĩnh vực đã và đang thu hút khá
đông đảo các nhà khoa học trên thế giới và Việt Nam tham gia nghiên cứu và ứng
dụng trong thực tiễn - lĩnh vực khai phá dữ liệu.
Khai phá dữ liệu là q trình trích lọc khơng tầm thường những thơng tin hữu ích
chưa biết từ CSDL. Khai phá TMTX (TMTX) trong CSDL là một kĩ thuật quan trọng
của khai phá dữ liệu. Bài toán khai phá dữ liệu được giới thiệu lần đầu tiên vào năm
1993 bởi Agrawal R. và Srikant R.[2] thuộc Trung tâm nghiên cứu Almaden của
IBM (Mỹ), nhằm phân tích CSDL bán hàng tại siêu thị. Qua q trình phân tích này
sẽ giúp cho nhà quản lí ra quyết định đúng cho các phương án tối ưu trong hoạt động
kinh doanh của doanh nghiệp. Trong [1], các tác giả đã đề xuất thuật toán Apriori.
Thuật toán Apriori có hai nhược điểm là: Phải sinh ra khối lượng khổng lồ các tập
mục ứng viên (TMUV) và phải quét CSDL giao tác nhiều lần. Mặc dù vậy, nhưng
thuật toán Apriori được đánh giá nằm trong top 10 các thuật tốn nổi tiếng về khai
phá dữ liệu [11]. Có thể coi Apriori là thuật toán nền tảng cho nhiều hướng nghiên

cứu, phát triển các thuật toán về khai phá dữ liệu cũng như ứng dụng của các thuật
tốn đó vào thực tiễn.
Để khắc phục hạn chế của thuật toán Apriori nêu trên, Han J. và cộng sự [5] tại
Trường Đại học Simon Fraser (Canada) đã đề xuất thuật toán FP-growth. Thuật toán
FP-growth khai phá TMTX được xây dựng dựa trên những kĩ thuật cơ bản sau: (1)
Nén toàn bộ CSDL giao tác lên một cấu trúc cây, gọi là cây FP-tree, nhờ đó giảm chi
phí cho số lần duyệt CSDL giao tác trong quá trình khai phá. (2) Dùng phương pháp
chia để trị (devide-and-conquer), bằng cách trong quá trình xây dựng và khai phá dữ
liệu được chia làm thành các bài toán nhỏ hơn, theo nghĩa xây dựng các cây FP-tree
có điều kiện và khai phá các TMTX trên các cây FP-tree có điều kiện đã được tạo ra.
Do vậy, quá trình khai phá cây được phát triển dần các mẫu mà không sinh ra nhiều
các TMUV và làm giảm thời gian tính tốn. Q trình khai phá TMTX được thực
hiện theo hai pha: Pha xây dựng cây FP-tree và pha khai phá cây FP-tree bằng thuật
toán FP-growth.
Khác với khai phá TMTX truyền thống, khai phá TMTX với trọng số người ta
không chỉ quan tâm đến số lần xuất hiện của các tập mục trong CSDL mà còn quan
tâm đến mức độ quan trọng (trọng số) khác nhau của chúng. Mơ hình bài tốn khai
phá TMTX với trọng số được đề xuất và nghiên cứu lần đầu tiên vào năm 1998 bởi
Cai C.H. và cộng sự với thuật toán MINWAL [3]. Trong MINWAL, các tác giả đã
đưa ra khái niệm DHTVTS. Theo đó, DHTVTS của một tập mục bằng tích của độ hỗ
trợ nhân với trọng số trung bình của các mục thành viên. Hạn chế của MINWWAL là
có liên quan đến tính chất Apriori (mọi tập con của TMTX cũng là TMTX). Tính
chất này bị phá vỡ khi những trọng số khác nhau được áp dụng cho các mục, nghĩa là


11
tập con của một TMTX với trọng số không nhất thiết phải là TMTX với trọng số. Để
duy trì tính chất Apriori, MINWAL đã đề xuất khái niệm cận k-hỗ trợ (k-support
bound). Độ hỗ trợ của một TMUV sinh ra tại mức k phải lớn hơn hoặc bằng cận k-hỗ
trợ. MINWAL được xây dựng dựa trên thuật toán Apriori trong khai phá TMTX

truyền thống, tuy nhiên phần lớn các TMUV phát hiện không phải là TMTX với
trọng số. Hơn nữa, theo [3], việc sử dụng cận k-hỗ trợ để tỉa khơng gian tìm kiếm chi
phí rất nhiều thời gian. Sau MINWAL, một số mơ hình và thuật tốn khác cũng đã
được đề xuất. Phần lớn các thuật toán này đều dựa trên thuật toán Apriori [1][2].
Trong [1], Aggarwal cùng các cộng sự đã đề xuất thuật toán Apriori-TID coi là
mở rộng theo hướng tiếp cận cơ bản của thuật toán Apriori. Thay vì dựa vào CSDL
thơ, Apriori-TID biểu diễn bên trong mỗi giao dịch bởi các ứng viên hiện thời. Như
đã thấy Apriori địi hỏi phải qt tồn bộ CSDL nhiều lần để tính độ hỗ trợ cho các
TMUV ở mỗi bước sau. Đây là một sự lãng phí lớn. Dựa trên ý tưởng ước đoán và
đánh giá độ hỗ trợ, Apriori-TID theo hướng chỉ phải quét CSDL một lần, sau đó tính
độ hỗ trợ cho các một tập mục. Từ bước thứ hai trở đi, Apriori-TID nhờ lưu trữ song
song cả ID (định danh) của giao dịch và các ứng viên, có thể đánh giá, ước lượng độ
hỗ trợ mà khơng phải qt lại tồn bộ CSDL.
Trong [1], Aggarwal cùng các cộng sự cũng đề xuất thuật toán Apriori-Hybrid.
Apriori-Hybrid được coi là kết hợp giữa Apriori và Apriori-TID. Apriori-Hybrid
được sử dụng khi tổ chức lặp và chuyển sang Apriori-TID khi đã chắc chắn rằng tập
tập ứng viên mức k đã đưa vào bộ nhớ chính. Apriori-Hybrid được đánh giá là tốt
hơn so với Apriori và Apriori-TID.
Ngồi ra, có rất nhiều các thuật toán khác là biến thể (kiểu) thuật toán Apriori:
DIC (Dynamic Itemset Couting), OCD (Offline Candidate Detreteermination),
Partition, Sampling, CARMA, AIS, SETM, Eclat, Charm, …[1][2].
Mặc dù khai phá TMTX với trọng số đã xét đến trọng số của các mục trong q
trình khai phá, nó vẫn chưa đủ để phản ánh thế giới thực khi giả thiết trọng số của
mỗi mục luôn là một giá trị cố định. Trên thực tế, trọng số của các mục thường thay
đổi theo thời gian (trọng số thích nghi). Vấn đề trọng số thay đổi theo thời gian (trọng
số thích nghi) được đề xuất lần đầu tiên vào năm 2008 bởi Chowdhury F. A. và cộng
sự [4]. Các tác giả cơng trình đã đề xuất mơ hình và thuật tốn AWFPM khai phá
TMTX với trọng số thích nghi, theo nghĩa trọng số của các mục có thể thay đổi theo
thời gian, từ lơ giao tác này sang lô giao tác khác của CSDL giao tác. Tập mục được
gọi là TMTX với trọng số thích nghi nếu có tổng DHTVTS trong các lơ lớn hơn

ngưỡng đã cho. AWFPM sử dụng cấu trúc cây FP-tree. Việc tỉa cây được thực hiện
bằng cách sử dụng trọng số cực đại toàn cục (GMAXW) và trọng số cực đại địa
phương (LMAXW). Trọng số cực đại toàn cục là trọng số lớn nhất của tất cả các mục
trong CSDL khai phá, còn trọng số cực đại địa phương là trọng số lớn nhất của các
mục trong một CSDL điều kiện.
Trong [6], Han cùng các cộng sự đã tổng quan về các thuật toán khai phá TMTX
và chỉ ra một số định hướng phát triển.
Trong [8], S. Lu cùng các cộng sự đã đề xuất các thuật toán khai phá luật kết hợp
với trọng số nhằm đánh giá độ hỗ trợ và độ tin cậy của các tập mục trong CSDL giao
tác.


12
Trong [9], tác giả Nguyễn Hưng Long đã đề xuất thuật tốn AWFP-Miner khai
phá TMTX với trọng số thích nghi ở đó sử dụng một độ đo mới để tỉa các TMTX
hiệu quả hơn trong quá trình khai phá. AWFP-Miner là thuật toán kiểu FP-Growth.
Trong [12], tác giả F. Tao đã đề xuất thuật tốn WARM. Vấn đề khơng thỏa mãn
tính chất Apriori được tác giả giải quyết bằng cách sử dụng một độ hỗ trợ với trọng
số khác với định nghĩa trong MINWAL, từ đó phát triển tính chất Apriori. Độ hỗ trợ
với trọng số của tập mục “ab” trong WARM là tỷ lệ trọng số của các giao tác chứa cả
“a” lẫn “b” trên trọng số của tất cả các giao tác trong CSDL. WARM cũng là thuật
toán dựa trên Apriori.
Trong [13] W.Wang cùng các cộng sự đã đề xuất thuật toán WAR khai phá luật
kết hợp với trọng số. Để khai phá các luật này, trước tiên WAR sinh ra các TMTX
mà không xét đến các trọng số, sau đó mới xét đến trọng số của các tập mục tại bước
sinh luật kết hợp. Như vậy, WAR khơng thực hiện việc khai phá TMTX với trọng số,
nó là thuật toán theo cách tiếp cận hậu xử lý. Ngồi ra, WAR cũng dựa trên thuật
tốn Apriori.
Các thuật tốn phát triển dựa trên thuật tốn Apriori có hai nhược điểm là phải
sinh và kiểm tra rất nhiều TMUV và phải quét CSDL nhiều lần, nên hiệu quả khai

phá thấp. Thuật toán khai phá TMTX với trọng số đầu tiên sử dụng cấu trúc cây FPtree là thuật toán WFIM do Yun U. và Leggett J. J. đề xuất [16]. WFIM cho phép chỉ
cần quét CSDL hai lần và tránh được việc sinh ra quá nhiều ứng viên. WFIM sử dụng
một trọng số nhỏ nhất và một khoảng biến thiên cho các trọng số. Mỗi mục trong
CSDL được gán cho một trọng số cố định thuộc khoảng biến thiên. Mỗi giao tác
được đưa lên cây FP-tree sau khi sắp xếp các mục theo thứ tự trọng số tăng dần.
Trong [13] U. Yun tiếp tục phát triển và đề xuất thuật toán WIP. WIP phối hợp
những thế mạnh của các kỹ thuật đã có và tạo ra các mẫu quan trọng theo đánh giá
phản hồi của người dùng. WIP sử dụng một độ đo mới, gọi là độ tin cậy trọng số,
nhằm tạo ra các tập mục hyperclique, có trọng số gần như nhau. Một khoảng giá trị
trọng số và một số đo độ tin cậy khác, gọi là độ tin cậy h, cũng đã được sử dụng.
Khoảng giá trị trọng số định ra ranh giới cho các trọng số, còn độ tin cậy h nhằm đảm
bảo cho các tập mục gồm các mục có độ hỗ trợ gần như nhau. WIP không chỉ chú ý
đến sự cân bằng giữa trọng số và độ hỗ trợ, mà còn coi trọng mối quan hệ về trọng số
và mối quan hệ về độ hỗ trợ giữa các mục trong tập mục để tạo ra các tập mục giá trị
hơn.
Trong [15], U. Yun đã xem xét lại hai ràng buộc cơ bản về trọng số và về độ hỗ
trợ, từ đó đề xuất thuật toán WLPMiner. WLPMiner kết hợp hai độ đo ràng buộc này
để tạo ra các tập mục với số lượng ít hơn nhưng lại có ý nghĩa hơn. Để cắt tỉa, tác giả
đã sử dụng khái niệm WSVE (Weighted Smallest Valid Extension) áp dụng cho cả
ràng buộc về độ hỗ trợ giảm theo độ dài và ràng buộc đối với trọng số, đồng thời bổ
sung thêm một khoảng trọng số để duy trì tính chất Apriori. Việc kết hợp ràng buộc
về trọng số với độ hỗ trợ giảm theo độ dài tập mục đã cải thiện hiệu quả thời gian
chạy và số lượng mẫu khai thác. WLPMiner cũng là thuật toán sử dụng cấu trúc cây
FP-tree.
Trong [17], S. Zhang đã đề xuất một chiến lược với tên gọi WEIGHT để bảo trì
các luật kết hợp trong CSDL gia tăng bằng cách gán trọng số cao hơn cho các giao
tác mới nhằm làm rõ mức độ quan trọng của những giao tác này. Tuy nhiên, tất cả
các các mục trong các giao tác mới lại được gán cho cùng một trọng số. Thuật toán



13
bảo trì các luật kết hợp của Zhang S. và cộng sự cũng được xây dựng dựa trên
phương pháp sinh và kiểm tra các tập ứng viên của thuật toán Apriori. Vì vậy, với
một CSDL cụ thể nào đó, nó sẽ tạo ra một tập rất lớn các ứng viên và phải quét
CSDL nhiều lần để tìm ra kết quả cuối cùng.
Nhận thấy, các nghiên cứu về khai phá TMTX nêu trên mang tính học thuật cao
và có thể vận dụng để ứng dụng chúng trong một số bài toán thực tiễn, chẳng hạn
như hỗ trợ phân tích, lựa chọn các phương án tối ưu cho tổ chức, doanh nghiệp,
khách hàng, nhà đầu tư, … trong hoạt động kinh doanh.
Các nghiên cứu trong nước
Tại Việt Nam, theo hướng phân tích, đánh giá truyền thống, trong [28], tác giả đã
xây dựng phần mềm phân tích một số chỉ tiêu kinh tế phản ánh hiệu quả kinh doanh
trong các doanh nghiệp thương mại. Trong đề tài nghiên cứu tác giả đã sử dụng công
cụ là hệ thống các CSDL về: Bảng cân đối kế toán, Bảng báo cáo kết quả hoạt động
sản xuất kinh doanh, các Sổ chi tiết, … và hệ thống các qui tắc (cơng thức) để tính
các chỉ tiêu. Dựa trên các chỉ tiêu này các nhà phân tích nhìn nhận lại một cách tổng
thể về tồn bộ q trình hoạt động kinh doanh và đưa ra các quyết định chiến lược
phát triển hoạt động kinh doanh trong tương lai.
Trong [22], tác giả đã sử dụng lý thuyết tập thô (rough set) để giải quyết vấn đề
hỗ trợ ra quyết định 3 lĩnh vực: đánh giá cơng ty, chính sách tài chính của ngân hàng
và xây dựng chiến lược thị trường. Ngồi ra, tác giả đã tìm hiểu phát hiện các tri thức
qua lập trình logic qui nạp và ứng dụng trong phát hiện các dấu hiệu tài chính bất
thường.
Trong [27], tác giả đã ứng dụng kĩ thuật của khai phá dữ liệu để tìm ra các qui
luật về sự biến động hữu ích cịn ẩn chứa trong các CSDL thị trường chứng khoán
nhằm mang lại cho các nhà đầu tư nhiều cơ hội để lựa chọn các nhóm cổ phiếu cần
đầu tư tại đúng thời điểm.
Trong [32], tác giả Trần Huy Dương cùng các cộng sự đã chỉ ra một số tính chất
của TMTX với trọng số chuẩn hóa. Sử dụng các tính chất này và cách tiếp cận của
thuật toán FP-growth trong khai phá TMTX, để đề xuất thuật toán COWFI-mine khai

phá TMTX với trọng số chuẩn hóa. Các phân tích cấu trúc thuật tốn và các tính tốn
thực nghiệm cho thấy COWFI-mine hiệu quả hơn các thuật toán kiểu Apriori [1][2],
chẳng hạn thuật toán MINWAL(W) do C.H. Cai và cộng sự đề xuất [4].
Trong [20] các tác giả đã đề xuất một thuật toán cải tiến khai phá TMTX cổ phần
cao trong CSDL lớn AFSM. Việc cải tiến thuật tốn được thực hiện thơng qua một
chiến lược tỉa hiệu quả các TMUV, nhờ đó giảm thời gian thực hiện thuật toán khai
phá.
Trong [21] các tác giả đã đề xuất thuật toán hiệu quả khai phá tập mục lợi ích cao
bằng cách duyệt từ dưới lên của cây nén các giao tác của CSDL giao tác. Thuật tốn
đề xuất cũng được đánh giá, phân tích hiệu quả hơn các thuật toán giải quyết bài toán
tương tự khác mà đã đề xuất trước đó.
Trong [25], tác giả Nguyễn Hưng Long và Nguyễn Minh Hồng đã đề xuất thuật
tốn RSFPGrowth khai phá tập mục thường xuyên trong cơ sở dữ liệu lớn thơng qua
mẫu đại diện. Thuật tốn RSFPGrowth cho phép thay vì tìm tập tất cả các tập mục
thường xuyên trong cơ sở dữ liệu lớn bằng cách tìm tập chứa hầu hết các tập tập mục


14
thường xuyên từ tập mẫu đại diện các giao tác. Bởi vì khi cỡ mẫu n
cần lấy cho tập mẫu sẽ tăng chậm so với cỡ tổng thể nên độ hiệu quả của việc khai
phá
tập tập mục thường xuyên thông qua lấy mẫu đại diện các giao tác sẽ càng cao khi
kích hước của cơ sở dữ liệu ban đầu càng lớn.
Trong [27], tác giả Nguyễn Thanh Tùng và các cộng sự trình bày thuật tốn khai
phá TMTX có tên là BMB. BMB có ưu điểm hơn các thuật tốn kiểu Apriori: chỉ cần
quét CSDL giao tác một lần để chuyển đổi CSDL giao tác thành ma trận nhị phân;
không sinh các tập ứng viên; chỉ sử dụng các phép tốn cơ bản trên các véc tơ nhị
phân. Do đó, BMB tiết kiệm về dung lượng bộ nhớ và thích hợp cho khai phá các
CSDL lớn.
Trong [29], tác giả Phan Thành Huấn và cộng sự đề xuất thuật toán song song

khai phá TMTX với nhiều ngưỡng phổ biến tối thiểu riêng trên bộ xử lí đa nhân.
Thuật tốn đề xuất đã được đánh giá, phân tích hiệu quả hơn so với các thuật tốn
trước đó.
Trong [23], tác giả Nguyễn Hưng Long đã trình bày nghiên cứu và ứng dụng một
số thuật toán: Các thuật toán khai phá TMTX Apriori và FP-growth; Thuật toán khai
phá TMTX với trọng số WFC; Thuật tốn khai phá TMTX với trọng số thích nghi
AWFI-Miner. Đề tài đã đánh giá, phân tích cho việc ứng dụng từng thuật toán vào
trong hoạt động kinh doanh cụ thể tại doanh nghiệp. Mặt khác, đề tài cũng đã đưa ra
một số đề xuất, kiến nghị và các dự báo phát triển vấn đề nghiên cứu liên quan đến
ứng dụng trong các hoạt động của đời sống - xã hội.
Trong [24], tác giả Nguyễn Hưng Long giới thiệu ứng dụng thuật tốn SWFPMiner khai phá TMTX với trọng sơ thích nghi trên dòng dữ liệu và đề xuất ứng dụng
thuật tốn cho phân tích CSDL bán hàng siêu thị. Trên thực tế đây là là một trong
những ứng dụng của thuật tốn khai phá trên dịng cho phân tích CSDL bán hàng
siêu thị. Trong đề tài sẽ nghiên cứu một số các thuật toán khai phá TMTX với trọng
số khác theo các khía cạnh khác nhau để ứng dụng chúng trong phân tích CSDL bán
hàng siêu thị một cách logic và hệ thống hơn.
Trong [26], tác giả Nguyễn Hưng Long cùng cộng sự đã đề xuất thuật toán
MFITMT khai phá TMTX đa ngưỡng và ứng dụng thuật toán này cho phân tích
CSDL bán hàng của siêu thị. Thực tế, thuật toán này chỉ là tiền đề (nhỏ) cho phát
triển từ thuật toán Apriori cho khai phá đa ngưỡng. Kiểu của thuật tốn này có ứng
dụng chúng cho nhiều lĩnh vực của đời sống - xã hội chứ khơng riêng gì trong lĩnh
vực bán hàng của siêu thị.
Trong [19], tác giả đã nghiên nghiên cứu các kĩ thuật của khai phá dữ liệu, vận
dụng các thuật toán khai phá luật kết hợp để tìm các TMTX và các luật kết hợp.
Đồng thời tác giả đã sử dụng cơng cụ lập trình (Visual Studio C#), hệ quản trị dữ liệu
(Microsoft SQL Server 2005) để xây dựng hệ hỗ trợ ra quyết định phục vụ cho cơng
tác quản lí kho hàng tại Siêu thị Metro.
Trong [28], tác giả đã nghiên cứu tổng quan về khai thác dữ liệu, nghiên cứu một
số thuật toán khai thác luật kết hợp nhị phân. Tác giả cũng đã nghiên cứu, thử
nghiệm ứng dụng thuật toán khai thác luật kết hợp nhị phân nhằm phân tích tài chính

và kinh doanh ngân hàng. Kết quả phân tích giúp chuyên gia nhận được những thông


15
tin có tính chất qui luật, trợ giúp quyết định hiệu quả trong phân tích tài chính và kinh
doanh ngân hàng.
Trong [31], tác giả đã nghiên cứu tổng quan về khai phá dữ liệu và tập trung
nghiên cứu về khai phá luật kết hợp bởi các thuật toán kiểu Apriori và nghiên cứu
phân lớp bằng học cây quyết định. Đồng thời, tác giả đã lựa chọn công cụ Oracle
Data Mining để khai phá tri thức trong CSDL ngành thuế Việt Nam. Thực nghiệm
khai phá luật kết hợp thể hiện mối liên quan giữa ngành nghề kinh doanh của đối
tượng nộp thuế, qui mơ doanh nghiệp, doanh thu trung bình, mức thuế phải nộp, …
Ngoài ra, tác giả đã sử dụng phương pháp phân lớp bằng cây quyết định để phân lớp
và dự báo CSDL ngành thuế Việt Nam.
Một điểm đáng lưu ý, trong hầu hết các nghiên cứu [26]-[32] cũng đều khơng đưa
ra mơ hình ứng dụng các thuật tốn khai phá dữ liệu (bởi công cụ khai phá
TMTX/TMTX với trọng số) trong phân tích cơ sở dữ liệu (CSDL) nói chung và
CSDL bán hàng siêu thị nói riêng. Ngay kể cả, trong [23] cũng chỉ đề xuất một khía
cạnh nhỏ khai phá TMTX đa ngưỡng dựa trên thuật toán cơ bản Apriori nhằm hỗ trợ
phân tích CSDL bán hàng của siêu thị. Mặt khác, thuật toán khai phá Apriori hay
kiểu Apriori có một số hạn chế về thời gian xử lí, bộ nhớ, duyệt CSDL giao tác nhiều
lần.
3. Mục tiêu nghiên cứu
Đề tài tập trung nghiên cứu về các khía cạnh sau:
- Nghiên cứu lý thuyết cơ bản của khai phá dữ liệu bán hàng siêu thị, khai phá
TMTX.
- Xây dựng mơ hình áp dụng một số thuật tốn khai phá TMTX hỗ trợ phân tích
CSDL bán hàng siêu thị.
- Đề xuất mơ hình áp dụng một số thuật tốn khai phá TMTX với trọng số hỗ trợ
phân tích CSDL bán hàng siêu thị.

4. Đối tượng và phạm vi nghiên cứu
a) Đối tượng nghiên cứu
- Lý thuyết chung về khai phá dữ liệu bán hàng siêu thị.
- Một số thuật toán khai phá TMTX, TMTX với trọng số.
- Bài tốn phân tích cơ sở dữ liệu bán hàng siêu thị.
- Áp dụng một số thuật toán khai TMTX, TMTX với trọng số hỗ trợ phân tích
CSDL bán hàng siêu thị.
b) Phạm vi nghiên cứu
- Nghiên cứu ứng dụng một số thuật toán KPDL (khai phá TMTX/TMTX với
trọng số) nhằm hỗ trợ cho phân tích CSDL bán hàng siêu thị.
- Về CSDL bán hàng siêu thị: chỉ xét các trường: định danh giỏ hàng, nội dung
giỏ hàng (bao gồm các mặt hàng) mà khách hàng mua tại siêu thị (tại thời điểm nào
đó). Ngồi ra, trong q trình nghiên cứu một số thuật tốn có xét đến trị giá (giá)
của các mặt hàng.
5. Phương pháp nghiên cứu


16
- Nghiên cứu dữ liệu thứ cấp (bài báo, đề tài NCKH, luận văn, các chương trình
đào tạo, các giáo trình) liên quan đến đề tài.
- Mơ hình bài tốn hoạt động kinh doanh thương mại siêu thị và bài tốn khai
phá TMTX/TMTX với trọng số.
- Phân tích các thuật tốn, các mơ hình bài tốn.
- Kết hợp các phương pháp: Nêu vấn đề, suy luận, diễn giải, phân tích, tổng hợp,
khái quát hóa và chứng minh để đưa ra các kết quả theo yêu cầu.
6. Kết cấu báo cáo nghiên cứu
Ngoài các mục như: Mục lục, danh mục bảng biểu, hình xẽ, danh mục từ viết tắt,
tài liệu tham khảo, …Báo cáo đề tài có 4 chương chính.
Chương 1: Tổng quan nghiên cứu đề tài
Trong chương trình bày sơ lược về: Tính cấp thiết đề tài; tình hình nghiên cứu về

đề tài trong nước và ngoài nước; mục tiêu nghiên cứu; đối tượng và phạm vi nghiên
cứu; phương pháp nghiên cứu và kết cấu báo báo nghiên cứu liên quan đến ứng dụng
một số thuật toán khai phá dữ liệu hỗ trợ phân tích cơ sở dữ liệu bán hàng siêu thị
Chương 2: Tổng quan về khai phá dữ liệu bán hàng siêu thị
Nội dung trình bày tổng quan nhất về khai phá dữ liệu bán hàng siêu thị như: Cơ
sở dữ liệu bán hàng siêu thị, khai phá dữ liệu và khai phá dữ liệu bán hàng siêu thị
Chương 3: Ứng dụng một số thuật toán khai phá dữ liệu hỗ trợ phân tích
cơ sở dữ liệu bán hàng siêu thị
Nội dung chính trong chương này trình bày về: Ứng dụng thuật toán khai phá
TMTX, TMTX với trọng số hỗ trợ phân tích cơ sở dữ liệu bán hàng siêu thị,
Chương 4: Các kết luận, thảo luận và đề xuất với vấn đề nghiên cứu
Trong chương đưa ra một số các kết luận; Các dự báo triển vọng về các vấn đề
nghiên cứu; các đề xuất kiến nghị với vấn đề nghiên cứu; một số hạn chế nghiên cứu
và vấn đề đặt ra cần tiếp tục nghiên cứu.


17
CHƯƠNG 2. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU BÁN HÀNG SIÊU THỊ,
MƠ HÌNH VÀ THUẬT TỐN KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN
2.1. Hệ thống bán hàng siêu thị
Các nội dung trong phần này được tham khảo trong [18] - [35]
2.1.1. Hệ thống quản lí bán hàng
Quản lý bán hàng là một hoạt động nghiệp vụ tập trung vào việc ứng dụng thực tế
các kỹ thuật bán hàng và quản lý hoạt động bán hàng của một công ty. Đây là một
chức năng kinh doanh quan trọng như doanh thu thuần thông qua việc bán sản
phẩm và dịch vụ và kết quả là lợi nhuận thúc đẩy hầu hết các hoạt động kinh doanh
thương mại. Đây cũng là những mục tiêu và chỉ số hoạt động của quản lý bán hàng.
Hệ thống quản lý bán hàng: là hệ thống thông tin được sử dụng trong quản lý và
tiếp thị quản lý mối quan hệ khách hàng (CRM - Customer Relationship
Management) giúp tự động hóa một số chức năng quản lý bán hàng và bán hàng [18]

- [35]
2.1.2. Siêu thị và đặc trưng của siêu thị
Siêu thị [18] - [35]
Siêu thị là loại hình cửa hàng hiện đại,kinh doanh tổng hợp hay chuyên doanh
nhiều mặt hàng với cơ cấu chủng loại hàng hóa phong phú, đa dạng và đảm bảo chất
lượng hơn so với loại hình bán lẻ thơng thường. Ngồi ra, siêu thị đáp ứng các tiêu
chuẩn về cơ sở hạ tầngkinh doanh, trang thiết bị kỹ thuật và trình độ quản lý, tổ chức
kinh doanh, có các phương thức phục vụ văn minh, thuận tiện nhằm thỏa mãn nhu
cầu tiêu dùng của đa số khách hàng và người mua sắm (người dùng). Siêu thị được
Nhà nước cấp phép hoạt động.
Đặc trưng của siêu thị [18] - [35]
- Đóng vai trò như một cửa hàng bán lẻ
Siêu thị thực hiện chức năng bán lẻ: bán hàng hóa trực tiếp cho người dùng để họ
sử dụng chứ họ không phải bán lại cho các đối tượng khác. Do vậy, co stheer coi siêu
thị là kênh phân phối ở mức phát triển cao hơn so với các đại lý bán lẻ khác, được
quy hoạch và tổ chức kinh doanh dưới hình thức những cửa hàng quy mơ, có trang
thiết bị và cơ sở vật chất hiện đại, văn minh, do thương nhân đầu tư và quản lý.
- Áp dụng hình thức tự phục vụ
Đây là đăc trưng cho có ở các siêu thị, được ứng dụng như trong các loại cửa
hàng bán lẻ khác.- Phương thức thanh tốn thuận tiện
Hàng hóa của siêu thị được gắn mã vạch, mã số sau đó được đưa ra quầy thanh
toán tại cửa ra/vào siêu thị. Tại quầy sẽdùng máy quét để đọc giá, tính tiền bằng máy
và in hóa đơn tự động
- Hàng hóa của siêu thị:
Hàng hóa của siêu thị chủ yếu là những hàng tiêu dùng thiết yếu như: đồthực
phẩm, đồ may mặc, đồ gia dụng, điện tử, ...với nhiều chủng loại đa dạng và phong


18
phú. Siêu thị thuộc hệ thống các cửa hàng kinh doanh tổng hợp, khác với các cửa

hàng chuyên kinh doanh chỉ chuyên sâu vào một hoặc một số mặt hàng nhất định
2.1.3. Cơng việc và chức năng chính của siêu thị
Trong [18] - [35] đã chỉ ra các công việc và chức năng chính của siêu thị.
Những cơng việc của quản lý bán hàng bao gồm:
- Thiết lập chiến lược phân phối
- Thiết lập tổ chức lực lượng bán hàng; quản lý lực lượng bán hàng, khách hàng
- Thiết lập chính sách bán hàng, Tuyển dụng
- Lập kế hoạch bán hàng
- Triển khai
- Huấn luyện nâng cao kỹ năng
- Đo lường, đánh giá hiệu quả bán hàng
Thông thường một hệ thống quản lý bán hàng siêu thị có các chức năng sau:
- Quản lý nhân viên
- Quản lý khách hàng thân thiết, thường xuyên
- Quản lý nhập/, xuất kho
- Quản lý mặt hàng trong siêu thị
- Quản lý tài chính thu chi của siêu thị.
Những chức năng chính của siêu thị bao gồm:
- Quản lý nhân viên: Để quản lý nhân viên trong hệ thống quản lý bán hàng siêu
thị, thông thường các thông tin nhân viên được quản lý như: Mã số nhân viên, họ tên
nhân viên, năm sinh, địa chỉ, bộ phận.
- Quản lý khách hàng thân thiết, thường xuyên: Khách hàng thân thiết, thường
xuyên khi mua ở siêu thị cần cung cấp thông tin: Tên khách hàng, mã số thuế, năm
sinh, số điện thoại, địa chỉ nhà, .... Sau đó, nhân viên siêu thị nhập hóa đơn từ khách
hàng và lập phiếu khách hàng thân thiết cho khách hàng.
- Quản lý kho hàng: Khi nhập hoặc xuất hàng hóa trong siêu thị cần lưu thơng
tin: ngày tháng nhập, xuất, tổng trị giá.
- Hàng nhập kho: Nhập hàng hóa theo hóa đơn mua hàng của cơng ty hoặc siêu
thị. Hàng nhập kho được theo dõi dựa trên: mã hàng, chủng loại hàng, nhóm ngành
hàng, số lượng nhập, đơn vị tính, đơn giá. Báo cáo lượng nhập hàng hóa trong kỳ

- Hàng xuất kho: Hàng xuất ra quầy cũng được theo dõi theo mã hàng, nhóm
hàng, chủng loại hàng, nhóm ngành hàng, số lượng xuất, đơn vị tính. Báo cáo lượng
hàng hóa xuất kho trong kỳ
- Quản lý hàng tồn: Tổng hợp những phát sinh xuất nhập kho trong kỳ. Báo cáo
hàng tồn và giá trị hàng tồn kho trong kỳ. Báo cáo thẻ kho từng loại hàng tồn kho
- Quản lý mặt hàng trong quầy siêu thị:


19
+ Mặt hàng trong siêu thị được quản lý theo những thông tin: mã mặt hàng, tên
mặt hàng, loại hàng, đơn vị tính, xuất xứ, .
+ Điều chỉnh hàng tồn tại quầy siêu thị nếu phát hiện số lượng tồn quầy thực tế
khác với số lượng tồn trong phiếu giao ca và in lại phiếu giao ca mới.
+ Phiếu giao ca phải dựa trên số lượng tồn đầu ca và số lượng hàng bán trong ca,
cuối mỗi ca máy tính sẽ tự động xử lý và in ra phiếu giao ca cho mỗi nhân viên nhận
ca mới.
- Quản lý hàng bán lẻ:
+ Lập các hóa đơn bán hàng
+ Báo cáo doanh thu theo từng ca, từng ngày,...
- Quản trị hệ thống dữ liệu
+ Lưu trữ và phục hồi dữ liệu (khi cần thiết)
+ Kết thúc chương trình quản lý bán hàng
2.2. Cơ sở dữ liệu bán hàng siêu thị
Các nội dung trong phần được tham khảo trong [18], [24], [26], [33], [34] và [35]
2.2.1. Cơ sở dữ liệu và tầm quan trọng quản lí cơ sở dữ liệu
Cơ sở dữ liệu (Database)
Cơ sở dữ liệu là tập hợp các dữ liệu có liên quan với nhau, mơ hình hóa các đối
tượng của một phần thế giới thực (công ty, doanh nghiệp, trường học, ...).
Việc tổ chức CSDL sẽ khắc phục được những khuyết điểm của cách lưu trữ dạng
file riêng lẻ:

- Giảm trùng lặp thơng tin, đảm bảo tính nhất quán và toàn vẹn dữ liệu
- Cho phép dữ liệu được truy xuất theo nhiều cách khác nhau, từ nhiều người
khác nhau và nhiều ứng dụng khác nhau
- Tăng khả năng chia sẻ thông tin
- Tuy nhiên việc sử dụng hệ quản trị CSDL lại có những phiền hà khơng hề nhỏ
sau đây:
- Phải đảm bảo tính chủ quyền của dữ liệu, vì khi sử dụng có tính chất chia sẻ cao
- Bảo mật quyền khai thác thông tin
- Bảo đảm vấn đề tranh chấp dữ liệu khi xảy ra
- Đảm bảo an tồn, tồn vẹn của dữ liệu
Các tính chất của CSDL
- Một CSDL biểu diwwx khía cạnh của thế giới thực
- Một CSDL là tập hợp dữ liệu kiên kết nhau
- Một CSDL được thiết kế và được phổ biến cho một mục đích riêng
Hệ quản trị cơ sở dữ liệu và Tầm quan trọng quản lí cơ sở dữ liệu


20
Hệ quản trị cơ sở dữ liệu (Database Management System)
Hệ quản trị CSDL là tập hợp chương trình giúp cho người sử dụng tạo, bảo trì và
khai thác CSDL. Đây là hệ thống phần mềm phổ dụng, thuận tiện cho quá trình định
nghĩa, xây dựng và thao tác CSDL với các ứng dụng khác nhau.
Nói một cách dễ hiểu hơn, hệ quản trị cơ sở dữ liệu là hệ thống tự động giúp
người dùng có thể kiểm sốt các thơng tin, tạo, cập nhật và duy trì các CSDL. Trong
đó, hai thành phần chính trong một hệ quản trị cơ sở dữ liệu là: Bộ xử lý truy vấn (bộ
xử lý yêu cầu) và bộ quản lý dữ liệu.
Tầm quan trọng quản lí cơ sở dữ liệu
Các hệ quản trị cơ sở dữ liệu ra đời và đóng vai trị quan trọng trong xử lý và
kiểm sốt nguồn thơng tin. Cụ thể, hệ quản trị CSDL có các chức năng chính như
sau:

- Cung cấp mơi trường tạo lập cơ sở dữ liệu: Hệ quản trị CSDL đóng vai trị cung
cấp cho người dùng một ngôn ngữ định nghĩa dữ liệu để mô tả, khai báo các cấu trúc
dữ liệu.
- Cung cấp cách cập nhật và khai thác dữ liệu: Hệ quản trị CSDL cung cấp cho
người dùng ngôn ngữ thao tác dữ liệu để diễn tả các yêu cầu, các thao tác cập nhật và
khai thác CSDL. Thao tác dữ liệu bao gồm: Cập nhật (nhập, sửa, xóa dữ liệu), Khai
thác (tìm kiếm, kết xuất dữ liệu).
- Cung cấp các cơng cụ kiểm sốt, điều khiển các truy cập vào CSDL nhằm đảm
bảo thực hiện một số yêu cầu cơ bản của hệ cơ sở dữ liệu. Bao gồm: (1) Đảm bảo an
ninh, phát hiện và ngăn chặn các truy cập bất hợp pháp. (2) Duy trì tính nhất qn
của dữ liệu. (3) Tổ chức và điều khiển các truy cập. (4) Khơi phục cơ sở dữ liệu khi
có sự cố về phần cứng hay phần mềm. (5) Quản lí các mô tả dữ liệu.
Trong nghiên cứu thị trường
Với đặc điểm phải khảo sát, điều tra với số lượng lớn mẫu theo các tiêu chí lựa
chọn, đồng thời chịu áp lực của khách hàng về việc phải cập nhật số liệu nhanh,
chính xác, báo cáo đầy đủ, trong thời gian ngắn, việc sử dụng phần mềm và hệ cơ sở
dữ liệu tương ứng hỗ trợ có các ưu điểm như:
- Giảm khối lượng giấy tờ cần lưu trữ.
- Quản lý lượng lớn kết quả khảo sát lâu dài, thống kê kết quả khảo sát qua các
năm của cùng một khách hàng, cùng một chỉ tiêu dễ dàng, tức thời, hiệu quả
- Một số báo cáo đơn giản được trích xuất tức thời
- Việc kiểm soát điều tra viên và độ trung thực của kết quả điều tra sẽ đơn giản
hơn.
- Chi phí ban đầu có thể tăng lên, nhưng chi phí triển khai lâu dài giảm xuống.
Trong quản lý bán hàng
Việc nhiều bộ phận, cá nhân cùng lúc tra cứu, cập nhật thông tin về một khách
hàng, một đơn hàng là điều không thể tránh khỏi. Hệ quản trịCSDL đơn giản hóa
cơng việc quản lý khách hàng



21
- Cho phép quản lý hàng ngàn, triệu khách hàng cùng lúc, lưu trữ toàn bộ các
giao dịch, đặc điểm, kết quả, trạng thái, thông tin của từng khách hàng
- Cùng lúc tra cứu một hoặc nhiều khách hàng có các đặc điểm theo yêu cầu
- Cập nhật cùng lúc nhiều mặt của cùng một khách hàng theo phân quyền
- Bộ phận marketing lưu trữ thông tin về các chiến dịch, danh sách khách hàng
tìm kiếm được sau mỗi chiến dịch
- Phịng kinh doanh được phép sửa thơng tin cơ bản, các thơng tin phục vụ chăm
sóc khách hàng, các đơn hàng
- Bộ phận kho, sản xuất lưu trữ thông tin các thông tin về kết quả sản xuất đơn
hàng, tình trạng kho hàng
- Bộ phận kế tốn lưu trữ các giao dịch liên quan đến đơn hàng, các chi phí phát
sinh
- Các dữ liệu rời rạc từ các bộ phận trên được thống nhất, kết xuất, lưu trữ trong
suốt quá trình từ lúc tìm được đến lúc bán hàng, xuất hóa đơn và các lịch sử giao dịch
về sau, giảm tỷ lệ bị trùng lắp khách hàng, cung cấp thêm các thơng tin để phân
nhóm khách hàng, xây dựng các chiến dịch chăm sóc khách hàng tốt hơn.
Trong quản trị nhân sự
Quản trị nhân sự là một quá trình kéo dài từ trước khi xây dựng kế hoạch tuyển
dụng đến cả sau khi nhân sự đó khơng làm cho siêu thị.. Mỗi nhân sự bao gồm rất
nhiều thông tin, do vậy khó quản lý nếu chỉ quản lý trên giấy tờ hoặc file, ngoải ra
khi cập nhật, thay đổi thông tin nhâ sự, việc các dữ liệu không “khớp” với nhau
không thể tránh khỏi. Một phần mềm ứng dụng phù hợp sẽ giúp ban lãnh đạo, quản
lý công ty trong việc:
- Đánh giá hiệu quả của các đợt tuyển dụng,
- Thông tin nhân sự được lưu trữ đồng bộ trong suốt quá trình từ trước, trong và
sau khi làm việc tại công ty: thông tin lý lịch nhân sự, các quyết định liên quan, kết
quả đánh giá hiệu suất làm việc, mức lương, khen thưởng, kỷ luật, quy hoạch, thăng
chức, … Các phần mềm quản trị nhân sự giúp quản lý thông tin nhân sự một cách bài
bản và khoa học.

- Thơng tin được đảm bảo về tính đồng bộ, sẵn sàng, duy nhất, không trùng lặp…
và chỉ được xem, sửa bởi những bộ phận hay cá nhân đã được phân quyền.
- Hệ thống trợ giúp báo cáo đánh giá toàn diện mọi mặt nhân sự siêu thị, từ đó
xây dựng có kế hoạch đào tạo, tuyển dụng… hiệu quả theo đúng các nhu cầu được đề
ra.
- Giúp xây dựng và đồng bộ hệ thống lương thưởng, phúc lợi phù hợp toàn trong
toàn bộ hệ thống
2.2.2. Cơ sở dữ liệu bán hàng siêu thị
Quản trị hoạt động bán hàng tại siêu thị
Siêu thị là loại hình cửa hàng hiện đại; kinh doanh tổng hợp hoặc chuyên doanh;
có cơ cấu chủng loại các hàng hoá phong phú, đa dạng, bảo đảm chất lượng; đáp ứng
các tiêu chuẩn về diện tích kinh doanh, trang bị kỹ thuật và trình độ quản lý, tổ chức


22
kinh doanh; có các phương thức phục vụ văn minh, thuận tiện nhằm thoả mãn nhu
cầu mua sắm hàng hóa của khách hàng. Siêu thị được Nhà nước cấp phép hoạt động.
Chủng loại hàng hóa của siêu thị có thể lên tới hàng nghìn, thậm chí hàng vạn
mặt hàng theo các nhóm, ngành hàng khác nhau. Tùy thuộc vào thời điểm khác nhau
mà số lượng khách hàng đến mua hàng siêu thị với các giỏ hàng bao gồm các chủng
loại hàng hóa khác nhau. Đặc biệt, do nhu cầu thị hiếu, sở thích của khách hàng khác
nhau nên trong mỗi giỏ hàng của họ mà ở đó các mặt hàng đều có mối quan hệ với
nhau. Những thơng tin như vậy hỗ trợ giúp cho nhà quản lý siêu thị quyết định chọn
lọc để mua, đặt các mặt hàng/nhóm mặt hàng từ nhà cung cấp và thu xếp không gian
trưng bày các mặt hàng một cách hợp lý nhằm hoạt động kinh doanh của siêu thị đạt
được hiệu quả tốt nhất.
Quản trị hoạt động hệ thống bán hàng của siêu thị, bao gồm ba nội dung chính:
Xây dựng hệ thống bán hàng siêu thị; Tổ chức và quản lý hệ thống bán hàng siêu thị;
Kiểm tra, đánh giá hệ thống bán hàng siêu thị. Muốn phát huy hiệu quả của hệ thống
bán hàng siêu thị, địi hỏi cơng tác quản trị hệ thống bán hàng siêu thị phải chú ý cả

ba khâu của quá trình quản trị [33], [34], [35].
Qui trình nghiệp vụ bán hàng siêu thị
Thơng thường một qui trình nghiệp vụ bán hàng siêu thị được mơ tả bao gồm:
Nhập hàng từ nhà cung cấp, Xuất hàng từ kho lên quầy hàng, Bán hàng, Kiểm kê
hàng hóa, Lập các báo cáo thống kê, ... [25].
Cơ sở dữ liệu bán hàng siêu thị
Trong các bước của quá trình phân tích và thiết kế hệ thống quản lí bán hàng siêu
thị. Một CSDL được xây dựng dựa trên tập các thực thể kèm các thuộc tính (có thể)
như sau [25]:
NHÂN VIÊN (Mã nhân viên, Mã chức vụ, Tên nhân viên, Phòng ban, Điện
thoại)
CHỨC VỤ (Mã chức vụ, Chức vụ, Phòng ban)
HÀNG HĨA (Mã hàng, Nhóm hàng, Tên hàng, Đơn vị tính, Hạn dùng, Nguồn
gốc Xuất xứ, Trọng lượng)
NHĨM NGÀNH HÀNG (Mã nhóm hàng, Tên nhóm hàng, Mã ngành hàng)
NGÀNH HÀNG (Mã ngành hàng, Tên ngành hàng)
NHÀ CUNG CẤP (Mã NCC, Tên NCC, Mã số thuế, Số CMT, Địa chỉ, Điện
thoại, Fax, Email)
PHIẾU NHẬP HÀNG (Mã PNH, Mã NCC, Ngày giao, Mã NV giao, Ngày nhập,
Mã hàng, Số lượng, Đơn giá, Mã chứng từ, Loại hóa đơn, Tổng tiền)
KHÁCH HÀNG (Mã KH, Tên KH, Mã số thuế, Số CMT, Địa chỉ, Điện thoại,
Fax, Email)
PHIẾU XUẤT HÀNG (Mã PXH, Mã NV xuất, Mã hàng, Ngày xuất, Số lượng,
Đơn giá)
HÓA ĐƠN BÁN HÀNG (Mã hóa đơn, Đơn vị bán hàng, Mã số thuế, Mã nhân
viên, Mã KH, Ngày bán, Mã hàng, Tên hàng, Số lượng, Đơn giá, VAT, Tiền thanh
toán)


23

KIỂM KÊ HÀNG (Mã phiếu KK, Ngày KK, Mã nhân viên KK, Mã hàng, Mã
NCC, Số lượng nhập, Số lượng xuất, Số lượng tồn).
Một số vấn đề đặt ra
Trong trường hợp nghiên cứu (hạn chế) của đề tài, chúng tôi hạn chế CSDL bán
hàng siêu thị là các giao tác (giỏ hàng) chỉ bao gồm gồm hai thông tin: định danh
(thứ tự xuất hiện các đơn hàng) và thông tin giỏ hàng (các mặt hàng mà khách hàng
đã mua).
Dựa trên CSDL bán hàng này và ứng dụng thuật toán BMB tiến hành khai phá
trên CSDL bán hàng để trả lời cho câu hỏi: với ngưỡng độ hỗ trợ tối thiểu cho trước.
- Mặt hàng/nhóm các mặt hàng nào phổ biến xuất hiện cùng nhau trong các giỏ
hàng?
- Mức độ quan trọng của mặt hàng/nhóm mặt hàng phổ biến xuất hiện trong các
giỏ hàng là như thế nào?
2.3. Khai phá dữ liệu và khai phá dữ liệu bán hàng siêu
2.3.1. Khai phá dữ liệu
Khái niệm khai phá dữ liệu [1], [34], [35], [36]
Khai phá dữ liệu (data mining) được dùng để mơ tả q trình phát hiện các tri
thức trong CSDL lớn. Khai phá dữ liệu được dùng để mô tả quá trình phát hiện ra tri
thức trong CSDL. Quá trình này kết xuất ra các tri thức tiềm ẩn từ dữ liệu giúp cho
việc dự báo trong kinh doanh, các hoạt động sản xuất, ... Khai phá dữ liệu làm giảm
chi phí về thời gian so với phương pháp truyền thống trước kia (ví dụ như phương
pháp thống kê).
Khai phá dữ liệu là một cơng nghệ mới, mạnh mẽ, có tiềm năng lớn. Nó giúp các
tổ chức, cơng ty tập trung vào thông tin quan trọng nhất trong dữ liệu họ đã thu thập
về hành vi của khách hàng và khách hàng tiềm năng của họ. Nó phát hiện ra thông tin
trong dữ liệu mà các truy vấn và báo cáo khơng thể tiết lộ một cách hiệu quả.
Qui trình khai phá dữ liệu [1], [34], [35], [36]
- Làm sạch dữ liệu
Làm sạch dữ liệu là bước đầu tiên để phân tích dữ liệu. Dữ liệu trong thế giới
thực thường không đầy đủ, nhiều sạn và không nhất quán. Dữ liệu có sẵn từ các

nguồn thứ cấp có thể thiếu các giá trị thuộc tính, dữ liệu quan tâm, … Ví dụ: bạn
muốn dữ liệu nhân khẩu học của khách hàng. Nếu dữ liệu khả dụng không bao gồm
các thuộc tính cho giới tính hoặc độ tuổi của khách hàng thì sao? Do đó, dữ liệu là
khơng đầy đủ. Đơi khi dữ liệu có thể chứa lỗi hoặc ngoại lệ. Dữ liệu cũng có thể
khơng nhất qn. Nếu dữ liệu không sạch, kết quả khai phá dữ liệu sẽ không đáng tin
cậy cũng như khơng chính xác.
Làm sạch dữ liệu bao gồm một số kỹ thuật như điền vào các giá trị còn thiếu
bằng tay, kết hợp kiểm tra máy tính và con người, … Đầu ra của quy trình làm sạch
dữ liệu là dữ liệu được làm sạch đầy đủ.
- Tích hợp dữ liệu


24
Tích hợp dữ liệu là q trình dữ liệu từ các nguồn dữ liệu khác nhau được tích
hợp thành một. Dữ liệu nằm ở các định dạng khác nhau ở các vị trí khác nhau. Dữ
liệu có thể được lưu trữ trong cơ sở dữ liệu, tệp văn bản, bảng tính, tài liệu, khối dữ
liệu, Internet, ... Tích hợp dữ liệu là một nhiệm vụ thực sự phức tạp và khó khắn. Vì
dữ liệu từ các nguồn khác nhau sẽ không khớp với nhau. Một vấn đề khác phải đối
mặt là dư thừa dữ liệu. Cùng một dữ liệu có thể có sẵn trong các bảng khác nhau
trong cùng một cơ sở dữ liệu. Hoặchậm chí trong các nguồn dữ liệu khác nhau.
- Lựa chọn dữ liệu
Quá trình khai phá dữ liệu địi hỏi có CSDL lớn để phân tích. Vì vậy, thơng
thường kho lưu trữ dữ liệu với dữ liệu tích hợp chứa nhiều dữ liệu hơn thực tế yêu
cầu. Từ dữ liệu có sẵn, dữ liệu quan tâm cần phải được chọn và lưu trữ. Lựa chọn dữ
liệu là quá trình mà dữ liệu liên quan đến phân tích được lấy từ cơ sở dữ liệu.
- Chuyển đổi dữ liệu
Chuyển đổi dữ liệu là quá trình biến đổi và hợp nhất dữ liệu thành các dạng phù
hợp để tiến hành khai phá dữ liệu. Chuyển đổi dữ liệu thơng thường bao gồm: chuẩn
hóa, tổng hợp, tổng qt hóa, …
- Khai phá dữ liệu

Khai phá dữ liệu là quá trình cốt lõi. Trong nooj dung chính của đề tài cũng đề
cập đến quá trình khai phá dữ liệu. Đây là một số phương pháp phức tạp và thông
minh được áp dụng để trích xuất các mẫu từ dữ liệu. Quá trình khai phá dữ liệu bao
gồm một số nhiệm vụ như liên kết, phân loại, dự đoán, phân cụm, phân tích chuỗi
thời gian, …
- Đánh giá mẫu
Đánh giá mẫu nhằm xác định các mẫu thực sự thú vị, có ích, đại diện cho tổng
thể. Một mơ hình được coi là tốt nếu nó có/có thể có khả năng hữu ích, dễ hiểu bởi
con người, xác nhận một số giả thuyết rằng ai đó muốn xác nhận hoặc hợp lệ trên dữ
liệu mới với một mức độ chắc chắn.
- Báo cáo trực quan
Thông tin khai phá từ dữ liệu cần phải được trình bày cho người dùng theo cách
hấp dẫn. Các kỹ thuật biểu diễn và trực quan hóa kiến thức khác nhau được áp dụng
để cung cấp đầu ra của việc khai phá dữ liệu cho người dùng. Các sơ đồ, bảng biểu là
cần thiết để ban lãnh đạo các doanh nghiệp có thể nắm được trực quan kết quả của
khai phá dữ liệu. Qua đó xem xét các đề xuất, đưa ra các chiến lược phù hợp.
2.3.2. Khai phá dữ liệu bán hàng siêu thị
Khai phá dữ liệu bán hàng siêu thị là kỹ thuật phân tích marketing, đồng thời là
quá trình được các siêu thị sử dụng để biến dữ liệu thô (CSDL bán hàng) thành
những thông tin hữu ích. Bằng cách sử dụng phần mềm để tìm kiếm các mẫu trong
bộ dữ liệu lớn, siêu thị có thể tìm hiểu thêm về khách hàng cho mình. Từ đó xây
dựng và phát triển các chiến lược marketing hiệu quả hơn, tăng doanh số, giảm chi
phí, tăng lợi nhuận. Khai phá dữ liệu phụ thuộc vào việc thu thập dữ liệu, lưu kho cơ
sở dữ liệu, thuật toán và phần mềm xử lý hiệu quả.
Như đã trình bày trong phạm vi đề tài , chúng tôi chỉ nghiên cứu các thuật toán
khai phá dữ liệu trên các giỏ hàng (bao gồm định danh, giỏ hàng, có thể kèm theo trị


×