Tải bản đầy đủ (.docx) (78 trang)

Đồ án tốt nghiệp: Xây dựng website bán hàng ứng dụng một số giải thuật khai phá dữ liệu (9.5đ tốt nghiệp)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.67 MB, 78 trang )

1

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN

BÁO CÁO
ĐỒ ÁN TỐT NGHIỆP
NGÀNH: KHOA HỌC MÁY TÍNH
ĐỀ TÀI:
XÂY DỰNG WEBSITE BÁN ĐIỆN THOẠI DI ĐỘNG
ỨNG DỤNG MỘT SỐ GIẢI THUẬT KHAI PHÁ DỮ LIỆU
Giáo viên hướng dẫn

Ths Trần Thanh Hùng

Sinh viên thực hiện

Đỗ Đăng Thạch

Mã sinh viên

1041060255

Lớp

KHMT4 – K10

1
Hà Nội - 2019



2

LỜI NÓI ĐẦU
Mua code liên hệ: 0384946866
Công nghệ thông tin đã và đang phát triển vượt bậc, tin học len lỏi vào hầu hết
mọi ngành, mọi lĩnh vực trong đời sống. Các công ty, doanh nghiệp, trường học, ...
đang chạy đua ứng dụng tin học hóa nhằm nâng cao hiệu quả trong công việc quản
lý, kinh doanh, …
Ngày nay, thương mại điện tử chính là xu thế của xã hội. bán hàng online
đang dần thay thế việc bán hàng truyền thông; Có rất nhiều cửa hàng kinh doanh,
bán hàng online rất hiệu quả và thu về lợi nhuận cao …Các cửa hàng, công ty,
doanh nghiệp… muốn quảng bá sản phẩm của mình đều phải có website để tất cả
mọi người có thể xem thông tin sản phẩm.
Các website thương mại điện tử thường có cơ sở dữ liệu lớn nhưng lại không
có chọn lọc. Người dùng rất đa dạng, mỗi người dùng lại có nhu cầu, thị hiếu mua
sắm khác nhau. Tuy nhiên hầu hết các website đều giới thiệu sản phẩm cho người
dùng một cách tràn lan, không hiệu quả.
Xuất phát từ tình hình thực tế đó và vận dụng kiến thức đã học tập ở trường
vào quá trình thực tập để đi sâu vào “XÂY DỰNG WEBSITE BÁN ĐIỆN
THOẠI DI ĐỘNG ỨNG DỤNG MỘT SỐ GIẢI THUẬT KHAI PHÁ DỮ
LIỆU.” cho cửa hàng bán điện thoại, laptop và phụ kiện online.
Chúng em chân thành cảm ơn Thầy Ths.Trần Thanh Hùng đã tận tình hướng
dẫn chúng em nhiều kiến thức thực tế trực quan để chúng em có thể nâng cao chất
lượng bài thực tập tốt nghiệp này. Tuy đã cố gắng hết sức song không thể tránh khỏi
những sai sót nhỏ khi làm bài. Mong Thầy bỏ qua và góp ý thêm cho chúng em.
Em xin chân thành cảm ơn!

2



3

TÓM TẮT ĐỀ TÀI
Mục đích:
Xây dựng một website bán hàng gồm các chức năng cơ bản.
Tìm hiểu về khai phá dữ liệu, luật kết hợp cụ thể là giải thuật Apriori, Naïve bayes
Mục tiêu:
Tìm hiểu ngôn ngữ lập trình PHP, framework LARAVEL
Tìm hiểu thuật toán khai phá luật kết hợp Apriori, Naïve bayes tìm ra các mối quan
hệ giữa các đối tượng trong khối lượng lớn dữ liệu
Kết luận:
Quá trình thực tập sẽ giải quyết được các vấn đề lớn sau:
Tìm hiểu và xây dựng được một ứng dụng thực thế bằng framework LARAVEL.
Cài đặt thành công thuật toán khai phá luật kết hợp Apriori, Naïve bayes vào ứng
dụng web.

3


4

MỤC LỤC

4


5

DANH SÁCH HÌNH VẼ


5


6

DANH SÁCH CÁC BẢNG BIỂU

6


7

DANH SÁCH CÁC TỪ VIẾT TẮT

Từ viết tắt
CSDL
QL
DL
SP
KPDL

7

Ý nghĩa
Cơ sở dữ liệu
Quản lý
Dữ liệu
Sản phẩm
Khai phá dữ liệu



8

CHƯƠNG 1. MỞ ĐẦU
1.1. Tên đề tài
XÂY DỰNG WEBSITE BÁN ĐIỆN THOẠI DI ĐỘNG ỨNG DỤNG
MỘT SỐ GIẢI THUẬT KHAI PHÁ DỮ LIỆU.

1.2. Lý do chọn đề tài
Qua nghiên cứu của bản thân, em thấy rằng các ứng dụng thương mại điện tử
lớn của nước ngoài rất chú trọng tới nhu cầu khách hàng, ví dụ như em đang tìm
kiếm một chiếc điện thoại, thì ngoài thông tin về chiếc điện thoại được đưa ra,
website cũng gợi ý các mặt hàng khác liên quan tới chiếc điện thoại mà tôi đang tìm
mua. Các ứng dụng kiểu này được áp dụng rất thành công trên các trang thương mại
điện tử, lazada, shopee, cũng như các trang mạng xã hội như google, facebook, ....

8


9

Hình 1.1. Ứng dụng của Data Mining và KDD
Mặt khác, tại các trang thương mại điện tử của Việt nam hiện nay, việc áp
dụng khai phá dữ liệu hướng tới nhu cầu người dung còn hạn chế, hầu hết các trang
Thương mại điện tử chỉ nhằm mục đích giới thiệu và bán sản phẩm, chứ chưa tư
vấn được cho khách hàng mua thêm các sản phẩm liên quan.
Chính vì vậy tôi chọn đề tài là xây dựng website bán điện thoại, laptop và
phụ kiện ứng dụng một số giải thuật khai phá dữ liệu.

1.3. Tính cấp thiết của đề tài

Hiện nay chúng ta đang sống trong thời đại công nghệ 4.0, ở đây mọi thứ đều
được hướng tới sự tự động hóa, tương tác online, tối ưu hiệu quả một cách tối đa ....
nhằm đưa đến sự thuận tiện và nhanh chóng nhất, làm cho cuộc sống ngày càng văn
minh hơn.
9


10
Không nằm ngoai xu thế này, công nghệ thông tin cũng phát triển một cách
nhanh chóng để đáp ứng được sự phát triển như vũ bão này, ở đây mọi thứ được
hướng tới như công nghệ IoT, AI, Big Data, ... trong đó các công nghệ này ngày
càng được áp dụng sâu rộng vào thực tiễn thông qua các ứng dụng Công nghệ thông
tin.
Nghiên cứu và ứng dụng giải thuật luật kết hợp trong xây dựng bài toán bán
hàng cũng là một trong những cấp thiết của công nghệ 4.0, nhằm đưa đến các trang
thương mại điện tử có thể tự động hóa bán hàng.

10


11

CHƯƠNG 2. CƠ SỞ LÝ THUYẾT
2.1. Khai phá dữ liệu
2.1.1. Sự cần thiết của khai phá dữ liệu (Data mining)?
Khoảng hơn một thập kỷ trở lại đây, sự tích lũy dữ liệu xảy ra với một tốc độ
bùng nổ. Chúng ta đang “ngập” trong dữ liệu nhưng lại “đói” tri thức. Câu hỏi đặt
ra là liệu chúng ta có thể khai thác được gì từ những dữ liệu tưởng chừng như “bỏ
đi” ấy không?
“Necessity is the mother of invention”- Data Mining ra đời như một hướng

giải quyết hữu hiệu cho câu hỏi vừa đặt ra ở trên. Có thể tạm hiểu rằng Data Mining
như là một công nghệ tri thức giúp khai thác những thông tin hữu ích từ những kho
dữ liệu được tích trữ trong suốt quá trình hoạt động của một công ty, tổ chức nào đó.
2.1.2. Khai phá dữ liệu là gì ?
Định nghĩa : Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự
động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ
liệu khổng lồ (Big Data) và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong
tập dữ liệu đó. Khai phá dữ liệu là một bước của quá trình khai thác tri thức
(Knowledge Discovery Process), bao gồm :
1. Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề (Problem
understanding and data understanding).
2. Chuẩn bị dữ liệu (Data preparation), bao gồm các quá trình làm sạch dữ
liệu (data cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu (data
selection), biến đổi dữ liệu (data transformation).
3. Khai thác dữ liệu (Data mining): xác định nhiệm vụ khai thác dữ liệu và lựa
chọn kỹ thuật khai thác dữ liệu. Kết quả cho ta một nguồn tri thức thô.
4. Đánh giá (Evaluation): dựa trên một số tiêu chí tiến hành kiểm tra và lọc
nguồn tri thức thu được.
5. Triển khai (Deployment)

11


12

Hình 2.2. Quá trình khai thác tri thức
* Data Mining bao gồm một số phương pháp sau:
- Phân loại (Classification): Là phương pháp dự báo, cho phép phân loại một
đối tượng vào một hoặc một số lớp cho trước.
- Hồi qui (Regression): Discovery of a prediction learning function, which

maps a data item to a real-value prediction variable.
- Phân nhóm (Clustering): A common descriptive task in which one seeks to
identify a finite set of categories or clusters to describe the data.
- Tổng hợp (Summarization): An additional descriptive task that involves
methods for finding a compact description for a set (or subset) of data.

12


13
- Mô hình ràng buộc (Dependency modeling): Finding a local model that
describes significant dependencies between variables or between the values of a
feature in a data set or in a part of a data set.
- Dò tìm biến đổi và độ lệch (Change and Deviation Dectection): Discovering
the most significant changes in the data set.
2.1.3. Ứng dụng của khai phá dữ liệu
- Data Mining tuy là một hướng tiếp cận mới nhưng thu hút được rất nhiều sự
quan tâm của các nhà nghiên cứu và phát triển nhờ vào những ứng dụng thực tiễn
của nó. Chúng ta có thể liệt kê ra đây một số ứng dụng điển hình:
+ Tin sinh học
+ Thương mại điện tử
+ Phát hiện lừa đảo
+ Quảng cáo
+ Quản lý quan hệ khách hàng
+ Chăm sóc sức khỏe
+ Máy tìm kiếm (web)
- Đáng chú ý: Đơn vị Able Danger của quân đội Mỹ đã dùng phương pháp
khai thác dữ liệu để xác định kẻ đứng đầu cuộc tấn công ngày 11-9.
Xem tin tức Wikinews tại: Wikinews: U.S. Army intelligence detection of 9/11
terrorists before attack.


2.2. Thuật toán Apriori khai phá luật kết hợp
2.2.1. Luật kết hợp (Association Rule)
Trong lĩnh vực Data Mining, mục đích của luật kết hợp (Association Rule AR) là tìm ra các mối quan hệ giữa các đối tượng trong khối lượng lớn dữ liệu. Nội
dung cơ bản của luật kết hợp được tóm tắt như dưới đây.
* Các khái niệm cơ bản:
- Item (phần tử): là các phần tử, các mẫu, đối tượng được quan tâm. I = {I1,
I2, …, Im}: là tập tất cả m phần tử có thể có trong tập dữ liệu.
13


14
- Itemset (tập phần tử): là tập hợp các items. Một itemset có k items gọi là kitemset.
- Transaction (giao dịch): là các lần thực hiện tương tác với hệ thống (ví dụ:
giao dịch “khách hàng mua hàng”). Liên hệ với một tập T gồm các phần tử được
giao dịch.
- Association (sự kết hợp) và association rule (luật kết hợp). Sự kết hợp: các
phần tử cùng xuất hiện với nhau trong một hay nhiều giao dịch. Thể hiện mối quan
hệ giữa các phần tử/các tập phần tử
- Luật kết hợp: là quy tắc kết hợp có điều kiện giữa các tập phần tử.
+ Thể hiện mối liên hệ (có điều kiện) giữa các tập phần tử.
+ Cho A và B là các tập phần tử, luật kết hợp giữa A và B là A → B. B xuất
hiện trong điều kiện A xuất hiện.
- Support (độ hỗ trợ): là độ đo tần số xuất hiện của các phần tử/tập phần tử.
- Minimum support threshold (ngưỡng hỗ trợ tối thiểu): giá trị hỗ trợ nhỏ nhất
được chỉ định bởi người dùng.
- Confidence (độ tin cậy)
+ Độ đo tần số xuất hiện của một tập phần tử trong điều kiện của một tập phần
tử khác.
+Minimum confidence threshold (ngưỡng tin cậy tối thiểu): là giá trị

confidence nhỏ nhất được chỉ định bởi người dùng.
- Frequent itemset (tập phần tử phổ biến)
+ Là tập phần tử có support thoả minimum support threshold.
+ Cho A là một tập itemset: A là frequent itemset if support(A) >= minimum
support threshold.
- Strong association rule (luật kết hợp mạnh)
+ Là luật kết hợp có support và confidence thoả minimum support threshold
và minimum confidence threshold.

14


15
+ Cho luật kết hợp A → B giữa A và B, A và B là itemsets: A → B là strong
association rule if support(A → B) >= minimum support threshold và confidence(A
→ B) >= minimum confidence threshold.
* Phân loại luật kết hợp:
- Boolean association rule (luật kết hợp luận lý)/quantitative association rule
(luật kết hợp lượng số)
+ Boolean association rule là luật mô tả sự kết hợp giữa sự hiện diện/vắng mặt
của các phần tử.
Computer



Financial_management_software

[support=2%,

confidence=60%]

+ Quantitative association rule là luật mô tả sự kết hợp giữa các phần tử/thuộc
tính định lượng.
Age (X, “30…39”) ∧ Income (X, “42…48K”) →Buys (X, high resolution TV)
-

Single-dimensional

association

rule

(luật

kết

hợp

đơn

chiều)/Multidimensional association rule (luật kết hợp đa chiều)
+ Single-dimensional association rule là luật chỉ liên quan đến các phần
tử/thuộc tính của một chiều dữ liệu.
Buys (X, “computer”) → Buys(X, “financial_management_software”)
+ Multidimensional association rule: luật liên quan đến các phần tử/thuộc tính
của nhiều hơn một chiều
Age (X, “30… 39”) Buys (X, “computer”)
- Single-level association rule (luật kết hợp đơn mức)/multilevel association
rule (luật kết hợp đa mức)
+ Single-level association rule là luật chỉ liên quan đến các phần tử/thuộc tính
ở một mức trừu tượng.

Age (X, “30… 39”) Buys (X, “computer”)
Age (X, “18… 29”) Buys (X, “camera”)

15


16
+ Multilevel association rule: luật liên quan đến các phần tử/thuộc tính ở các
mức trừu tượng khác nhau.
Age (X, “30... 39”) Buys (X, “laptop computer”)
Age (X, “30… 39”) Buys (X, “computer”)
- Association rule (luật kết hợp)/Correlation rule (luật tương quan thống kê)
+ Association rule: strong association rules A B (association rules đáp ứng yêu
cầu minimum support threshold và minimum confidence threshold).
+ Correlation rule: strong association rules A B đáp ứng yêu cầu về sự tương
quan thống kê giữa A và B.
2.2.2. Thuật toán sinh các luật kết hợp Apriori
* Tư tưởng chính của thuật toán Apriori là:
- Tìm tất cả frequent itemsets:
k-itemset (itemsets gồm k items) được dùng để tìm (k+1) - itemset.
- Đầu tiên tìm 1-itemset (ký hiệu L1). L1 được dùng để tìm L2 (2-itemsets).
L2 được dùng để tìm L3 (3-itemset) và tiếp tục cho đến khi không có k-itemset
được tìm thấy.
- Từ frequent itemsets sinh ra các luật kết hợp mạnh (các luật kết hợp thỏa
mãn 2 tham số min_sup và min_conf).
* Apriori Algorithm
1. Duyệt (Scan) toàn bộ transaction database để có được support S của 1itemset, so sánh S với min_sup, để có được 1-itemset (L1)
2. Sử dụng Lk-1 nối (join) Lk-1 để sinh ra candidate k-itemset. Loại bỏ các
itemsets không phải là frequent itemsets thu được k-itemset
3.


Scan transaction database để có được support của mỗi candidate k-

itemset, so sánh S với min_sup để thu được frequent k –itemset (Lk)
4. Lặp lại từ bước 2 cho đến khi Candidate set (C) trống (không tìm thấy
frequent itemsets)
5. Với mỗi frequent itemset I, sinh tất cả các tập con s không rỗng của I
16


17
6. Với mỗi tập con s không rỗng của I, sinh ra các luật s => (I-s) nếu độ tin
cậy (Confidence) của nó > =min_conf
Chẳn hạn với I= {A1, A2, A5},các tập con của I:
{A1}, {A2}, {A5}, {A1, A2},{A1, A5},{A2, A5}
sẽ có các luật sau
{A1} => {A2, A5}, {A2} => {A1, A5}, {A5} => {A1, A2}
{A1, A2} =>{A5}, {A1, A5} => {A2}, {A2, A5} => {A1}
Ví dụ: Giả sử ta có có sở dữ liệu giao dịch (Transaction Database -TDB) như
sau:

Hình 2.3. Dữ liệu ví dụ Apriori
* Thuật toán Apriori khai phá luật kết hợp được mô tả qua các bước sau

17


18

Hình 2.4. Các bước thực hiện thuật toán Apriori


- Ta có frequent itemsets I = {A, B, E}, với min_conf =80% ta có 2 luật kết hợp là:
{A, B} => {E} và {A, E} => {B}

Hình 2.5. Kết quả Apriori
* Giả sử có cơ sở dữ liệu giao dịch bán hàng gồm 5 giao dịch như sau:

18


19

Hình 2.6. CSDL ví dụ
Thuật toán Apriori tìm các luật kết hợp trong giao dịch bán hàng trên như sau:

19


20

Hình 2.7. Lặp lại
Kết quả ta có các luật kết hợp sau (với min_sup= 40%, min_conf=70%)
R1: Lót chuột => Tai nghe, Chuột không dây (support =40%, confidence =
100%)
20


21
R2: Tai nghe, Lót chuột => Chuột không dây (support = 40%, confidence =
100%)

R3: Chuột không dây, Lót chuột => Tai nghe (support = 40%, confidence =
100%)
Từ kết quả các luật được sinh ra bởi giao dịch bán hàng trên, ta thấy rằng có
luật có thể tin được (hợp lý) như Lót chuột => Tai nghe, Chuột không dây, Tuy
nhiên trên thực tế có luật cần phải phân tích thêm và có khó tin.
Thuật toán Apriori được dùng để phát hiện các luật kết hợp dạng khẳng định
(Positive Rule X=>Y) nhị phân (Binary Association Rules) chứ không thể phát hiện
các luật kết hợp ở dạng phủ định (Negative Association Rule) chẳng hạn như các
kết hợp dạng “Khách hàng mua mặt hàng A thường KHÔNG mua mặt hàng B”
hoặc “Nếu ủng hộ quan điểm A thường KHÔNG ủng hộ quan điểm B”. Khai phá
các luật kết hợp dạng phủ định (Mining Negative Association Rules) có phạm vi
ứng dụng rất rộng và thú vị nhất là trong Marketing, Health Care và Social Network
Analysis.

2.3. Thuật toán Naïve bayes
2.3.1. Định lý Bayes
Công thức bayes được phát biểu như sau

Hình 2.8. Công thức Bayes
Trong đó:
- P(A|B) là xác suất xảy ra của một sự kiện ngẫu nhiên A khi biết sự kiện liên
quan B đã xảy ra.
- P(B|A) là xác suất xảy ra B khi biết A xảy ra
- P(A) là xác suất sảy ra của riêng A mà khôngquan tâm đến B.
- P(B) là xác suất xảy ra của riêng B mà không quan tâm đến A.
Ở trên ta có thể thấy xác suất sảy ra của giả thuyết A phụ thuộc và xác suất của
giả thuyết B, nhưng trong thực tế xác suất A có thể phụ thuộc vào xác suất của
21



22
nhiều các giác thuyết khác có thể là B1, B2, B3 … Bn. Vậy định luật Bayes có thể
được mở rộng bằng công thức sau:

Hình 2.9. Công thức mở rộng của định lý Bayes
2.3.2. Ví dụ
- Trong một vụ thu hoạch ở một đồn điền trang trại các người làm đã thu hoạch
được hơn 1000 trái cây các loại được phân loại thành 3 nhóm trái cây chính là
“Chuối (banana)”, “Cam (orange)” và “các loại trái cây khác (other fruit)” và được
phân l oại thành các kiểu như loại trái cây “dài (long), “không dài (not long), “ngọt
(sweet)”, “không ngọt (not sweet)”, “màu vàng (yellow)”, “không phải màu vàng
(not yellow)”.

Hình 2.10. Tập dữ liệu huấn luyện
Bây giờ bài toàn đặt ra là tính ra tỷ lệ một quả chuối có thuộc tính là “màu
vàng, dài, và ngọt” với tỷ lệ quả cảm và các loại hoa quả khác có cũng có thuộc
tính là “màu vàng, dài, và ngọt”.
Áp dụng định lý Bayes ta sẽ có 3 công thức tính cho 3 loại trái cây như sau:
1. Tỷ lệ quả chuối với thuộc tính “vàng, dài và ngọt”

Hình 2.11. Xác suất của đối tượng “Banana”
22


23
P (Long| Banana) = 400/500 = 0.8
P (Sweet| Banana) = 350/500 = 0.7
P (Yellow| Banana) = 450/500 = 0.9
P (Banana) = 500/1000 = 0.5
P (Long) = 500/1000 = 0.5

P (Sweet) = 650/1000 = 0.65
P (Yellow) = 800/1000= 0.8
P (Banana| Long, Sweet, Yellow) = (0.8 * 0.7 * 0.9 * 0.5) / (0.5 * 0.65 * 0.8) =
0.97
Tức là tỷ lệ chuối với thuộc tính “vàng, dài và ngọt” là 97%
2. Tương tự ta cũng có thể tính ra tỷ lệ quả cam với thuộc tính “vàng dài và ngọt”
với công thức sau:

Hình 2.12. Xác suất của đối tượng “Orange”
Do tỷ lệ P(Long|Orange) = 0/500 = 0 cho nên P (Orange| Long, Sweet,
Yellow) = 0 tức là tỷ lệ quả cam với thuộc tính “vàng dài và ngọt” là 0%.
3. Cũng thế ta ốp công thức Bayes để tính các trái cây còn lại với thuộc tính “vàng
dài và ngọt” với công thức sau:

Hình 2.13. Xác suất của đối tượng “Other Fruit”
P (Long| Other Fruit) = 100/200 = 0.5
P (Sweet| Other Fruit) = 150/200 = 0.75
P (Yellow|Other Fruit) = 50/200 = 0.25
P (Other Fruit) = 200/1000 = 0.2
P (Banana|Long, Sweet, Yellow) = 0.5 * 0.75 * 0.25 * 0.2 / (0.5 * 0.65 * 0.8) =
0.072
Tức là tỷ lệ các trái cây khác có thuộc tính “vàng dài và ngọt” chỉ là khoảng
7,2%

23


24
Vậy suy ra với trái cây với ba thuộc tính là “vàng, dài và ngọt” thì có khả năng
cao nhất đó là quả chuối.

Chúng ta có thể ứng dụng Naive Bayes Classification để tính tỷ lệ xác suất với
rất nhiều các dạng bài toán khác nhau, với dữ liệu càng nhiều thì độ chính xác của
thuật toán sẽ càng cao và khi dữ liệu thay đổi thì kết quả cũng thay đổi theo.

24


25

CHƯƠNG 3. KHAI PHÁ DỮ LIỆU ÁP DỤNG VÀO
WEBSITE
3.1. Phân tích dữ liệu học Apriori
Phân tích dữ liệu: từ những hóa đơn đặt hàng của khách hàng chúng ta có thể
dự đoán được xu hướng mua hàng của người dùng. Từ đó khi khách hàng chọn mua
hàng này thì hệ thống sẽ giới thiệu những mặt hàng mà người dùng khác đã mua với
sác xuất cao.
Thuật toán lấy dữ liệu của bảng OrderDetail (Chi tiết hóa đơn) làm dữ liệu
cơ sở để đưa vào thuật toán phân tích.
Xét CSDL của bảng Orrder. Bảng này là bảng hóa đơn bán hàng của cửa
hàng, khách thường có xu hướng mua những cái gì với nhau trong giỏ hàng (ví dụ
như khách hay mua chuột, lót chuột, hoặc điện thoại, tai nghe cùng với nhau...).
Biết được thông tin này thì chúng ta có thể tư vấn mua hàng cho những khách hàng
tiếp theo.

Hình 3.14 Cấu trúc dữ liệu bảng Order (Hóa đơn)

3.2. Sử dụng luật kết hợp Apriori trong xây dựng bài toán
Ví dụ minh họa như sau:
Bảng 3.1. Dữ liệu ví dụ lọc ra trong một tháng gần đây
Id

25

Orders_Id

Product_Id


×