Tiểu luận môn CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (530.01 KB, 30 trang )

Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
BÀI TIỂU LUẬN MÔN: CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG
ỨNG DỤNG DATA MINING TÌM LUẬT KẾT HỢP
THEO THUẬT TOÁN APRIORI
Tp.HCM, Tháng 10/2014
GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 1
1.1.1.1.1.1.1.1
MSSV: CH1201051
H tên: Di p Thanh Nguyênọ ệ
L p: Cao h c khóa 7ớ ọ
GVHD: PGS.TS. V Thanh Nguyênũ
MSSV: CH1201051
H tên: Di p Thanh Nguyênọ ệ
L p: Cao h c khóa 7ớ ọ
GVHD: PGS.TS. V Thanh Nguyênũ
MSSV: CH1301118
Họ tên: Nguyễn Ngọc Vọng
Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori
LỜI NÓI ĐẦU
Khai phá dữ liệu (Data mining) là ngành khoa học đang ngày được quan tâm nghiên
cứu và phát triển do những ứng dụng thiết thực mà nó mang lại. Khai phá dữ liệu là phần
cốt lõi của phát hiện tri thức, trong khai phá dữ liệu phát hiện các luật là một trong những
nội dung cơ bản và phổ biến nhất. Các phương pháp phát hiện luật nhằm tìm ra sự phụ
thuộc giữa các tính chất của các đối tượng hay các thuộc tính trong cơ sở dữ liệu.
Qua môn học công nghệ tri thức và ứng dụng, người viết đã được tìm hiểu về thuật
toán Apriori tìm luật kết hợp dựa theo ngưỡng minsup và minconf, trong đó có thế ứng
dụng vào các bài toán khảo sát các thị trường tiêu dùng về các mặt hàng trên hệ thống siêu
thị, nhà sách,… Vì thế, người viết muốn đưa thuật toán Apriori vào việc tìm ra các luật kết
hợp theo một số mẫu dữ liệu thu thập được.

Nhân đây, xin gửi lời cảm ơn chân thành đến GS.TSKH Hoàng Văn Kiếm trường
Đại học Công Nghệ Thông Tin đã tận tình giảng dạy, hướng dẫn để người viết hiểu thêm
và hoàn thành tiểu luận này.
GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 2
Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori
NHẬN XÉT CỦA GIẢNG VIÊN

GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 3
Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori
MỤC LỤC
LỜI NÓI ĐẦU 1
NHẬN XÉT CỦA GIẢNG VIÊN 2
MỤC LỤC 3
Ph n 1. C S LÝ THUY T KHAI PHÁ D LI Uầ Ơ Ở Ế Ữ Ệ 5
1.1 Khai phá d li uữ ệ 5
Ph n 2. LU T K T H P VÀ THU T TOÁN APRIORIầ Ậ Ế Ợ Ậ 16
2.1 Khái ni m v lu t và lu t k t h pệ ề ậ ậ ế ợ 16
2.2 M t s tính ch t c a t p m c ph bi n và lu t k t h pộ ố ấ ủ ậ ụ ổ ế ậ ế ợ 18
2.3 Thu t toán Aprioriậ 20
Ph n 3. CH NG TRÌNH DEMOầ ƯƠ 26
3.1 Giao di n ch ng trìnhệ ươ 26
3.2 S d ng ch ng trìnhử ụ ươ 26
3.3 Xây d ng l p Aprioriự ớ 26
3.4 Xây d ng LargeItemSetự 27
KẾT LUẬN 29
TÀI LIỆU THAM KHẢO 30
GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 4
Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori
Phần 1. CƠ SỞ LÝ THUYẾT KHAI PHÁ DỮ LIỆU
1.1 Khai phá dữ liệu
1.1.1 Tổng quan về khai phá dữ liệu
Khai phá dữ liệu (Data Mining) được định nghĩa là: quá trình trích xuất các thông tin
có giá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các cơ sở dữ liệu (CSDL),
kho dữ liệu Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật
ngữ khác có ý nghĩa tương tự như: khai phá tri thức từ CSDL (knowledge mining from
databases), trích lọc dữ liệu (knowledge extraction), phân tích dữ liệu/mẫu (data/pattern

analysis), khảo cổ dữ liệu (data archaeology), nạo vét dữ liệu (data dredging). Nhiều người
coi khai phá dữ liệu và một thuật ngữ thông dụng khác là khám phá tri thức trong CSDL
(Knowledge Discovery in Databases – KDD) là như nhau. Tuy nhiên, trên thực tế, khai
phá dữ liệu chỉ là một bước thiết yếu trong quá trình khám phá tri thức trong CSDL.
Sau đây là một số quan niệm về khai phá dữ liệu (KPDL):
 KPDL là tập hợp các thuật toán nhằm chiết xuất những thông tin có ích từ kho
dữ liệu khổng lồ.
 KPDL được định nghĩa như một quá trình phát hiện mẫu trong dữ liệu. Quá
trình này có thể là tự động hay bán tự động, song phần nhiều là bán tự động.
Các mẫu được phát hiện thường hữu ích theo nghĩa: các mẫu mang lại cho
người sử dụng một lợi thế nào đó, thường là lợi thế về kinh tế.
 KPDL giống như quá trình tìm ra và mô tả mẫu dữ liệu. Dữ liệu như là một
tập hợp của các vật hay sự kiện, còn đầu ra của quá trình KPDL như là những
dự báo của các vật hay sự kiện mới.
 KPDL được áp dụng trong các cơ sở dữ liệu quan hệ, giao dịch, cơ sở dữ liệu
không gian, cũng như các kho dữ liệu phi cấu trúc, mà điển hình là World
Wide Web.

GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 5
Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori
1.1.2 Nhiệm vụ của khai phá dữ liệu
Trong mọi hoạt động sản xuất, kinh doanh thì yếu tố thành công luôn đặt lên hàng
đầu. Giờ đây KPDL đã và đang trở thành một trong những hướng nghiên cứu chính của
lĩnh vực khoa học máy tính và công nghệ tri thức. Do đó có thể coi mục đích chính của
quá trình KPDL là một mô tả và dự đoán mà các mẫu KPDL phát hiện đều được nhằm vào
mục đích này.Để đạt được mục tiêu chính trên, nhiệm vụ cơ bản nhất của KPDL là:
1.1.2.1 Phân cụm, phân loại, phân nhóm, phân lớp
Nhiệm vụ là trả lời câu hỏi là một dữ liệu mới thu thập được sẽ thuộc về nhóm
nào? Quá trình này thường được thực hiện một cách tự động.
1.1.2.2 Khai phá luật kết hợp

Nhiệm vụ là phát hiện những mối quan hệ giống nhau về cấu trúc của các bản ghi
giao dịch. Luật kết hợp X=>Y có dạng tổng quát là : Nếu một giao dịch đã sở hữu các tính
chất X, thì đồng thời nó cũng sở hữu các tính chất Y, ở một mức độ nào đó. Khai phá luật
kết hợp được hiểu theo nghĩa: biết trước các tính chất X, thì sẽ biết được các tính chất Y là
những tính chất nào?
1.1.2.3 Lập mô hình dự báo
Bao gồm 2 nhiệm vụ hoặc là phân nhóm dữ liệu vào một hay nhiều lớp dữ liệu đã
xác định từ trước, hoặc là sử dụng các trường đã cho trong một cơ sở dữ liệu để dự báo sự
xuất hiện (hoặc không xuất hiện) của các trường khác.
1.1.2.4 Phân tích sự tiến hoá
Phân tích sự tiến hoá thực hiện việc mô tả và mô hình hoá các qui luật hay khuynh hướng
của những đối tượng mà ứng xử của chúng thay đổi theo thời gian. Phân tích sự tiến hoá
có thể bao gồm cả đặc trưng hoá, phân biệt, tìm luật kết hợp, phân lớp hay phân cụm dữ
liệu liên quan đến thời gian, phân tích dữ liệu theo chuỗi thời gian, sánh mẫu theo chu kì
và phân tích dữ liệu dựa trên tính tương tự.
1.1.2.5 Hồi quy
GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 6
Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori
Là việc học một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự đoán có giá trị
thực.
1.1.2.6 Phân nhóm
Là việc mô tả chung để tìm ra các tập dữ liệu xác định hay các nhóm để mô tả dữ
liệu. Các nhóm có thể tách riêng, phân cấp hoặc chồng lên nhau. Có nghĩa là dữ liệu có thể
vừa thuộc nhóm này vừa thuộc nhóm kia.
1.1.2.7 Mô hình phụ thuộc
Là việc tìm kiếm một mô hình mô tả sự phụ thuộc giữa các biến. Các mô hình phụ
thuộc tồn tại dưới hai mức: mức cấu trúc của mô hình xác định các biến nào là phụ thuộc
cục bộ vào nhau và mức định lượng của một mô hình xác định độ mạnh của sự phụ thuộc
theo một thước đo nào đó.
1.1.2.8 Dò tìm biến đổi và phát hiện độ lệch

Tập trung vào khai thác những thay đổi đáng kể nhất trong dữ liệu từ các giá trị
chuẩn hoặc được đo trước đó.
1.1.3 Các dạng dữ liệu có thể khai phá
Do KPDL được ứng dụng rộng rãi nên có rất nhiều kiểu dữ liệu khác nhau được chấp nhập
trong KPDL. Dưới đây là một số kiểu dữ liệu điển hình:
CSDL quan hệ : Là các CSDL tác nghiệp được tổ chức theo mô hình dữ liệu quan hệ
( như Oracle, IBM, DB2, MS SQL, v.v ).
CSDL đa chiều : Là kho dữ liệu được tập hợp và chọn lọc từ nhiều nguồn dữ liệu khác
nhau. Dạng dữ liệu này có mang tính lịch sử (có thuộc tính thời gian) và chủ yếu phục vụ
cho quá trình phân tích cũng như là khai phá tri thức nhằm hỗ trợ quá trình ra quyết định.
CSDL dạng giao dịch: Là một dạng CSDL tác nghiệp, nhưng các bản ghi thường là các
giao dịch. Dạng dữ liệu này phổ biến trong lĩnh vực thương mại và ngân hàng, ví dụ: dữ
liệu về các giao dịch thanh toán của ngân hàng,v.v.
Dữ liệu không gian và thời gian : Là dạng dữ liệu có tích hợp thuộc tính về không gian(ví
dụ: dữ liệu về bản đồ) hoặc thời gian (ví dụ: dữ liệu về thị trường chứng khoán).
GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 7
Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori
CSDL quan hệ-hướng đối tượng : Là dạng CSDL lai giữa hai mô hình quan hệ và hướng
đối tượng.
CSDL đa phương tiện : Dữ liệu âm thanh, hình ảnh, phim ảnh, text và web v.v Dạng dữ
liệu này hiện đang khá phổ biến trên Internet do sự ứng dụng rộng rãi của nó.
1.1.4 Quá trình khai phá dữ liệu
Quá trình KPDL là công việc khảo sát thăm dò thông tin dữ liệu, trích chọn tri thức,
thu thập thông tin, thậm chí là duyệt và tìm kiếm dữ liệu. Tuy nhiên, các nhà thống kê thì
có quan điểm cho rằng KPDL là một quá trình phân tích và đánh giá để thăm dò, dự đoán
và ước lượng một lượng các thông tin dữ liệu với mục đích phát hiện ra các mẫu tin thích
hợp hoặc là các mối quan hệ thuộc tính giữa các yếu tố hay các biến cố và cuối cùng là
tích hợp các kết quả thu được bằng cách áp dụng các hệ số mẫu đã xác định cho các phần
dữ liệu mới phát hiện. Từ đó đưa ra các hoạt động liên quan đến kết quả thu được.
Quá trình khai phá dữ liệu được thể hiện qua mô hình sau:

Hình 1.1 Quá trình khai phá dữ liệu
 Xác định nhiệm vụ : Là việc xác định chính xác và rõ ràng vấn đề cần giải quyết.
 Xác định dữ liệu liên quan: Để xây dựng giải pháp
 Thu thập và tiền xử lý dữ liệu liên quan: Thành dạng sao cho thuật toán KPDL có
thể hiểu được.
 Chọn thuật toán KPDL: Cho phù hợp và thực hiện KPDL nhằm tìm được các mẫu
cần quan tâm và biểu diễn chúng dưới dạng có ý nghĩa.
 Mẫu : Là kết quả của quá trình KPDL, tức là hiểu và sử dụng tri thức đã tìm được
thông qua hành động.
GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 8
Xác định
nhiệm vụ
Xác định
dữ liệu
liên quan
Thu thập và
tiền xử lý DL
Thống kê
Tóm tắt
Dữ liệu
trực tiếp
Giải thuật
khai phá DL
Mẫu
Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori
1.1.5 Các thành phần khai phá dữ liệu
Từ các mẫu tìm kiếm được, chúng ta dự đoán những giá trị chưa biết hoặc những
giá trị trong tương lai. Và tập trung mô tả vào việc tìm kiếm các mẫu mô tả dữ liệu làm sao
cho con người có thể hiểu được. Muốn làm được tốt các công việc đó chúng ta dựa vào
một số công việc sau:

Biểu diễn mô hình: Là việc dùng một ngôn ngữ nào đó để mô tả các mẫu hay mô
hình có thể khai phá được. Nếu mô tả quá hạn chế thì sẽ không thể học được hoặc sẽ
không thể có các mẫu tạo ra được mô hình chính xác cho dữ liệu. Nhưng nếu mô hình quá
lớn thì càng làm tăng mức độ nguy hiểm do bị học quá và làm giảm khả năng dự đoán các
dữ liệu chưa biết. Như thế sẽ làm cho việc tìm kiếm càng trở nên phức tạp hơn cũng như
việc hiểu được mô hình càng khó khăn hơn.
Đánh giá mô hình: là việc đánh giá, ước lượng các mô hình chi tiết có thể đáp ứng
được các tiêu chuẩn của quá trình xử lý và phát hiện tri thức, có dự báo chính xác hay
không, có thoả mãn cơ sở logic hay không. Việc đánh giá độ chính xác phải dựa trên đánh
giá chéo. Đánh giá chất lượng liên quan đến độ chính xác dự đoán, tính mới lạ, tính hữu
ích, khả năng hiểu được phù hợp với các mô hình. Cả hai phương pháp logic và thống kê
chuẩn có thể sử dụng trong mô hình kiểm định này.
Phương pháp tìm kiếm: gồm hai thành phần: tìm kiếm tham số: thuật toán phải tìm
kiếm các tham số trong phạm vi các tiêu chuẩn đánh giá mô hình để tối ưu hoá, đưa ra các
dữ liệu quan sát được và biểu diễn mô hình đã định, tìm kiếm mô hình: giống như một
vòng lặp qua phương pháp tìm kiếm tham số, miêu tả mô hình bị thay đổi tạo nên một họ
các mô hình. Với mỗi miêu tả mô hình, phương pháp tìm kiếm tham số được áp dụng để
đánh giá chất lượng mô hình. Các phương pháp tìm kiếm mô hình sử dụng thuật tìm kiếm
heuristic vì kích thước của không gian các mô hình có thể ngăn cản các tìm kiếm tổng thể.
Chọn mẫu dữ liệu: là một giai đoạn rất quan trọng trong kỹ thuật nhận dạng và
KPDL. Trong xác suất thống kê nhiều chiều có một phần tương tự như thế, đó là tìm các
thuộc tính hay các chỉ tiêu chính cần phân tích nhận dạng của một vec-tơ hay một bộ giá
trị thuộc tính nhiều chiều. Sau khi chọn mẫu ta thu được một tập con hay một nhóm dữ
GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 9
Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori
liệu của tập các biến thuộc tính đầu vào sau khi đã loại bỏ đi các thuộc tính ít quan trọng,
thuộc tính thừa. Từ đó thu thập và kết hợp thành bộ véctơ thuộc tính mẫu.
1.1.6 Một số phương pháp khai phá
1.1.6.1 Phương pháp quy nạp
Có hai kỹ thuật chính để thực hiện công việc này đó là suy diễn và quy nạp. Suy

diễn: nhằm rút ra thông tin là kết quả lôgic của các thông tin trong CSDL dựa trên một dãy
các sự kiện chính để suy ra các tri thức mới từ các tri thức đã có. Kỹ thuật suy diễn để thu
được mẫu chi tiết thường sử dụng các luật suy diễn. Quy nạp: suy ra các thông tin được
sinh ra dựa trên CSDL hoặc các kho dữ liệu đã có. Phương pháp quy nạp là tự tìm kiếm,
tạo mô hình, mẫu và sinh ra tri thức cấp cao diễn tả các đối tượng trong CSDL, liên quan
trực tiếp đến các mẫu tìm được trong CSDL. Trong KPDL quy nạp được sử dụng để tạo
cây quyết định và luật.
1.1.6.2 Cây quyết định
Ở đây ta quan tâm đến cây quyết định quy nạp được dùng trong việc “học” tri thức
thông qua phân tích cây. Cây quyết định là một mô tả tri thức dạng đơn giản nhằm phân
các đối tượng dữ liệu thành một số lớp nhất định. Các nút của cây được gắn nhãn là tên các
thuộc tính, các cạnh được gắn các giá trị có thể của các thuộc tính, các lá miêu tả các lớp
khác nhau. Các đối tượng được phân theo lớp các đường đi trên cây, qua các cạnh tương
ứng với giá trị của thuộc tính.
1.1.6.3 Luật kết hợp
Là luật được tạo ra nhằm suy diễn một số mẫu dữ liệu có ý nghĩa về mặt thống kê.
Các luật có dạng: Nếu P thì Q; với P là mệnh đề đúng với một miền dữ liệu nào đó trong
kho dữ liệu và Q là mệnh đề sẽ dự đoán. Phương pháp này nhằm phát hiện ra các luật kết
hợp giữa các thành phần trong CSDL. Mẫu đầu ra của thuật toán KPDL là tập luật kết hợp
tìm được.
Cho một lược đồ R={A
1
,A
2
, ,A
p
} với các thuộc tính có miền giá trị {0,1} và một
quan hệ r trên R. Một luật kết hợp trên quan hệ r được mô tả như sau: X=>B với X ⊆ R và
B ∈ R\X. Cho W ⊆ R, đặt s(W,r) là tần số xuất hiện của W trong r được tính bằng tỷ lệ
GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 10

Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori
giữa các hàng trong r có giá trị 1 tại mỗi cột. Khi đó tần số xuất hiện và độ tin cậy của luật
X =>B trong r được định nghĩa như sau:
Tần số xuất hiện σ =s(X ∪ {B},r).
Độ tin cậy θ =s(X ∪ {B},r)\s(X,r).
Với X gồm nhiều thuộc tính và B là giá trị không cố định.
Nhiệm vụ của việc phát triển các luật kết hợp là phải tìm được tất cả các luật X=>B
sao cho tần số xuất hiện của nhỏ hơn ngưỡng σ cho trước và độ tin cậy của luật không nhỏ
hơn ngưỡng θ cho trước.
Khi thiết kế dữ liệu dùng cho kỹ thuật luật kết hợp cần phải lưu ý để giảm thiểu số
lượng các thuộc tính đầu vào bởi không gian tìm kiếm các luật sẽ tăng theo hàm mũ của số
lượng các thuộc tính đầu vào.
Thuật toán tìm các luật kết hợp được bắt đầu bằng việc tìm tất cả các tập thường
xuyên xuất hiện. Tập thường xuyên xuất hiện là các tập thoả mãn tần số xuất hiện lớn hơn
ngưỡng tần số được xác định trước. Các luật kết hợp sẽ được tạo ra bằng cách ghép dần
các tập thuộc tính dựa trên mức độ thường xuyên.
Một vấn đề quan tâm phải đề cập đến là độ đo của luật: đó là độ hỗ trợ và độ tin
cậy. Chúng phản ánh sự hữu ích và sự chắc chắn của luật đã khai phá. Đặc biệt các luật kết
hợp được coi là đáng quan tâm nếu chúng thỏa mãn cả hai ngưỡng độ hỗ trợ cực tiểu và độ
tin cậy cực tiểu. Những ngưỡng này thường do người dùng hoặc do các chuyên gia xác
định.
Ví dụ: phân tích một CSDL kinh doanh bán hàng của công ty máy tính về chiến
lược kinh doanh và bán máy vi tính,máy in trong tương lai:
“Máy vi tính=>máy in ”{Độ hỗ trợ 20%, độ tin cậy 80%}
Với ví dụ này, có thể hiểu độ hỗ trợ 20% có nghĩa là 20% của tất cả các tác vụ đã
phân tích chỉ ra rằng người mua máy vi tính và mua máy in có tỷ lệ đã được mua là cùng
nhau. Còn độ tin cậy 80% có nghĩa là 80% người mua máy vi tính bao giờ cũng có tỷ lệ
lớn mua máy in.
GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 11
Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori

Nhược điểm của phương pháp này là sự gia tăng nhanh chóng khối lượng tính toán
và các thông số. Tuy nhiên với sự phát triển nhanh chóng và mạnh mẽ của phần cứng thì
các vấn đề này cũng được khắc phục.
1.1.6.4 Phân lớp, phân loại dữ liệu
Cho phép ta sắp xếp các thực thể với một số thuộc tính giống nhau vào một lớp
chung. Công việc này giống việc phân loại nhưng có điểm khác biệt là chưa có sự định
nghĩa các lớp từ trước. Các phương pháp này rất có ích trong giai đoạn đầu của quá trình
nghiên cứu khi ta biết rất ít về đối tượng cần nghiên cứu, nó là tiền đề để tiến hành các
phương pháp khác về KDD.
Nhiệm vụ của phân lớp là tìm ra được một hàm để ghép một đối tượng dữ liệu vào
một lớp trong một số lớp nào đó. Ta thấy rằng rất khó để tách lớp một cách hoàn toàn bằng
một đường biên rạch ròi có dạng đường thẳng. Ngân hàng rất muốn sử dụng các miền đã
được phân lớp để có thể đi đến quyết định một cách tự động về việc liệu có tiếp tục cho
khách tiếp tục vay nữa hay không.
Có nhiều phương pháp phân lớp, phương pháp nổi tiếng nhất là phương pháp K lân
cận. Giả sử muốn chia các đối tượng ban đầu thành K lớp. Lựa chọn K trung tâm ngẫu
nhiên bất kỳ trong không gian các đối tượng. Sau đó tiến hành:
- Chia các dữ liệu thành K nhóm gần nhất với một trong các trung tâm. Khoảng
cách giữa các điểm với các trung tâm sẽ xác định chúng có thuộc K hay không.
- Xác định lại các trung tâm mới bằng cách tính lại giá trị trung bình của các biến
phụ thuộc, tất nhiên các trung tâm mới sẽ khác trung tâm cũ. Phương pháp K lân cận sẽ
làm việc tốt nếu bản chất của dữ liệu là có thể phân loại. Tuy nhiên nó khó áp dụng với
một số tình huống phức tạp, ví dụ như: Phân bố hai hình xoắn ngược chiều nhau.
1.1.6.5 Phương pháp dựa trên mẫu
Là việc sử dụng các mẫu miêu tả từ cơ sở dữ liệu tạo nên một mô hình dự đoán các
mẫu mới bằng cách rút ra các thuộc tính tương tự như các mẫu đã biết trong mô hình. Các
kỹ thuật bao gồm phân lớp theo láng giềng lân cận, các giải thuật hồi quy (Dasarathy
GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 12
Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori
1991) và các hệ thống suy diễn dựa trên tình huống (case - based reasoning) (Kolodner

1993).
1.1.6.6 Mô hình phụ thuộc dựa trên đồ thị xác suất
Các mô hình xác định sự phụ thuộc xác suất giữa các sự kiện thông qua các liên hệ
trực tiếp theo các cung đồ thị (Peal 1988: Whittaker. 1990). Ở dạng đơn giản nhất, mô
hình này xác định những biến nào phụ thuộc trực tiếp vào nhau. Những mô hình này chủ
yếu được sử dụng với các biến có giá trị rời rạc hoặc phân loại.
1.1.6.7 Khái quát dữ liệu
Khái quát dữ liệu bao gồm một số phương pháp nhằm tìm ra một mô tả tóm tắt cho
một tập con của dữ liệu. Một ví dụ đơn giản là tạo ra bảng giá trị trung bình và độ lệch
chuẩn cho tất cả các trường. Các phương pháp phức tạp hơn được hình thành từ việc rút
các luật tóm tắt, các kỹ thuật suy diễn đa dạng và phát hiện các phụ thuộc hàm giữa các
biến.
1.1.6.8 Khai thác dữ liệu dựa trên văn bản
Phù hợp với việc tìm kiếm, phân tích và phân lớp các dữ liệu văn bản không định
dạng. Các lĩnh vực ứng dụng như nghiên cứu thị trường, thu thập tình báo Khai phá dữ
liệu dạng văn bản đã được sử dụng để phân tích câu trả lời cho các câu hỏi mở trong khảo
sát thị trường, tìm kiếm các tài liệu phức tạp
1.1.6.9 Mạng neural
Là một kỹ thuật phát triển dựa trên cấu trúc toán học với khả năng học trên mô
hình hệ thần kinh con người.
Mạng neural có thể đưa ra ý nghĩa từ các dữ liệu phức tạp hoặc không chính xác và
có thể được sử dụng để chiết xuất các mẫu và phát hiện xu hướng quá phức tạp mà con
người cũng như các kỹ thuật máy tính khác không thể phát hiện được.
Một trong những ưu điểm phải kể đến của mạng neural là khả năng tạo ra các mô
hình dự đoán do có độ chính xác cao, có thể áp dụng được cho rất nhiều các loại bài toán
GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 13
Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori
khác nhau đáp ứng được các nhiệm vụ đặt ra của khai phá dữ liệu như phân lớp, phân
nhóm, mô hình hoá, dự báo
Mẫu chiết xuất bằng mạng neural được thể hiện ở các nút đầu của mạng. Mạng

neural sử dụng các hàm số chứ không sử dụng các hàm biểu tượng để tính mức tích cực
của các nút đầu ra và cập nhật các trọng số của nó.
Đặc điểm của mạng neural là không cần gia công dữ liệu nhiều trước khi bắt đầu
quá trình học như các kỹ thuật khác. Tuy nhiên để có thể sử dụng mạng neural có hiệu quả
cần phải xác định các yếu tố khi thiết kế mạng như:
- Mô hình mạng là gì?
- Mạng cần có bao nhiêu nút?
- Khi nào thì việc học dừng?
Ngoài ra còn có rất nhiều bước quan trọng cần phải làm để tiền xử lý dữ liệu trước
khi đưa vào mạng neural để mạng có thể hiểu được.
Mạng neural được đóng gói với những thông tin trợ giúp của các chuyên gia đáng
tin cậy và được các chuyên gia đảm bảo các mô hình này làm việc tốt. Sau khi học mạng
được coi là một chuyên gia trong lĩnh vực thông tin mà nó vừa được học
1.1.6.10Giải thuật di truyền
Đây là phương pháp không chỉ phục vụ KPDL mà còn phục vụ nhiều bài toán
khác, ví dụ như bài toán tối ưu hoặc lập lịch. Tư tưởng của thuật toán là áp dụng quy luật
của sự chọn lọc tự nhiên. Người ta mô phỏng tập hợp dữ liệu ban đầu bằng ký tự nhị phân
và gọi là những quần thể xuất phát, bằng các thao tác lai ghép, đột biến chúng ta biến đổi
quần thể gene trong quần thể là không thay đổi. Một hàm thích nghi được xây dựng để xác
định mức độ thích nghi của quần thể theo các giai đoạn. Quá trình tiến hoá làm cho các
quần thể thích nghi ngày càng cao. Về mặt lý thuyết giải thuật di truyền cho người ta lời
giải tối ưu toàn cục (khác với phương pháp mạng Neural). Tuy nhiên, người ta cũng hạn
chế lời giải với một mức độ thích nghi nào đó để hạn chế số lượng các bước xây dựng các
quần thể.
GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 14
Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori
Nói theo nghĩa rộng thì giải thuật di truyền mô phỏng lại hệ thống tiến hoá trong tự
nhiên, chính xác hơn là các giải thuật chỉ ra tập các cá thể được hình thành, được ước
lượng và biến đổi như thế nào. Ví dụ như xác định xem làm thế nào để lựa chọn các cá thể
tạo giống và lựa chọn các cá thể nào sẽ bị loại bỏ.

Giải thuật di truyền là một giải thuật tối ưu hoá. Nó được sử dụng nó được sử dụng rất
rộng rãi trong việc tối ưu hoá các kỹ thuật khai phá dữ liệu trong đó có kỹ thuật mạng
neural. Sự liên hệ của nó với các giải thuật khai phá dữ liệu là ở chỗ việc tối ưu hoá cần
thiết cho quá trình khai phá dữ liệu. Giai đoạn tối ưu hoá là cần thiết để xác định các giá trị
tham số nào tạo ra các luật tốt nhất.
GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 15
Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori
Phần 2. LUẬT KẾT HỢP VÀ THUẬT TOÁN APRIORI
2.1 Khái niệm về luật và luật kết hợp
2.1.1 Hệ luật dẫn
Trong modul chương trình xử lý các thông tin của vấn đề đang nằm trong bộ nhớ
tạm thời thông qua một CSDL chứa các luật dẫn và bộ phận suy diễn để suy ra thông tin
mới.
Mô hình hệ luật dẫn bao gồm 3 bộ phận chính:
Cơ sở tri thức : tập các luật dẫn, mô hình bộ nhớ lâu bền của con người.
Bộ nhớ tạm thời (bộ nhớ hoạt động): chứa đựng các sự kiện khởi đầu của vấn đề và các sự
kiện có từ suy diễn, mô hình bộ nhớ tạm thời của con người.
Động cơ suy diễn: mô hình hoá lập luận của con người bằng cách kết hợp các sự kiện của
vấn đề với các luật trong CSTT để suy diễn ra thông tin mới.
Trong CSTT với các trạng thái chính là các sự kiện trong bộ nhớ hoạt động và bộ phận lập
luận chính là động cơ suy diễn. Khi các luật được phát tác thì các kết luận được đưa vào bộ
nhớ hoạt động thành các sự kiện mới và quá trình lặp lại liên tục đến khi lặp điều kiện
dừng của hệ thống ( không có luật nào thoả mãn điều kiện đang có, hay không phát sinh
thêm được tập mục phổ biến, thông tin mới…).
Mô tả một hệ luật dẫn: Các luật dẫn hoặc gọi là luật IF THEN là những mệnh đề có dạng
LHS=>RHS trong đó LHS xác định các điều kiện hoặc hoàn cảnh phải được thoả mãn cho
luật được áp dụng, RHS là những tác động phải xảy ra khi luật được áp dụng.
2.1.2 Định nghĩa luật kết hợp
Gọi I = {I
1

, I
2,
, I
m
} là tập m thuộc tính riêng biệt, mỗi thuộc tính gọi là một mục.
Gọi D là một cơ sở dữ liệu, trong đó mỗi bản ghi T là một giao dịch và chứa các tập mục,
T
⊆
I.
GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 16
Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori
Định nghĩa 1: Một luật kết hợp là một quan hệ có dạng X
⇒
Y, trong đó X, Y
⊂
I là các
tập mục gọi là itemsets, và
φ
=
YX 
. Ở đây, X được gọi là tiền đề, Y là mệnh đề kết quả.
Hai thông số quan trọng của luật kết hợp là độ hỗ trợ (s) và độ tin cậy (c).
Định nghĩa 2 : Độ hỗ trợ (support) của luật kết hợp X
⇒
Y là tỷ lệ phần trăm các bản ghi
YX 
với tổng số các giao dịch có trong cơ sở dữ liệu.
Định nghĩa 3: Đối với một số giao dịch được đưa ra, độ tin cậy (confidence) là tỷ lệ của
số giao dịch có chứa
YX 

với số giao dịch có chứa X. Đơn vị tính %.
Việc khai thác các luật kết hợp từ cơ sở dữ liệu chính là việc tìm tất cả các luật có độ hỗ
trợ và độ tin cậy lớn hơn ngưỡng của độ hỗ trợ và độ tin cậy do người sử dụng xác định
trước. Các ngưỡng của độ hỗ trợ và độ tin cậy được ký hiệu là minsup và mincof.
Ví dụ : Khi phân tích giỏ hàng của người mua hàng trong một siêu thị ta có được luật kiểu
như : 80% khách hàng mua sữa thì cũng mua bánh mì 30 % thì mua cả hai thứ .Trong đó
“mua sữa ” là tiền đề còn “mua bánh mì ” là kết luận của luật . Con số 30% là độ hỗ trợ
của luật còn 80% là độ tin cậy của luật.
Chúng ta nhận thấy rằng tri thức đem lại bởi luật kết hợp dạng trên có sự khác biệt rất
nhiều so với thông tin thu được từ các câu lệnh truy vấn dữ liệu thông thường như SQL.
Đó là những tri thức, những mối liên hệ chưa biết trước và mang tính dự báo đang tiềm ẩn
trong dữ liệu. Những tri thức này không đơn giản là kết quả của phép nhóm , tính tổng hay
sắp xếp mà là của một quá trình tính toán khá phức tạp.
Định nghĩa 4: Nếu tập X có support(X )> minsup thì X gọi là tập phổ biến ( Frequent
itemset ). Kí hiệu các tập này là FI
Định nghĩa 5: Một tập mục X được gọi là đóng (closed) nếu không có một tập cha nào
của X có cùng độ hỗ trợ với nó, tức là không tồn tại một tập mục X’ nào mà X’⊃X và t(X)
= t(X’) (với t(X), t(X’) tương ứng là tập các giao tác chứa tập mục X và X’). Ký hiệu tập
phổ biến đóng là FCI.
Định nghĩa 6 : Nếu X là phổ biến và không tập cha nào của X là phổ biến, ta nói rằng X
là một tập phổ biến lớn nhất (maximally frequent itemset). Ký hiệu tập tất cả các tập phổ
biến lớn nhất là MFI . Dễ thấy MFI ⊆ FCI ⊆ FI.
Quá trình tìm các luật kết hợp thường gồm 2 pha:
GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 17
Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori
Pha 1: Tìm tất cả các tập phổ biến (tìm FI) trong cơ sở dữ liệu T.
Pha 2: Sử dụng tập FI tìm được ở pha 1 để sinh ra các luật tin cậy (interesting rules).
Trong thực tế, hầu hết thời gian của quá trình khai thác luật kết hợp là thực hiện ở
pha 1.Nhưng khi có những mẫu rất dài (mẫu chứa nhiều mục) xuất hiện trong dữ liệu, việc
sinh ra toàn bộ các tập phổ biến ( FI ) hay các tập đóng (FCI ) là không thực tế. Hơn nữa,

có nhiều ứng dụng mà chỉ cần sinh tập phổ biến lớn nhất( MFI ) là đủ, như khám phá mẫu
tổ hợp trong các ứng dụng sinh học.
Có rất nhiều nghiên cứu về các phương pháp sinh tất cả các tập phổ biến và tập phổ
biến lớn nhất một cách có hiệu quả. Khi các mẫu phổ biến (frequent pattern) dài (có từ 15
đến 20 items ) thì tập FI ,thậm chí cả tập FCI trở nên rất lớn và hầu hết các phương pháp
truyền thống phải đếm quá nhiều tập mục mới có thể thực hiện được. Các thuật toán dựa
trên thuật toán Apriori - đếm tất cả 2
k
tập con của mỗi k- itemsets mà chúng quét qua, và
do đó không thích hợp với các itemsets dài được. Các phương pháp khác sử dụng “
lookaheads ” để giảm số lượng tập mục được đếm. Tuy nhiên, hầu hết các thuật toán này
đều sử dụng tìm kiếm theo chiều rộng, ví dụ: tìm tất cả các k – itemsets trước khi tính đến
các (k+1) – itemsets . Cách làm này làm hạn chế hiệu quả của lookaheads, vì các mẫu phổ
biến dài hơn mà hữu ích vẫn chưa được tìm ra.
2.2 Một số tính chất của tập mục phổ biến và luật kết hợp
2.2.1 Một số tính chất với tập mục phổ biến
Giả sử A và B là các tập mục phổ biến, các tính chất của tập mục phổ biến như sau:
 Tính chất 1 : Nếu A
⊆
B thì supp(A) ≥ supp(B).
Vì tất cả các tác vụ trong D hỗ trợ B thì cũng hỗ trợ A.
 Tính chất 2: Một tập chứa một tập không phổ biến thì cũng là tập không phổ biến
(nếu A không phổ biến thì B cũng không phổ biến).
Chứng minh: Nếu A
⊆
B thì supp(A) ≥ supp(B) (theo tính chất 1) mà
supp(A)<minsupp thì supp(B)<minsupp.
GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 18
Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori
 Tính chất 3: Các tập con của một tập phổ biến cũng là tập phổ biến (nếu A là tập

phổ biến thì B cũng là tập phổ biến)
Nếu B là tập phổ biến trong D tức: supp(B) > minsup. Khi đó mọi tập con A của B cũng là
phổ biến trong D vì supp(A) ≥ ( supp(B) ≥ minsup (theo tính chất 1). Trường hợp đặc biệt,
nếu tập A={i1,i2, , ik} là tập phổ biến thì mọi tập con có (k-1) mục của nó cũng là phổ
biến. Lưu ý ngược lại là không đúng.
2.2.2 Một số tính chất với luật kết hợp
 Tính chất 1 : Không hợp các luật kết hợp.
Nếu X ⇒ Z và Y⇒ Z trong D thì không nhất thiết (X∪Y)⇒ Z là đúng.
Xét trường hợp X∩Y=∅ và các tác vụ trong D hỗ trợ Z nếu chỉ nếu chúng hỗ trợ mỗi
X hoặc Y, khi đó luật X∪Y⇒ Z có độ tin cậy là 0%.
Tương tự: X ⇒ Y và X ⇒ Z thì không nhất thiết X ⇒Y ∪ Z
 Tính chất 2 : Không tách luật.
Nếu X ∪ Y⇒Z thì X ⇒Y và Y ⇒ Z chưa chắc xảy ra. Nhưng nếu X ⇒Y ∪ Z thì kéo
theo X
⇒
Y
∩
X
⇒
Z
Ví dụ: Trường hợp Z có mặt trong một tác vụ chỉ khi cả hai X và Y cũng có mặt, tức là
supp(X∪Y)=supp(Z). Nếu độ hỗ trợ của X và Y đủ lớn hơn supp(X∪Y) hay
supp(X)>supp(X∪Y) và supp(Y)>supp(X∪Y) thì hai luật riêng biệt sẽ không đủ độ
tin cậy
Tuy nhiên, đảo lại: X → Y ∪ Z ⇒ X → Y ∧ X → Z
 Tính chất 3 : Các luật kết hợp không có tính chất bắc cầu.
Nếu X → Y và Y → Z chúng ta không thể suy ra X →Z.
Ví dụ: Giả sử T(X)⊂(T(Y)⊂(T(Z) tương ứng là tập các tác vụ chứa X,Y,Z và độ tin cậy
cực tiểu là minconf, conf(X→Y)=conf(Y→Z)=minconf
thế thì: conf(X→Z)=minconf

2
<minconf vì minconf<1, do đó luật X→Z không đủ độ
tin cậy.
GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 19
Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori
Tính chất 4:
Nếu luật A→(L-A) không thỏa mãn độ tin cậy cực tiểu thì luật B→(L-B) cũng không
thỏa mãn, với các tập mục L,B,A và B⊆A⊆L.
Vì supp(B)≥(supp(A) (Theo tính chất 1 và định nghĩa độ tin cậy, chúng ta nhận
được:
conf
Ap
Lp
Bp
Lp
BLBconf min
)(sup
)(sup
)(sup
)(sup
))((
<≤=−→
Cũng như vậy: Nếu có luật (L-C)→C thì ta cũng có luật (L-D)→D, với D ⊆C và D≠∅.
Vì D ⊆ C nên (L-D) ⊇ (L-C), do đó supp(L-D) ≤ supp(L-C)
conf
CLp
Lp
DLp
Lp
min

)(sup
)(sup
)(sup
)(sup
≥
−
≥
−
⇒
Tức là: conf((L-D)→D ≥ conf((L- C) → C) ≥ minconf.
2.3 Thuật toán Apriori
2.3.1 Giới thiệu
Apriori là thuật toán được Rakesh Agrawal, Tomasz Imielinski, Arun Swami đề
xuất lần đầu vào năm 1993. Bài toán được phát biểu: Tìm t có độ hỗ trợ s thỏa mãn s ≥ s
0
và độ tin cậy c ≥ c
0
(s
0
, c
0
là hai ngưỡng do người dùng xác định và s
0
=minsupp, c
0
=minconf) . Ký hiệu L
k
tập các tập k - mục phổ biến, C
k
tập các tập k-mục ứng viên.

Bài toán đặt ra là:
1) Tìm tất cả các tập mục phổ biến với minsupp nào đó.
2) Sử dụng các tập mục phổ biến để sinh ra các luật kết hợp với độ tin cậy minconf
nào đó.
2.3.2 Nguyên tắc
– Đếm số lượng của từng Item, tìm các Item xuất hiện nhiều nhất.
– Tìm các cặp ứng viên: Đếm các cặp => cặp item xuất hiện nhiều nhất.
– Tìm các bộ ba ứng viên: Đếm các bộ ba => bộ ba item xuất hiện nhiều nhất. Và tiếp
tục với bộ 4, bộ 5, …
GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 20
Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori
– Nguyên tắc chủ yếu: Mọi tập con của tập phổ biến phải là tập con phổ biến.
2.3.3 Mô tả thuật toán
– Bước 1: Đếm số support cho mỗi tập gồm một phần tử và xem chúng như một
Large itemset. Support của chúng là minsup.
– Bước 2: Với mỗi tập Large item bổ sung các item vào và tạo một Large itemset
mới, tập này được gọi là tập ứng viên (Candidate itemset - C). Đếm số support cho
mỗi tập C trên cơ sở dữ liệu, từ đó quyết định tập C nào là Large Item thực sự, và ta
dùng làm hạt giống cho bước kế tiếp.
– Bước 3: Lặp lại bước 2 cho đến khi không còn tìm thấy thêm, một tập Large
itemset nữa.
2.3.4 Mã giả
Input: Tập các giao dịch D, ngưỡng support tối thiểu minsup
Output: L- tập mục phổ biến trong D
Method:
1. L
1
=Large_1_ItemSets()
2.
for (k=2; L

k-1
≠ ∅; k++) do
3. begin
4. C
k
=apriori-gen(L
k-1
)
;
5. for (mỗi một giao dịch T
∈
D) do
6. begin
7. C
T
= subset(C
k
, T);
8. for (mỗi một ứng cử viên c
∈
C
T
) do
9. c.count++;
10. end;
11.
L
k
= {c ∈ C
k

| c.count ≥ minsup}
12. end;
13.
return ∪
k
L
k
– Hàm Large_1_ItemSets() trả về các Item có số support lớn hơn hay bằng minsup.
1.
for all transaction t ∈ D do
2.
for all item i ∈ t do
3. i.count ++;
4.
L1={i | i.count ≥ minsup};
– Hàm Apriori_Gen (L
k-1
) thực hiện việc kết các cặp (k-1) ItemSet để phát sinh các
tập k_ItemSet mới. Tham số của hàm là L
k-1
– tập tất cả các (k-1)-ItemSet và kết quả
trả về của hàm là tập các k-ItemSet.
GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 21
Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori
1. Join L
k-1
with L
k-1
;
2. Insert into C

k
3. select p.item
1
,p.item
2
, . . .p.item
k-1
, q.item
k-1
4. from L
k-1
as p, L
k-1
as q;
5.
where (p.item
1
= q.item
1
)∧ ∧(p.item
k-2
= q.item
k-2
)∧(p.item
k-1
<q.item
k-1
);
Điều kiện (p.item
k-1

<q.item
k-1
) sẽ bảo đảm không phát sinh các bộ trùng
nhau.
2.3.5 Ví dụ minh họa
2.3.5.1 Ví dụ 1
Cho cơ sở dữ liệu chi tiết hóa đơn bán hàng trong 1 siêu thị như bảng sau:
TID Các món hàng được mua (Items)
1
{ b, m, t, y }
2
{ b, m }
3
{ p, s, t }
4
{ a, b, c, d }
5
{ a, b }
6
{ e, t, y }
7
{ a, b, m }
Hãy tìm luật kết hợp cho Min Support = 40%, Min Confidence = 70%
Tính tập Large 1-item, ta có F1: {{a}, {b}, {m}, {t}}
Tập Items Số lần xuất hiện
{a}
3/7
{b}
5/7
{c} 1/7

{d}
1/7
{e}
1/7
{m}
3/7
{p}
1/7
{t}
3/7
{s}
1/7
{y}
2/7
Từ F1 trên ta có tập C2 gồm các cặp 2-item:
{{a, b}, {a, m}, {a,t}, {b,m}, {b,t}, {m,t}}
Tính tập Large 2-item, ta có F2: {{a,b}, {b,m}}
GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 22
Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori
Tập Items Số lần xuất hiện
{a, b}
3/7
{a, m}
1/7
{a, t}
0/7
{b, m}
3/7
{b, t}
1/7

{m, t}
1/7
Chỉ lấy các cặp 2-items có Support > Min Support ( = 40% ) gồm: {a, b} và {b, m}
Từ F2 trên ta có tập C3 gồm các cặp 3-item:
{{a, b,m}}
Tính tập Large 3-item, ta có F3: ∅
Tập Items Số lần xuất hiện
{a, b, m}
1/7
Vì C3 không còn tập thỏa điều kiện minsup nên C3 thực sự =∅
Thuật toán kết thúc.
Xây dựng các tập luật:
a → b có độ Confidence 3/3 = 100%
b → a có độ Confidence 3/5 = 60%
b → m có độ Confidence 3/5 = 60%
m → b có độ Confidence 3/3 = 100%
Từ các tập luật ta có các luật thỏa minconf=70%
a → b m → b
2.3.5.2 Ví dụ 1
Cho cơ sở dữ liệu chi tiết hóa đơn bán hàng trong 1 siêu thị như bảng sau:
Máy lạnh Máy giặt
Tủ
lạnh
Tivi
Xe
máy
Máy ảnh Máy tính Xe hơi
x x
x x
x

x
x
GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 23
Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori
x
Hãy tìm luật kết hợp cho Min Support = 50%, Min Confidence = 80%
Cho cơ sở dữ liệu chi tiết hóa đơn bán hàng trong 1 siêu thị như bảng sau:
Tính tập Large 1-item, ta có F1: {{ "Máy giặt "}, {"Tivi"}, {"Xe máy"}, {Máy tính}}
Tập Items Số lần xuất hiện
{Máy giặt} 6/9
{Tivi} 9/9
{Xe máy} 5/9
{Máy tính} 5/9
Từ F1 trên ta có tập C2 gồm các cặp 2-item:
{{Máy giặt, ti vi}, {Máy giặt, xe máy}, {Máy giặt, máy tính}, {Tivi, xe máy},
{Tivi, máy tính}, {Xe máy, máy tính}}
Tính tập Large 2-item, ta có F2: {{Máy giặt, ti vi}, {Tivi, xe máy}, {Tivi, máy tính}}
Tập Items Số lần xuất hiện
{Máy giặt, Tivi} 6/9
{Tivi, xe máy} 5/9
{Tivi, máy tính} 5/9
Từ F2 trên ta có tập C3 gồm các cặp 3-item:
{{Tivi, máy giặt, xe máy}, {Tivi, xe máy, máy tính}, {Tivi, máy giặt, máy tính},
{Máy giặt, xe máy, máy tính}}
Vì C3 không còn tập thỏa điều kiện minsup nên C3 thực sự =∅
Thuật toán kết thúc.
Xây dựng các tập luật:
(R0) "Máy giặt" -> "Ti vi" ; Conf=1
(R1) "Xe máy" -> "Ti vi" ; Conf=1
(R2) "Máy tính" -> "Ti vi" ; Conf=1

Các luật thỏa điều kiện minconf=80%
(R0) "Máy giặt" -> "Ti vi" ; Conf=1
(R1) "Xe máy" -> "Ti vi" ; Conf=1
(R2) "Máy tính" -> "Ti vi" ; Conf=1
GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 24
Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori
GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 25

Tiểu luận môn CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về