Tải bản đầy đủ (.docx) (88 trang)

Luật kết hợp âm dương và ứng dụng trong công tác bình ổn giá

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.18 MB, 88 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
--------------------------

NGUYỄN HỮU HOÀNG

LUẬT KẾT HỢP ÂM DƯƠNG VÀ ỨNG DỤNG TRONG
CÔNG TÁC BÌNH ỔN GIÁ

LUẬN VĂN THẠC SĨ

Hà Nội - 2011


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
--------------o0o------------

NGUYỄN HỮU HOÀNG

LUẬT KẾT HỢP ÂM DƯƠNG VÀ ỨNG DỤNG TRONG
CÔNG TÁC BÌNH ỔN GIÁ

Ngành: Công nghệ Thông tin
Chuyên ngành: Hệ thống thông tin
Mã số:

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. ĐỖ VĂN THÀNH


2
Hà Nội - 2011


Chương 1

Giới thiệu lu
1.1

Lời mở đầu ................................................

1.2

Tổng quan về luật kết hợp ........................

1.2.1 Khái niệm luậ

1.2.2 Giải thuật Ap

1.3 Luật kết hợp mẫu âm ..................................

1.3.1 Khái niệm luậ

1.3.2 Các giai đoạn

1.3.3 Thuật toán ph

1.4 Kết luận chương ..........................................
Chương 2


Xác định bài
2.1

Bài toán .....................................................

2.2 Quá trình thu thập số liệu ...........................

2.2.1 Nhóm dân sin

2.2.2 Nhóm nhập k

2.2.3 Nhóm xuất kh

2.2.4 Nhóm các mặ

2.3 Phần mềm sử dụng để phát hiện luật kết h

2.3.1 Giới thiệu ph
2.3.2 Xử lý file dữ

2.3.3 Xác định luật

3


2.4

Kết luận chương ..........................

Chương 3 Phát hiện mối quan hệ về sự biến động giá của các mặt hàng dân sinh ...

3.1

Mở đầu chương ............................

3.2

Chuyển đổi biểu diễn dữ liệu ......

3.2.1

Bước 1

3.2.2

Bước 2

3.2.3

Bước 3

3.3

Thực hiện chạy phần mềm CBA đ

3.4

Xác định mối quan hệ giá bằng p

3.4.1
giá, giữ nguyên giá. ............................................................................................


Luật kế

3.4.2
giá

Luật kế
………

3.4.3

Luật kế

3.4.4
khẩu : …………………………………………………………...........................58

Luật kế

3.4.5
trên thế giới ........................................................................................................

Luật kế

3.5

Kết luận chương ..........................

Kết luận

.......................................................


Tài liệu tham khảo .....................................................................................................
Phụ lục.........................................................................................................................

Phụ lục 1: Danh sách mặt hàng .............................................................................
Phụ lục 2: Kết quả các luật phát hiện được ............................................................

4


DANH MỤC
CSDL

Cơ sở dữ liệu

CNTT

Công nghệ thông tin

NK

Nhập khẩu

XK

Xuất khẩu

KT-XH

Kinh tế xã hội


DM

Data Mining (Khai phá dữ

CPI

Consumer Price Index (Chỉ

AI

Artificial Intelligence (Trí t

DSS

Decision Suport System (H

5


MỞ ĐẦU
Trong những năm gần đây đã chứng kiến giá cả nhiều mặt hàng thiết yếu của đời
sống dân sinh, nhiều mặt hàng xuất, nhập khẩu chủ đạo của nền kinh tế tăng rất cao.
Việc biến động giá và lạm phát xẩy ra do rất nhiều nguyên nhân, có thể cung không
đáp ứng đủ cầu; cũng có thể là do chi phí sản xuất của các doanh nghiệp bị đẩy lên;
cũng có thể do đầu cơ, lợi dụng những kẽ hở, các cơ hội để tăng giá kiếm lời cao; cũng
có thể do giá nhập khẩu của một số nguyên liệu quan trọng của nền kinh tế tăng cao;
cũng có thể thiên tai, bão lụt, dịch bệnh gây ra; cũng có thể do yêu cầu tiêu dùng hàng
hoá và dịch vụ của xã hội đã thay đổi hay do tác động của môi trường kinh tế, chính trị
quốc tế… và sự biến động ấy có thể thay đổi rất nhanh, thậm chí hàng ngày; và ở

những địa bàn khác nhau có thể cũng có mức độ thay đổi khác nhau.
Thời gian qua Chính phủ đã thực hiện nhiều giải pháp để bình ổn giá và kìm chế
lạm phát, các giải pháp này là rất đúng về lý thuyết kinh tế, tuy nhiên tác động của
chúng lại không đạt được như mong muốn. Một trong những nguyên nhân của tình
trạng này là chưa định lượng được tác động thực sự của các mặt hàng, mỗi khi có sự
biến đổi giá cả.
Đề tài này nằm trong hướng góp phần xác định nguyên nhân nhằm phục vụ đề
xuất giải pháp bình ổn giá và kìm chế lạm phát đang tăng cao ở nước ta. Cụ thể đề tài
tập trung nghiên cứu quan hệ nhân quả và tình hình biến động giá cả của các mặt hàng
xuất, nhập khẩu chủ đạo và những sản phẩm thiết yếu của đời sống dân sinh ở nước ta.
Đồng thời kết quả của luận văn làm có thể làm nền tàng để xây dựng mô hình dự báo
giá đã và đang được áp dụng tại bộ công thương.
Đề tài được nghiên cứu dựa trên luật kết hợp (một trong những những kỹ thuật
rất quan trọng của khai phá dữ liệu - data mining).
Nội dung chính của luận văn được chia thành ba chương như sau:

6


Chương 1: Giới thiệu luật kết hợp, luật kết hợp mẫu âm.
Chương 2: Xác định bài toán ứng dụng phát hiện luật kết hợp mẫu âm.
Chương 3: Phát hiện luật kết hợp mẫu âm.
Cuối cùng, phần kết luận trình bày một số kết quả đạt được của luận văn và hướng
nghiên cứu tiếp theo trong tương lai.

7


Chương 1 Giới thiệu luật kết hợp, luật kết hợp mẫu âm
1.1 Lời mở đầu

Trong các giao dịch mua bán, chúng ta nhận thấy rằng chủng loại các mặt hàng là
rất lớn và số lượng giao dịch có chứa đồng thời một số mặt hàng xác định chiếm một tỉ
lệ đáng quan tâm. Trên thực tế chúng ta không biết người mua là ai, do đó vấn đề đặt
ra là sự trùng lặp đó có ngẫu nhiên hay có một qui luật cũng như một căn cứ nào hay
không? Đó là tiền đề cho sự ra đời của luật kết hợp.

1.2 Tổng quan về luật kết hợp
1.2.1 Khái niệm luật kết hợp
1.2.1.1 Định nghĩa
Để đơn giản hóa, chúng ta có thể hiểu luật kết hợp như sau: luật kết hợp là luật chỉ ra
mối quan hệ của hai hay nhiều đối tượng (đối tượng chúng ta đang xét ở đây là các mặt
hàng).
Cấu trúc của luật như sau: A=>B (sup, conf). Có nghĩa là luật có A thì kéo theo B với
độ hỗ trợ sup và độ tin cậy conf.
Trong đó:
-

sup= support (độ hỗ trợ): là tỉ lệ giao dịch chứa cả hai mặt hàng A và B trên

tổng số giao dịch.
-

conf= confidence (độ tin cậy): là tỉ lệ giao dịch chứa mặt hàng B trong các

giao dịch chứa mặt hàng A.
Nếu nhìn nhận luật kết hợp theo lý thuyết tập hợp thì chúng ta có thể định nghĩa như
sau:
8



Cho một tập I = { I 1, I2,…, Im } các tập m mục, một giao dịch T được định nghĩa như
một tập con của các khoản mục trong I (T I).
Gọi D là CSDL của n giao dịch và mỗi giao dịch được đánh nhãn với một định danh
duy nhất.
Nói rằng, một giao dịch T D hỗ trợ một tập X I nếu nó chứa tất cả các mục của tập X,
điều này có nghĩa là X T, trong một số trường hợp người ta dùng ký hiệu T(X) để chỉ
tập các giao dịch hỗ trợ cho X. Kí hiệu support(X) (hoặc sup(X), s(X)) là tỷ lệ phần
trăm của các giao dịch hỗ trợ X trên tổng các giao dịch trong D, nghĩa là:

sup(X)=
Độ hỗ trợ tối thiểu minsup là một giá trị cho trước bởi người sử dụng. Nếu tập mục X
có sup(X) minsup thì ta nói X là một tập các mục phổ biến. Các phần sau sẽ sử dụng
những cụm từ khác như “X có độ hỗ trợ tối thiểu”, hay “X không có độ hỗ trợ tối
thiểu” cũng để nói lên rằng X thỏa mãn hay không thỏa mãn support(X) minsup.
Một luật kết hợp có dạng R: X => Y, trong đó X, Y là tập các mục; X, Y

I và X

Y

=
. Luật X => Y tồn tại một độ tin cậy c . Độ tin cậy c được định nghĩa là khả
năng
giao dịch T hỗ trợ X thì cũng hỗ trợ Y. Công thức để xác định độ tin cậy c như sau:

conf(X =>Y) = p(Y I | X I ) =

Qua định nghĩa trên cho thấy quá trình khai phá luật kết hợp phải được thực hiện thông
qua hai bước:


9


Bước 1: Tìm tất cả các tập mục mà có độ hỗ trợ lớn hơn độ hỗ trợ tối thiểu do
người dùng xác định. Các tập mục thoả mãn độ hỗ trợ tối thiểu được gọi là các tập
mục phổ biến.
Bước 2: Dùng các tập mục phổ biến để sinh ra các luật mong muốn. Ý tưởng
chung là nếu gọi ABCD và AB là các tập mục phổ biến, thì chúng ta có thể xác định
luật nếu AB => CD giữ lại với tỷ lệ độ tin cậy:

(3)

Nếu conf ≥ minconf thì luật được giữ lại (luật này sẽ thoả mãn độ hỗ trợ tối
thiểu vì ABCD là phổ biến).
1.2.1.2 Ý nghĩa
Một ứng dụng quan trọng của luật kết hợp là phân tích thị trường. Đó là việc phân tích
thói quen mua hàng của khách để tìm sự kết hợp giữa các mặt hàng khác nhau trong
một lần mua hàng của họ.
Thực tế, trong mỗi lần mua hàng tại siêu thị nếu khách hàng mua bánh mì, thường thì
họ sẽ mua sữa. Hoặc trong những lần người mua hàng mua máy tính xách tay thì sẽ
không mua máy tính để bàn…Thông tin như thế có thể chỉ dẫn người bán lựa chọn mặt
hàng để sắp xếp chúng trên giá hàng, người bán có thể đặt sữa và bánh mì trong phạm
vi gần kề để gây tác động tích cực tới việc mua của khách cho cả hai mặt hàng này.
Việc nhận ra những mặt hàng nào thường được mua cùng nhau, còn những mặt hàng
nào thường không được mua cùng nhau giúp người bán hàng có thể bán được nhiều
hàng hơn do đó tăng doanh thu.
Khai thác luật kết hợp nhằm tìm ra những mối liên kết đáng quan tâm hoặc những
quan hệ tương quan trong một tập lớn các đối tượng. Trong giao dịch thương mại

10



khám phá mối quan hệ trong số lượng lớn các giao dịch có thể giúp nhiều nhà kinh
doanh xử lí giải quyết các vấn đề như: thiết kế catalog để quảng cáo như thế nào?
1.2.2 Giải thuật Apriori để sinh các luật kết hợp.
Để hình dung rõ hơn các giai đoạn trong quá trình phát hiện luật kết hợp, chúng ta sẽ
xem xét giải thuật Apriori phát hiện luật kết hợp từ cơ sở dữ liệu tác vụ.
1.2.2.1 Tư tưởng chính của thuật toán Apriori
a.

Tìm tất cả các tập phổ biến (frequent itemsets):

-

k-itemset (itemsets gồm k items) được dùng để tìm (k+1)- itemset.

-

Đầu tiên tìm 1-itemset (ký hiệu L1). L1 được dùng để tìm L2 (2-itemsets).

L2 được dùng để tìm L3 (3-itemset) và tiếp tục cho đến khi không có k-itemset
được tìm thấy.
b.

Từ tất cả các tập phổ biến sinh ra các luật kết hợp mạnh (các luật kết hợp

thỏa mãn 2 tham số min_sup và min_conf)
1.2.2.2 Giải thuật Apriori
a. Duyệt (Scan) toàn bộ cơ sở dữ liệu giao dịch để có được độ hỗ trợ
(support) S

của 1-itemset, so sánh S với độ hỗ trợ tối thiểu min_sup, để có được 1-itemset
(L1)
b.

Sử dụng Lk-1 nối (join) Lk-1 để sinh ra candidate k-itemset. Loại bỏ các

itemsets không phải là tập phổ biến thu được k-itemset ( bước cắt tỉa)
c. Tiếp tục duyệt cơ sở dữ liệu giao dịch để có được độ hỗ trợ S của mỗi
candidate k-itemset, so sánh S với min_sup để thu được tập phổ biến k –itemset
(Lk)


11


d.

Lặp lại từ bước 2 cho đến khi Candidate set (C) trống (không tìm thấy tập

phổ biến)
e.

Với mỗi tập phổ biến I, sinh tất cả các tập con s không rỗng của I

f.

Với mỗi tập con s không rỗng của I, sinh ra các luật s => (I-s) nếu độ tin

cậy (Confidence) của nó > =min_conf
1.2.2.3 Ví dụ minh họa

Giả sử có cơ sở dữ liệu giao dịch bán hàng gồm 5 giao dịch như sau:

Tid
1
2
3
4
5

Thuật toán Apriori tìm các luật kết hợp trong giao dịch bán hàng trên như sau:
Bước 1:
min-sup = 40% (2/5)
C1
Itemsets
Beer
Diaper
Baby Powder
Bread
Umbrella
Milk
Detergent

Beer, Diaper, B
Diaper, Baby P
Beer, Diaper, M
Diaper, Beer, D
Beer, Milk, Co


Coca-Cola


13


Bước 2:

L2
Itemsets

C2
Itemsets

Beer, Diaper
Beer, Milk
Diaper, Baby Powder

Beer, Diaper
Beer, Baby Powder
Beer, Milk
Diaper, Baby
Powder
Diaper, Milk
Baby Powder, Milk
Bước 3:
C3 (min-sup =40%)
Itemsets

L3

Support


Itemsets

Beer, Diaper, Milk

Support

Empty (Stop)

Beer, Diaper, Baby Powder
Diaper, Milk, Baby Powder
Bear, Milk, Baby Powder
Bước 4: min-sup=40%, min_conf=70%
Itemsets
Beer, Diaper
Diaper, Beer
Beer, Milk
Milk, Beer
Diaper, Baby Powder
Baby Powder, Diaper

Kết quả ta có các luật kết hợp sau (với min_sup= 40%, min_conf=70%)
R1: Beer => Diaper (support =60%, confidence = 75%)
14


R2: Diaper =>Beer (support =60%,confidence = 75%)
R3: Milk =>Beer (support =40%, confidence = 100%)
R4: Baby Powder => Diaper (support =40%,confidence = 100%)
Từ kết quả các luật được sinh ra bởi giao dịch bán hàng trên, ta thấy rằng có luật có thể

tin được (hợp lý) như Baby Powder => Diaper, có luật cần phải phân tích thêm như Milk
=>Beer và có luật có vẻ khó tin như Diaper =>Beer.
Ví dụ này sinh ra các luật có thể không thực tế vì dữ liệu dùng để phân tích
(transaction database) hay còn gọi là tranining data rất nhỏ.

1.3 Luật kết hợp mẫu âm
1.3.1 Khái niệm luật kết hợp mẫu âm
1.3.1.1 Đặt vấn đề
Trước khi xem xét khái niệm về luật kết hợp mẫu âm, chúng ta xem xét một ví dụ cụ
thể dưới đây :
-

Bảng dưới là thông tin về các khách hàng mua sắm phương tiện giao thông :

15


-

Với giả thiết :
o

Giả thiết 1 : độ hỗ trợ tối thiểu (minsup) là 30%, độ tin cậy

(minconf) là 70%.
o

Giả thiết 2 : thuộc tính tuổi được phân ra làm 2 nhóm trên 30 và

dưới 30 tuổi.

-

Với thông tin và hai giả thiết trên ta có được các tập phổ biến :
Item sets
Age<30
Age>30
Coupe
Sedan

16


Truck
Van
Age<30, Coupe
Age>30, Not Purchase
Coupe

- Qua bảng trên cho thấy :
o

Luật „Age<30  Coupe‟ có độ tin cậy là 75%

o

Tuy nhiên nếu chúng ta xem xét dưới góc độ khác thì luật „Age>30



Not purchar Coupe‟ (những người trên 30 tuổi sẽ không sử dụng

phương tiện Coupe) có độ tin cậy là 83.33% cũng rất được quan tâm
o Luật „Age>30
hợp mẫu âm.



Not purchar Coupe‟ sau này được gọi là luật kết

Qua ví dụ trên cho thấy, ý nghĩa thực tế của luật kết hợp mẫu âm cũng quan trọng
không kém luật kết hợp dương.
Tuy nhiên việc sinh luật kết hợp mẫu âm gặp hai vấn đề khó khăn :
-

Thứ nhất : chúng ta không dễ dàng chọn được giá trị ngưỡng minsup và

minconf để đảm bảo phù hợp cho cả luật kết hợp âm và luật kết hợp dương.
-

Thứ hai : trong một cơ sở dữ liệu thực tế có hàng ngàn mục. Mà trong các

giao dịch nhiều mục lại không xuất hiện hoặc xuất hiện rất ít.

17


1.3.1.2 Định nghĩa luật kết hợp mẫu âm
Chúng ta định nghĩa một cách tổng quát các luật kết hợp mẫu âm, là một luật mà chứa
một phủ định của một mục (tức là một luật mà nguồn gốc hay kết quả của nó có thể
được thành lập bởi sự kết hợp giữa sự có mặt và vắng mặt của các điều kiện). Một ví
dụ cho sự kết hợp này như sau:


Cụ thể hơn, chúng ta có thể xem xét khái niệm luật kết hợp mẫu âm dưới hình thức tập
hợp như sau :
Giả sử I = i1, i2,…, ij, ..., in , một giao dịch T được định nghĩa như một tập con của các
khoản mục trong I (T I).
Gọi D là CSDL của n giao dịch và mỗi giao dịch được đánh nhãn với một định danh
duy nhất. Nói rằng, một giao dịch T D hỗ trợ một tập X I và một tập Y I nếu nó chứa
tất cả các item của X và Y .



Với luật kết hợp dương có dạng R: X Y, trong đó X, Y là tập các mục, X, Y
X
Y = . X được gọi là tiên đề và Y được gọi là hệ quả của luật.

I và



Với luật kết hợp mẫu âm sẽ có dạng R‟: X ¬Y.
Bây giờ chúng ta xem xét độ hỗ trợ và độ tin cậy trong luật kết hợp mẫu âm.



Luật kết hợp X ¬Y, có độ hỗ trợ s%, nếu có s% giao dịch trong T có mặt X, mà
không có mặt của mục Y.



Độ tin cậy, giả sử U là tập các giao dịch có mặt của X, luật kết hợp X ¬Y, có độ tin

cậy c%, nếu c% giao dịch trong trong U không có mặt mục Y.

18


Tương tự như cách tính độ tin cậy trong luật kết hợp dương, độ tin cậy trong luật kết
hợp âm có thể được tính như sau:



Conf(X ¬Y)=P(X ¬Y)/P(X)
Trong phần trước, chúng ta đã xem xét giải thuật xác định luật kết hợp dương, bằng
cách tính toán các mục xuất hiện trong các giao dịch. Tuy nhiên với luật kết hợp âm,
rất khó để xác định các mục không xuất hiện trong các giao dịch.
Bởi vậy, thay vì xác định các mục không xuất hiện trong các giao dịch, chúng ta tính
toán các mục xuất hiện trong các giao dịch, hay chính là chúng ta xác định luật kết hợp
âm thông qua luật kết hợp dương.





Với mỗi luật X Y, chúng ta xác định được độ hỗ trợ Supp(X Y) và độ tin cậy



Conf(X Y). Khi đó chúng ta xác định độ hỗ trợ và độ tin cậy của luật kết hợp mẫu âm




(X ¬Y) như sau:





Supp(X ¬Y) = Supp(X) - Supp(X Y)







Conf(X ¬Y) = Supp(X ¬Y)/ Supp(X) = (Supp(X) - Supp(X Y) )/Supp(X)



=1 - Conf(X Y)

(5)

1.3.2 Các giai đoạn phát hiện luật kết hợp mẫu âm
1.3.2.1 Đặt vấn đề
Do việc xác định luật kết hợp mẫu âm phải thông qua luật kết hợp dương, nếu chúng ta
để độ hỗ trợ và độ tin cậy nhỏ thì sẽ rất khó để xác định các luật kết hợp dương mong
muốn, bởi vậy chúng ta phải chấp nhận để độ hỗ trợ và độ tin cậy dương đủ lớn để dễ
cho việc xác định luật kết hợp dương và khi đó các luật kết hợp âm tìm thấy sẽ có độ
hỗ trợ và độ tin cậy thấp. Lúc này chúng ta phải chấp nhận một số kết quả tìm kiếm
được sẽ không như mong muốn. Việc loại bỏ các luật không như mong muốn này

19


chúng ta chỉ có thể sử dụng những miền tri thức trong kho dữ liệu để dự đoán và loại
bỏ chúng để cuối cùng có tập các luật kết hợp mẫu âm khả thi.

Chúng ta xem xét sự phân loại sau:

Giả sử T là tập các loại mặt hàng như hình trên, gồm các đỉnh và các cạnh. Mỗi đỉnh
biểu diễn một lớp (Hardware, Computers, Electronics,..), đỉnh mà không có đỉnh
con(hay có độ sâu bằng 0) thì được coi là các mặt hàng. Hai đỉnh được kết nối với
nhau thông qua một cạnh. Các đỉnh, cành này sẽ tạo ra một miền tri thức (domain
Knowledge).
Trong sự phân loại trên, có hai mối quan hệ quan trọng đó là quan hệ theo chiều dọc và
quan hệ theo chiểu ngang. Mối quan hệ theo chiều dọc là mối quan hệ cha – con, mối
quan hệ theo chiều ngang là mối quan hệ anh – em.
Chúng ta gọi mối quan hệ anh – em là mối quan hệ địa phương (Locality Of Similarity
– LOS). Các mục cùng LOS sẽ có xu hướng tham gia vào cùng một luật kết hợp. Ví dụ
trong một cơ sở dữ liệu bán lẻ, các mục cùng LOS sẽ có nhiều khả năng cùng được
tham gia vào các giao dịch của khách hàng. Do vậy trong quá trình bán hàng, người
bán hàng không đưa ra những tham khảo hợp lý thì người mua hàng rất khó có thể

20


chọn một món hàng mà họ muốn.Thay vào đó chúng ta có thể đưa ra một tham khảo
theo LOS, để khách hàng có thể chọn một số món hàng mà họ muốn.
Trong hình ví dụ trên, chúng ta để „IBM Aptiva‟ và „Compaq Deskpro‟ cùng cấp và
cùng thuộc dòng máy tính để bàn, khi đó khách hàng muốn mua máy tính để bàn có
thể xem máy IBM Aptive hay Compaq Deskpro, thay vì khách hàng phải loay hoay

với các loại như Notebook, Parks, Electronics…
Như vậy LOS có thể được hiểu như là quan hệ anh – em, được biểu diễn như sau
[„IBM Aptiva‟,„Compaq Deskpro‟]. Tuy nhiên LOS cũng có thể mở rộng trên cấp,
chẳng hạn chúng ta có thể đặt „IBM Aptiva‟, „Compaq Deskpro‟, Notebook, Parks
vào cùng một LOS khi chúng ta nhìn cơ sở dữ liệu ở tầm cao hơn (Computers).

Bây giờ chúng ta xem xét các luật liên quan tới LOS.
Với giả thiết:
a) Các tập X = { i1, i2,…, ih,…, im }, Y = { j1, j2,…, jl } và X, Y I, X Y =
h

I, ik

b)

X, thỏa mãn [ih , ik] và supp(ih) ≥ minsup, supp(ik) ≥ minsup.





Nếu (r: X Y) (luật r, tiền đề X, kết quả Y) thỏa mãn Supp(X Y) ≥minsup,



Conf(X Y) ≥minconf.



Thì khi đó cũng có một khả năng Conf(X‟ Y) ≥ minconf, trong đó X‟={ i1, i2,…, ik,

…, im }, cũng tương tự như X, ngoại trừ việc ih thay thế cho ik



Chúng ta gọi luật X‟ Y là r‟. Khi đó luật r và r‟ được gọi là luật anh em.

21


1.3.2.2 Quá trình phát hiện luật kết hợp mẫu âm
LOS sẽ cung cấp một số khả năng để xác định luật âm, giả sử i h,ik I, đều là thành viên
của một LOS, thỏa mãn [ih,ik]. Nếu luật r: XY đúng và ih X, khi đó sẽ sinh



được luật anh em r‟: X‟ Y, tuy nhiên nếu luật này không hỗ trợ, tức là Y không có
mối quan hệ với X‟ thì sự kết hợp âm có thể tồn tại.
Để phát hiện luật kết hợp mẫu âm, trước hết chúng ta xác định độ lệch giữa các
đội tin cậy như sau:

Trong đó conf(r’) là độ tin cậy của r‟ được tính toán theo công thức (4).
E(conf(r’)) là dự báo độ tin cậy của r‟, được định nghĩa bằng độ tin cậy của r dựa trên
các giả thiết tương tự.
Nếu giá trị SM lớn thì khi đó luật X‟



Y là sai, và khi đó luật X‟




¬Y đúng.

Từ cách lập luận trên cho thấy, với giá trị SM càng lớn thì càng cho thấy lượng thông
tin lớn. Đồng thời các ứng viên luật kết hợp âm tạo ra cũng phải đáp ứng cả hai tiêu
chí về độ hỗ trợ và độ tin cậy thì sẽ được giữ lại.

Trên thực tế để đủ điều kiện là một luật kết hợp âm thì phải thỏa mãn hai điều kiện:
-

Có độ lệch lớn giữa độ tin cậy thực tế và độ tin cậy dự báo

-

Có độ hỗ trợ và độ tin cậy lớn hơn cực tiểu.

22


Như vậy trong quá trình khai phá luật kết hợp mẫu âm, chúng ta có sử dụng quá trình
dự đoán, nên khi khai phá luật kết hợp mẫu âm sẽ có có một số luật không mong
muốn, và một trong những công việc quan trọng trong quá trình phát hiện luật kết hợp
mẫu âm là loại bỏ một số luật không mong muốn.

Một ví dụ về sự loại bỏ luật dư thừa, giả sử chúng ta có hai luật “Female






Buy Hat”

và luật “¬Male Buy Hat”. Trong miền thuộc tính về giới tính, giả sử chỉ có hai giá
trị Male và Female, như vậy ¬Male cũng là Female. Như vậy trong hai luật trên chỉ có
một luật được giữ lại.
Như vậy, quá trình khai phá luật kết hợp mẫu âm có thể chia làm 3 giai đoạn:
1.

Xác định một tập các luật kết hợp dương.

2.

Sinh các luật kết hợp âm dựa vào luật kết hợp dương đã có ở bước 1 và

miền tri thức đã có.
3.

Loại các luật dư thừa.

1.3.3 Thuật toán phát hiện luật kết hợp âm
Từ việc phân tích các giai đoạn trong quá trình phát hiện luật kết hợp âm ở trên, chúng
ta có thể xem xét giải thuật tìm kiếm luật kết hợp âm cụ thể như sau:
//Tìm tất cả các luật dương:
FreqSet1 = {frequent1 – itemsets};
k=2;

while (FreqSetk-1

)


for all trấnctions g

DataSet

23


CandidateSet1 = subset (CandidateSetk , g);
for all candidates c

CandidateSet1

c.count = c.count + 1;
endfor
endfor
FreqSetk = {c

CandidateSet1 | c.count ≥
minsup};

k = k + 1;
endwhile
// Sinh các luật dương với giải thuật Apriori
postiveRule = genRule(FreqSetk);

Rule = postiveRule;
//Sinh các luật âm:

Delete all items t from the taxonomy, t
For all rules r


FreqSet1

postiveRule

tmpRuleSets = genNegCand(r);
for all rules tr

tmpRuleSets

if SM(tr.conf, t.conf) > confDeviate

24


×