Tải bản đầy đủ (.pdf) (87 trang)

(Luận văn thạc sĩ) luật kết hợp âm dương và ứng dụng trong công tác bình ổn giá

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.7 MB, 87 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
--------------------------

NGUYỄN HỮU HỒNG

LUẬT KẾT HỢP ÂM DƯƠNG VÀ ỨNG DỤNG TRONG
CƠNG TÁC BÌNH ỔN GIÁ

LUẬN VĂN THẠC SĨ

Hà Nội - 2011


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
--------------o0o------------

NGUYỄN HỮU HỒNG

LUẬT KẾT HỢP ÂM DƯƠNG VÀ ỨNG DỤNG TRONG
CƠNG TÁC BÌNH ỔN GIÁ

Ngành: Cơng nghệ Thơng tin
Chun ngành: Hệ thống thông tin
Mã số:

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. ĐỖ VĂN THÀNH


2
Hà Nội - 2011


MỤC LỤC
Chương 1 Giới thiệu luật kết hợp, luật kết hợp mẫu âm ........................................ 8
1.1

Lời mở đầu ................................................................................................... 8

1.2

Tổng quan về luật kết hợp ............................................................................ 8

1.2.1

Khái niệm luật kết hợp ............................................................................. 8

1.2.2

Giải thuật Apriori để sinh các luật kết hợp. ............................................ 11

1.3

Luật kết hợp mẫu âm.................................................................................. 15

1.3.1

Khái niệm luật kết hợp mẫu âm .............................................................. 15


1.3.2

Các giai đoạn phát hiện luật kết hợp mẫu âm ......................................... 19

1.3.3

Thuật toán phát hiện luật kết hợp âm...................................................... 23

1.4

Kết luận chương ......................................................................................... 25

Chương 2

Xác định bài toán ứng dụng phát hiện luật kết hợp mẫu âm. ................... 26

2.1

Bài tốn ..........................................................Error! Bookmark not defined.

2.2

Q trình thu thập số liệu .......................................................................... 28

2.2.1

Nhóm dân sinh: ...................................................................................... 28

2.2.2


Nhóm nhập khẩu .................................................................................... 35

2.2.3

Nhóm xuất khẩu ..................................................................................... 37

2.2.4

Nhóm các mặt hàng cơ bản trên thế giới................................................. 38

2.3

Phần mềm sử dụng để phát hiện luật kết hợp - phần mềm CBA ............... 39

2.3.1

Giới thiệu phần mềm CBA ..................................................................... 39

2.3.2

Xử lý file dữ liệu để xác định luật kết hợp trong CBA ............................ 41

2.3.3

Xác định luật kết hợp trong CBA ........................................................... 42

3


2.4


Kết luận chương ......................................................................................... 46

Chương 3

Phát hiện mối quan hệ về sự biến động giá của các mặt hàng dân sinh ... 47

3.1

Mở đầu chương .......................................................................................... 47

3.2

Chuyển đổi biểu diễn dữ liệu ...................................................................... 47

3.2.1

Bước 1: đánh ký hiệu từng mặt hàng ...................................................... 47

3.2.2

Bước 2: đánh ký hiệu từng sự biến đổi giá của các mặt hàng .................. 51

3.2.3

Bước 3: chuyển toàn bộ dữ liệu đã đánh vào file *.tra ............................ 51

3.3

Thực hiện chạy phần mềm CBA để phát hiện luật kết hợp........................ 52


3.4

Xác định mối quan hệ giá bằng phát hiện luật kết hợp.............................. 53

3.4.1 Luật kết hợp của 120 mặt hàng với đầy đủ các trạng thái : tăng giá, giảm
giá, giữ nguyên giá. ............................................................................................ 53
3.4.2
giá

Luật kết hợp của 120 mặt hàng khi khơng tính đến trạng thái giữ nguyên
…………………………………………………………………………...54

3.4.3

Luật kết hợp theo cho nhóm mặt hàng dân sinh ...................................... 56

3.4.4 Luật kết hợp cho các mặt hàng dân sinh trong nước và các mặt hàng nhập
khẩu : …………………………………………………………...........................58
3.4.5 Luật kết hợp cho các mặt hàng nhập khẩu, xuất khẩu và một số mặt hàng
trên thế giới ........................................................................................................ 60
3.5

Kết luận chương ......................................................................................... 61

Kết luận ..................................................................................................................... 62
Tài liệu tham khảo ..................................................................................................... 63
Phụ lục......................................................................................................................... 1
Phụ lục 1: Danh sách mặt hàng ............................................................................. 1
Phụ lục 2: Kết quả các luật phát hiện được............................................................ 1


4


DANH MỤC CÁC CHỮ VIẾT TẮT
CSDL

Cơ sở dữ liệu

CNTT

Công nghệ thông tin

NK

Nhập khẩu

XK

Xuất khẩu

KT-XH Kinh tế xã hội
DM

Data Mining (Khai phá dữ liệu)

CPI

Consumer Price Index (Chỉ số giá tiêu dùng)


AI

Artificial Intelligence (Trí tuệ nhân tạo)

DSS

Decision Suport System (Hệ trợ giúp quyết định)

5


MỞ ĐẦU
Trong những năm gần đây đã chứng kiến giá cả nhiều mặt hàng thiết yếu của đời
sống dân sinh, nhiều mặt hàng xuất, nhập khẩu chủ đạo của nền kinh tế tăng rất cao.
Việc biến động giá và lạm phát xẩy ra do rất nhiều nguyên nhân, có thể cung khơng
đáp ứng đủ cầu; cũng có thể là do chi phí sản xuất của các doanh nghiệp bị đẩy lên;
cũng có thể do đầu cơ, lợi dụng những kẽ hở, các cơ hội để tăng giá kiếm lời cao; cũng
có thể do giá nhập khẩu của một số nguyên liệu quan trọng của nền kinh tế tăng cao;
cũng có thể thiên tai, bão lụt, dịch bệnh gây ra; cũng có thể do u cầu tiêu dùng hàng
hố và dịch vụ của xã hội đã thay đổi hay do tác động của mơi trường kinh tế, chính trị
quốc tế… và sự biến động ấy có thể thay đổi rất nhanh, thậm chí hàng ngày; và ở
những địa bàn khác nhau có thể cũng có mức độ thay đổi khác nhau.
Thời gian qua Chính phủ đã thực hiện nhiều giải pháp để bình ổn giá và kìm chế
lạm phát, các giải pháp này là rất đúng về lý thuyết kinh tế, tuy nhiên tác động của
chúng lại không đạt được như mong muốn. Một trong những nguyên nhân của tình
trạng này là chưa định lượng được tác động thực sự của các mặt hàng, mỗi khi có sự
biến đổi giá cả.
Đề tài này nằm trong hướng góp phần xác định nguyên nhân nhằm phục vụ đề
xuất giải pháp bình ổn giá và kìm chế lạm phát đang tăng cao ở nước ta. Cụ thể đề tài
tập trung nghiên cứu quan hệ nhân quả và tình hình biến động giá cả của các mặt hàng

xuất, nhập khẩu chủ đạo và những sản phẩm thiết yếu của đời sống dân sinh ở nước ta.
Đồng thời kết quả của luận văn làm có thể làm nền tàng để xây dựng mơ hình dự báo
giá đã và đang được áp dụng tại bộ công thương.
Đề tài được nghiên cứu dựa trên luật kết hợp (một trong những những kỹ thuật
rất quan trọng của khai phá dữ liệu - data mining).
Nội dung chính của luận văn được chia thành ba chương như sau:

6


Chương 1: Giới thiệu luật kết hợp, luật kết hợp mẫu âm.
Chương 2: Xác định bài toán ứng dụng phát hiện luật kết hợp mẫu âm.
Chương 3: Phát hiện luật kết hợp mẫu âm.
Cuối cùng, phần kết luận trình bày một số kết quả đạt được của luận văn và hướng
nghiên cứu tiếp theo trong tương lai.

7


Chương 1 Giới thiệu luật kết hợp, luật kết hợp mẫu âm
1.1 Lời mở đầu
Trong các giao dịch mua bán, chúng ta nhận thấy rằng chủng loại các mặt hàng là
rất lớn và số lượng giao dịch có chứa đồng thời một số mặt hàng xác định chiếm một tỉ
lệ đáng quan tâm. Trên thực tế chúng ta không biết người mua là ai, do đó vấn đề đặt
ra là sự trùng lặp đó có ngẫu nhiên hay có một qui luật cũng như một căn cứ nào hay
khơng? Đó là tiền đề cho sự ra đời của luật kết hợp.

1.2 Tổng quan về luật kết hợp
1.2.1 Khái niệm luật kết hợp
1.2.1.1 Định nghĩa

Để đơn giản hóa, chúng ta có thể hiểu luật kết hợp như sau: luật kết hợp là luật chỉ ra
mối quan hệ của hai hay nhiều đối tượng (đối tượng chúng ta đang xét ở đây là các
mặt hàng).
Cấu trúc của luật như sau: A=>B (sup, conf). Có nghĩa là luật có A thì kéo theo B với
độ hỗ trợ sup và độ tin cậy conf.
Trong đó:
-

sup= support (độ hỗ trợ): là tỉ lệ giao dịch chứa cả hai mặt hàng A và B trên
tổng số giao dịch.

-

conf= confidence (độ tin cậy): là tỉ lệ giao dịch chứa mặt hàng B trong các giao
dịch chứa mặt hàng A.

Nếu nhìn nhận luật kết hợp theo lý thuyết tập hợp thì chúng ta có thể định nghĩa như
sau:
8


Cho một tập I = { I1, I2,…, Im } các tập m mục, một giao dịch T được định nghĩa như
một tập con của các khoản mục trong I (T I).
Gọi D là CSDL của n giao dịch và mỗi giao dịch được đánh nhãn với một định danh
duy nhất.
Nói rằng, một giao dịch T

D hỗ trợ một tập X

tập X, điều này có nghĩa là X


I nếu nó chứa tất cả các mục của

T, trong một số trường hợp người ta dùng ký hiệu

T(X) để chỉ tập các giao dịch hỗ trợ cho X. Kí hiệu support(X) (hoặc sup(X), s(X)) là
tỷ lệ phần trăm của các giao dịch hỗ trợ X trên tổng các giao dịch trong D, nghĩa là:

sup(X)=

(1)

Độ hỗ trợ tối thiểu minsup là một giá trị cho trước bởi người sử dụng. Nếu tập mục X
có sup(X)

minsup thì ta nói X là một tập các mục phổ biến. Các phần sau sẽ sử dụng

những cụm từ khác như “X có độ hỗ trợ tối thiểu”, hay “X khơng có độ hỗ trợ tối
thiểu” cũng để nói lên rằng X thỏa mãn hay khơng thỏa mãn support(X)
Một luật kết hợp có dạng R: X => Y, trong đó X, Y là tập các mục; X, Y
=

minsup.
I và X

Y

. Luật X => Y tồn tại một độ tin cậy c . Độ tin cậy c được định nghĩa là khả năng

giao dịch T hỗ trợ X thì cũng hỗ trợ Y. Công thức để xác định độ tin cậy c như sau:


conf(X =>Y) = p(Y

I|X

I)=

(2)

Qua định nghĩa trên cho thấy quá trình khai phá luật kết hợp phải được thực hiện thông
qua hai bước:

9


Bước 1: Tìm tất cả các tập mục mà có độ hỗ trợ lớn hơn độ hỗ trợ tối thiểu do
người dùng xác định. Các tập mục thoả mãn độ hỗ trợ tối thiểu được gọi là các tập
mục phổ biến.
Bước 2: Dùng các tập mục phổ biến để sinh ra các luật mong muốn. Ý tưởng
chung là nếu gọi ABCD và AB là các tập mục phổ biến, thì chúng ta có thể xác định
luật nếu AB => CD giữ lại với tỷ lệ độ tin cậy:

(3)

Nếu conf ≥ minconf thì luật được giữ lại (luật này sẽ thoả mãn độ hỗ trợ tối
thiểu vì ABCD là phổ biến).
1.2.1.2 Ý nghĩa
Một ứng dụng quan trọng của luật kết hợp là phân tích thị trường. Đó là việc phân tích
thói quen mua hàng của khách để tìm sự kết hợp giữa các mặt hàng khác nhau trong
một lần mua hàng của họ.

Thực tế, trong mỗi lần mua hàng tại siêu thị nếu khách hàng mua bánh mì, thường thì
họ sẽ mua sữa. Hoặc trong những lần người mua hàng mua máy tính xách tay thì sẽ
khơng mua máy tính để bàn…Thơng tin như thế có thể chỉ dẫn người bán lựa chọn mặt
hàng để sắp xếp chúng trên giá hàng, người bán có thể đặt sữa và bánh mì trong phạm
vi gần kề để gây tác động tích cực tới việc mua của khách cho cả hai mặt hàng này.
Việc nhận ra những mặt hàng nào thường được mua cùng nhau, cịn những mặt hàng
nào thường khơng được mua cùng nhau giúp người bán hàng có thể bán được nhiều
hàng hơn do đó tăng doanh thu.
Khai thác luật kết hợp nhằm tìm ra những mối liên kết đáng quan tâm hoặc những
quan hệ tương quan trong một tập lớn các đối tượng. Trong giao dịch thương mại

10


khám phá mối quan hệ trong số lượng lớn các giao dịch có thể giúp nhiều nhà kinh
doanh xử lí giải quyết các vấn đề như: thiết kế catalog để quảng cáo như thế nào?
1.2.2 Giải thuật Apriori để sinh các luật kết hợp.
Để hình dung rõ hơn các giai đoạn trong quá trình phát hiện luật kết hợp, chúng ta sẽ
xem xét giải thuật Apriori phát hiện luật kết hợp từ cơ sở dữ liệu tác vụ.
1.2.2.1 Tư tưởng chính của thuật tốn Apriori
a. Tìm tất cả các tập phổ biến (frequent itemsets):
-

k-itemset (itemsets gồm k items) được dùng để tìm (k+1)- itemset.

-

Đầu tiên tìm 1-itemset (ký hiệu L1). L1 được dùng để tìm L2 (2-itemsets). L2
được dùng để tìm L3 (3-itemset) và tiếp tục cho đến khi khơng có k-itemset
được tìm thấy.


b. Từ tất cả các tập phổ biến sinh ra các luật kết hợp mạnh (các luật kết hợp thỏa
mãn 2 tham số min_sup và min_conf)
1.2.2.2 Giải thuật Apriori
a. Duyệt (Scan) toàn bộ cơ sở dữ liệu giao dịch để có được độ hỗ trợ (support) S
của 1-itemset, so sánh S với độ hỗ trợ tối thiểu min_sup, để có được 1-itemset
(L1)
b. Sử dụng Lk-1 nối (join) Lk-1 để sinh ra candidate k-itemset. Loại bỏ các itemsets
không phải là tập phổ biến thu được k-itemset ( bước cắt tỉa)
c. Tiếp tục duyệt cơ sở dữ liệu giao dịch để có được độ hỗ trợ S của mỗi candidate
k-itemset, so sánh S với min_sup để thu được tập phổ biến k –itemset (Lk)

11


d. Lặp lại từ bước 2 cho đến khi Candidate set (C) trống (khơng tìm thấy tập phổ
biến)
e. Với mỗi tập phổ biến I, sinh tất cả các tập con s không rỗng của I
f. Với mỗi tập con s không rỗng của I, sinh ra các luật s => (I-s) nếu độ tin cậy
(Confidence) của nó > =min_conf
1.2.2.3 Ví dụ minh họa
Giả sử có cơ sở dữ liệu giao dịch bán hàng gồm 5 giao dịch như sau:

Tid
1
2
3
4
5


List of Items
Beer, Diaper, Baby Powder, Bread, Umbrella
Diaper, Baby Powder
Beer, Diaper, Milk
Diaper, Beer, Detergent
Beer, Milk, Coca-Cola

Thuật tốn Apriori tìm các luật kết hợp trong giao dịch bán hàng trên như sau:
Bước 1:
min-sup = 40% (2/5)
C1
Itemsets
Support
Beer
Diaper
Baby Powder
Bread
Umbrella
Milk
Detergent

L1
Itemsets

4/5
4/5
2/5
1/5
1/5
2/5

1/5

Beer
Diaper
Baby Powder
Milk

12

Support
4/5
4/5
2/5
2/5


Coca-Cola

1/5

13


Bước 2:
C2
Itemsets
Beer, Diaper
Beer, Baby Powder
Beer, Milk
Diaper, Baby

Powder
Diaper, Milk
Baby Powder, Milk

L2
Support

Itemsets

Support

3/5
0/5
2/5

Beer, Diaper
Beer, Milk
Diaper, Baby Powder

3/5
2/5
2/5

2/5
0/5
0/5

Bước 3:
C3 (min-sup =40%)
Itemsets


L3
Support

Beer, Diaper, Milk

1/5

Beer, Diaper, Baby Powder
Diaper, Milk, Baby Powder
Bear, Milk, Baby Powder

1/5
0/5
0/5

Itemsets

Support

Empty (Stop)

Bước 4: min-sup=40%, min_conf=70%
Itemsets
Support (A,B)
Beer, Diaper
60%
Diaper, Beer
60%
Beer, Milk

40%
Milk, Beer
40%
Diaper, Baby Powder
40%
Baby Powder, Diaper
40%

Support(A)
80%
80%
80%
40%
80%
40%

Confidence
75%
75%
50%
100%
50%
100%

Kết quả ta có các luật kết hợp sau (với min_sup= 40%, min_conf=70%)
R1: Beer => Diaper (support =60%, confidence = 75%)
14


R2: Diaper =>Beer (support =60%,confidence = 75%)

R3: Milk =>Beer (support =40%, confidence = 100%)
R4: Baby Powder => Diaper (support =40%,confidence = 100%)
Từ kết quả các luật được sinh ra bởi giao dịch bán hàng trên, ta thấy rằng có luật có thể
tin được (hợp lý) như Baby Powder => Diaper, có luật cần phải phân tích thêm như Milk
=>Beer và có luật có vẻ khó tin như Diaper =>Beer.
Ví dụ này sinh ra các luật có thể khơng thực tế vì dữ liệu dùng để phân tích
(transaction database) hay cịn gọi là tranining data rất nhỏ.

1.3 Luật kết hợp mẫu âm
1.3.1 Khái niệm luật kết hợp mẫu âm
1.3.1.1 Đặt vấn đề
Trước khi xem xét khái niệm về luật kết hợp mẫu âm, chúng ta xem xét một ví dụ cụ
thể dưới đây :
-

Bảng dưới là thông tin về các khách hàng mua sắm phương tiện giao thông :

15


-

Với giả thiết :
o Giả thiết 1 : độ hỗ trợ tối thiểu (minsup) là 30%, độ tin cậy (minconf) là
70%.
o Giả thiết 2 : thuộc tính tuổi được phân ra làm 2 nhóm trên 30 và dưới 30
tuổi.

-


Với thơng tin và hai giả thiết trên ta có được các tập phổ biến :
Item sets

Support Conf

Age<30

40% 100.00%

Age>30

60% 100.00%

Coupe

40% 100.00%

Sedan

30% 100.00%

16


Truck

20%

Van


10%

Age<30, Coupe

30%

75.00%

50%

83.33%

Age>30, Not Purchase
Coupe

-

Qua bảng trên cho thấy :
o Luật „Age<30  Coupe‟ có độ tin cậy là 75%
o Tuy nhiên nếu chúng ta xem xét dưới góc độ khác thì luật „Age>30 
Not purchar Coupe‟ (những người trên 30 tuổi sẽ khơng sử dụng phương
tiện Coupe) có độ tin cậy là 83.33% cũng rất được quan tâm
o Luật „Age>30  Not purchar Coupe‟ sau này được gọi là luật kết hợp
mẫu âm.

Qua ví dụ trên cho thấy, ý nghĩa thực tế của luật kết hợp mẫu âm cũng quan trọng
không kém luật kết hợp dương.
Tuy nhiên việc sinh luật kết hợp mẫu âm gặp hai vấn đề khó khăn :
-


Thứ nhất : chúng ta không dễ dàng chọn được giá trị ngưỡng minsup và
minconf để đảm bảo phù hợp cho cả luật kết hợp âm và luật kết hợp dương.

-

Thứ hai : trong một cơ sở dữ liệu thực tế có hàng ngàn mục. Mà trong các giao
dịch nhiều mục lại khơng xuất hiện hoặc xuất hiện rất ít.

17


1.3.1.2 Định nghĩa luật kết hợp mẫu âm
Chúng ta định nghĩa một cách tổng quát các luật kết hợp mẫu âm, là một luật mà chứa
một phủ định của một mục (tức là một luật mà nguồn gốc hay kết quả của nó có thể
được thành lập bởi sự kết hợp giữa sự có mặt và vắng mặt của các điều kiện). Một ví
dụ cho sự kết hợp này như sau:

Cụ thể hơn, chúng ta có thể xem xét khái niệm luật kết hợp mẫu âm dưới hình thức tập
hợp như sau :
Giả sử I = i1, i2,…, ij, ..., in , một giao dịch T được định nghĩa như một tập con của
các khoản mục trong I (T I).
Gọi D là CSDL của n giao dịch và mỗi giao dịch được đánh nhãn với một định danh
duy nhất. Nói rằng, một giao dịch T

D hỗ trợ một tập X

I và một tập Y

I nếu nó


chứa tất cả các item của X và Y .
Với luật kết hợp dương có dạng R: X  Y, trong đó X, Y là tập các mục, X, Y
X

Y=

I và

. X được gọi là tiên đề và Y được gọi là hệ quả của luật.

Với luật kết hợp mẫu âm sẽ có dạng R‟: X ¬Y.
Bây giờ chúng ta xem xét độ hỗ trợ và độ tin cậy trong luật kết hợp mẫu âm.
Luật kết hợp X ¬Y, có độ hỗ trợ s%, nếu có s% giao dịch trong T có mặt X, mà
khơng có mặt của mục Y.
Độ tin cậy, giả sử U là tập các giao dịch có mặt của X, luật kết hợp X ¬Y, có độ tin
cậy c%, nếu c% giao dịch trong trong U khơng có mặt mục Y.

18


Tương tự như cách tính độ tin cậy trong luật kết hợp dương, độ tin cậy trong luật kết
hợp âm có thể được tính như sau:
Conf(X ¬Y)=P(X

¬Y)/P(X)

Trong phần trước, chúng ta đã xem xét giải thuật xác định luật kết hợp dương, bằng
cách tính tốn các mục xuất hiện trong các giao dịch. Tuy nhiên với luật kết hợp âm,
rất khó để xác định các mục khơng xuất hiện trong các giao dịch.
Bởi vậy, thay vì xác định các mục khơng xuất hiện trong các giao dịch, chúng ta tính

tốn các mục xuất hiện trong các giao dịch, hay chính là chúng ta xác định luật kết hợp
âm thông qua luật kết hợp dương.
Với mỗi luật XY, chúng ta xác định được độ hỗ trợ Supp(XY) và độ tin cậy
Conf(XY). Khi đó chúng ta xác định độ hỗ trợ và độ tin cậy của luật kết hợp mẫu
âm (X¬Y) như sau:
Supp(X¬Y) = Supp(X) - Supp(XY)

(4)

Conf(X¬Y) = Supp(X¬Y)/ Supp(X) = (Supp(X) - Supp(XY) )/Supp(X)
=1 - Conf(XY)

(5)

1.3.2 Các giai đoạn phát hiện luật kết hợp mẫu âm
1.3.2.1 Đặt vấn đề
Do việc xác định luật kết hợp mẫu âm phải thông qua luật kết hợp dương, nếu chúng ta
để độ hỗ trợ và độ tin cậy nhỏ thì sẽ rất khó để xác định các luật kết hợp dương mong
muốn, bởi vậy chúng ta phải chấp nhận để độ hỗ trợ và độ tin cậy dương đủ lớn để dễ
cho việc xác định luật kết hợp dương và khi đó các luật kết hợp âm tìm thấy sẽ có độ
hỗ trợ và độ tin cậy thấp. Lúc này chúng ta phải chấp nhận một số kết quả tìm kiếm
được sẽ khơng như mong muốn. Việc loại bỏ các luật không như mong muốn này
19


chúng ta chỉ có thể sử dụng những miền tri thức trong kho dữ liệu để dự đoán và loại
bỏ chúng để cuối cùng có tập các luật kết hợp mẫu âm khả thi.

Chúng ta xem xét sự phân loại sau:


Giả sử T là tập các loại mặt hàng như hình trên, gồm các đỉnh và các cạnh. Mỗi đỉnh
biểu diễn một lớp (Hardware, Computers, Electronics,..), đỉnh mà khơng có đỉnh
con(hay có độ sâu bằng 0) thì được coi là các mặt hàng. Hai đỉnh được kết nối với
nhau thông qua một cạnh. Các đỉnh, cành này sẽ tạo ra một miền tri thức (domain
Knowledge).
Trong sự phân loại trên, có hai mối quan hệ quan trọng đó là quan hệ theo chiều dọc
và quan hệ theo chiểu ngang. Mối quan hệ theo chiều dọc là mối quan hệ cha – con,
mối quan hệ theo chiều ngang là mối quan hệ anh – em.
Chúng ta gọi mối quan hệ anh – em là mối quan hệ địa phương (Locality Of Similarity
– LOS). Các mục cùng LOS sẽ có xu hướng tham gia vào cùng một luật kết hợp. Ví dụ
trong một cơ sở dữ liệu bán lẻ, các mục cùng LOS sẽ có nhiều khả năng cùng được
tham gia vào các giao dịch của khách hàng. Do vậy trong quá trình bán hàng, người
bán hàng không đưa ra những tham khảo hợp lý thì người mua hàng rất khó có thể

20


chọn một món hàng mà họ muốn.Thay vào đó chúng ta có thể đưa ra một tham khảo
theo LOS, để khách hàng có thể chọn một số món hàng mà họ muốn.
Trong hình ví dụ trên, chúng ta để „IBM Aptiva‟ và „Compaq Deskpro‟ cùng cấp và
cùng thuộc dòng máy tính để bàn, khi đó khách hàng muốn mua máy tính để bàn có
thể xem máy IBM Aptive hay Compaq Deskpro, thay vì khách hàng phải loay hoay
với các loại như Notebook, Parks, Electronics…
Như vậy LOS có thể được hiểu như là quan hệ anh – em, được biểu diễn như sau
[„IBM Aptiva‟,„Compaq Deskpro‟]. Tuy nhiên LOS cũng có thể mở rộng trên cấp,
chẳng hạn chúng ta có thể đặt „IBM Aptiva‟, „Compaq Deskpro‟, Notebook, Parks vào
cùng một LOS khi chúng ta nhìn cơ sở dữ liệu ở tầm cao hơn (Computers).

Bây giờ chúng ta xem xét các luật liên quan tới LOS.
Với giả thiết:

a) Các tập X = { i1, i2,…, ih,…, im }, Y = { j1, j2,…, jl } và X, Y
b)
Nếu

h

I, ik

I, X

Y=

X, thỏa mãn [ih , ik] và supp(ih) ≥ minsup, supp(ik) ≥ minsup.

(r: XY) (luật r, tiền đề X, kết quả Y) thỏa mãn Supp(XY) ≥minsup,

Conf(XY) ≥minconf.
Thì khi đó cũng có một khả năng Conf(X‟Y) ≥ minconf, trong đó X‟={ i1, i2,…,
ik,…, im }, cũng tương tự như X, ngoại trừ việc ih thay thế cho ik
Chúng ta gọi luật X‟Y là r‟. Khi đó luật r và r‟ được gọi là luật anh em.

21


1.3.2.2 Quá trình phát hiện luật kết hợp mẫu âm
LOS sẽ cung cấp một số khả năng để xác định luật âm, giả sử ih,ik
viên của một LOS, thỏa mãn [ih,ik]. Nếu luật r: XY đúng và ih

I, đều là thành
X, khi đó sẽ sinh


được luật anh em r‟: X‟Y, tuy nhiên nếu luật này không hỗ trợ, tức là Y khơng có
mối quan hệ với X‟ thì sự kết hợp âm có thể tồn tại.
Để phát hiện luật kết hợp mẫu âm, trước hết chúng ta xác định độ lệch giữa các
đội tin cậy như sau:

Trong đó conf(r’) là độ tin cậy của r‟ được tính tốn theo cơng thức (4).
E(conf(r’)) là dự báo độ tin cậy của r‟, được định nghĩa bằng độ tin cậy của r dựa trên
các giả thiết tương tự.
Nếu giá trị SM lớn thì khi đó luật X‟  Y là sai, và khi đó luật X‟  ¬Y đúng.
Từ cách lập luận trên cho thấy, với giá trị SM càng lớn thì càng cho thấy lượng thông
tin lớn. Đồng thời các ứng viên luật kết hợp âm tạo ra cũng phải đáp ứng cả hai tiêu
chí về độ hỗ trợ và độ tin cậy thì sẽ được giữ lại.

Trên thực tế để đủ điều kiện là một luật kết hợp âm thì phải thỏa mãn hai điều kiện:
-

Có độ lệch lớn giữa độ tin cậy thực tế và độ tin cậy dự báo

-

Có độ hỗ trợ và độ tin cậy lớn hơn cực tiểu.

22


Như vậy trong quá trình khai phá luật kết hợp mẫu âm, chúng ta có sử dụng q trình
dự đốn, nên khi khai phá luật kết hợp mẫu âm sẽ có có một số luật khơng mong
muốn, và một trong những cơng việc quan trọng trong q trình phát hiện luật kết hợp
mẫu âm là loại bỏ một số luật khơng mong muốn.

Một ví dụ về sự loại bỏ luật dư thừa, giả sử chúng ta có hai luật “Female  Buy Hat”
và luật “¬Male  Buy Hat”. Trong miền thuộc tính về giới tính, giả sử chỉ có hai giá
trị Male và Female, như vậy ¬Male cũng là Female. Như vậy trong hai luật trên chỉ có
một luật được giữ lại.
Như vậy, quá trình khai phá luật kết hợp mẫu âm có thể chia làm 3 giai đoạn:
1. Xác định một tập các luật kết hợp dương.
2. Sinh các luật kết hợp âm dựa vào luật kết hợp dương đã có ở bước 1 và miền tri
thức đã có.
3. Loại các luật dư thừa.
1.3.3 Thuật toán phát hiện luật kết hợp âm
Từ việc phân tích các giai đoạn trong quá trình phát hiện luật kết hợp âm ở trên, chúng
ta có thể xem xét giải thuật tìm kiếm luật kết hợp âm cụ thể như sau:
//Tìm tất cả các luật dương:
FreqSet1 = {frequent1 – itemsets};
k=2;

while (FreqSetk-1

)

for all trấnctions g

DataSet
23


CandidateSet1 = subset (CandidateSetk , g);
for all candidates c

CandidateSet1


c.count = c.count + 1;
endfor
endfor
FreqSetk = {c

CandidateSet1 | c.count ≥ minsup};

k = k + 1;
endwhile
// Sinh các luật dương với giải thuật Apriori
postiveRule = genRule(FreqSetk);
Rule = postiveRule;
//Sinh các luật âm:

Delete all items t from the taxonomy, t
For all rules r

FreqSet1

postiveRule

tmpRuleSets = genNegCand(r);
for all rules tr

tmpRuleSets

if SM(tr.conf, t.conf) > confDeviate

24



Rule = {Rule, Neg(tr) | Neg(tr).supp>minsup, Neg(tr).conf
> minconf};
endif
endfor
endfor
// Loại bỏ các luật dư thừa:
If all members of LOS have common itemset that form {r1, r2,…, rn}

Rule

delete rk, where rk falls in the categories
endif

1.4 Kết luận chương
Như vậy qua chương đầu tiên, luận văn đã đưa ra được những vấn đề cơ bản của luật
kết hợp, luật kết hợp mẫu âm. Ý nghĩa thực tế của việc khai phá luật kết hợp mẫu âm.
Và cũng đã phân tích được các bước cơ bản để phát hiện luật kết hợp, luật kết hợp mẫu
âm. Một số thuật toán phổ biến trong khai phá luật kết hợp, luật kết hợp mẫu âm cũng
đã được trình bày trong chương này.
Với những vấn đề cơ bản của luật kết hợp, luật kết hợp mẫu âm như vậy, trong chương
tiếp theo, luận văn sẽ đi vào xem xét bài toán cụ thể cần phải giải quyết đó là dựa vào
luật kết hợp mẫu âm để xác định sự biến động giá cả dựa trên thông tin về giá cả hàng
hóa trong 2 năm qua.

25



×