Tải bản đầy đủ (.pdf) (3 trang)

Một cách tiếp cận tìm tập phổ biến dựa trên giàn trong khai phá luật kết hợp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (642.69 KB, 3 trang )

một ngữ cảnh hình thức cho trước.
Lương Văn Nghĩa, Lê Văn Sơn, Huỳnh Triệu Vỹ

Trong các thuật toán giới thiệu, trước

MỘT CÁCH TIẾP CẬN TÌM TẬP PHỔ
BIẾN
tiên chúng
tơi DỰA
tính cơTRÊN
sở của GIÀN
ngữ cảnh, sau đó
tính tất KẾT
cả các HỢP
khái niệm từ cơ sở. Ưu điểm của
TRONG KHAI PHÁ LUẬT

B
phạm
khái
niệm

định lý 4 trong bài báo này là có thể dễ dàng xác

THE APPROACH FOR BUILDING THE FREQUENCY
BASED
ONkhái
LATTICE
định quan hệSET
bao hàm
của các


niệm.
IN MINING ASSOCIATION RULES

nghĩ
như

2. Một số khái niệm cơ sở
1

Lương Văn Nghĩa , Lê Văn Sơn2 , Huỳnh
Triệu
Vỹ1 tơi trình bày một số khái
Sau đây
chúng
1
Trường Đại học Phạm Văn Đồng; Email: ,
niệm cơ sở về già
có liên quan. Để có thơng tin
2
Trường Đại học Sư phạm, Đại học Đà Nẵng; Email:
Tóm tắt – Khai phá luật kết hợp trong các cơ sở dữ liệu giao dịch
lớn là bài toán đã được nhiều người quan tâm nghiên cứu. Bài toán
khai phá luật kết hợp thường được thực hiện qua hai bước. Trong
đó, bước đầu tiên là tìm tập phổ biến và bước thứ hai tìm các luật
kết hợp dựa trên tập phổ biến tìm được. Hiện đã có rất nhiều thuật
tốn tìm tập phổ biến và thuật tốn đề xuất sinh giàn từ quan hệ nhị
phân, tuy nhiên các thuật toán này có độ phức tạp rất lớn. Trong bài
báo này chúng tơi giới thiệu một kỹ thuật tìm tập phổ biến dựa trên
giàn có độ phức tạp đa thức. Ưu điểm của cách tiếp cận này là bỏ
qua giai đọan tìm tập ứng viên như trong thuật tốn Apriori mà tìm

trực tiếp tập phổ biến.

chi tiết hơn về giàn, chúng ta có thể xem thêm
trong [2].
Abstract – In recently years, the Discovery of Association Rule on
the transaction of large databases has been the most interesting
Định nghĩa 1. Một ngữ cảnh hình thức
problem in research. The problem of mining association rule is
(formal
context)
K:=
đóset
G,isM
là in
usually
performed
through
two(G,M,I),
steps. The trong
frequency
found
first step, and building the association rule based on the previous
hai
tập

I

quan
hệ
giữa

G

M.
Các
phần
tử
result of frequency set is second step. In fact, we had many
algorithms
to find gọi
the frequency
settượng,
and to propose
for generating
của G được
là các đối
các phần
tử của
lattices from binary relationships. However, those algorithms still
M được gọi là các thuộc tính của ngữ cảnh. Để
have been a big complexity. In this paper, we introduce a technique
to find
frequency
set based
the lattice
which there
biểu
diễn quan
hệongiữa
đối intượng
g hasGbeen

vớithe
complexity of polynomial. The advantage of this technique not only
thuộc
moffinding
M tacandidate
viết (g Isetm)ashoặc
(g, m)
I
ignores
thetính
stage
the Apriori
algorithm,
butvà
also
builds
the
frequency
set
immediately.
đọc là “đối tượng g có thuộc tính m”.

Từ khóa – luật kết hợp; tập phổ biến; giàn; lược đồ Hasse; thuật
toán Apriori.

Key words – association rule; frequency set; lattice; Hasse dagram;
Ví dụ 1. Một ngữ cảnh được trình bày bởi
Apriori algorithm.

1. Giới thiệu


là “đối
g có thuộc
tính m”.
trìnhtượng
bày một
ngữ cảnh
hình thức K=(G, M, I),
Vívới
dụ 1.
Một ngữ cảnh và
được
bày bởi ta
mộtlập
bảng
tham
G={1,2,3,4,5}
Mtrình
={a,b,c,d}
bảng
chiếu chéo như trong Hình 1. Để trình bày một ngữ cảnh
gồm có 5 dịng (ứng với 5 đối tượng trong G) và
hình thức K = (G, M, I), với G = {1, 2, 3, 4, 5} và M =
(ứng
với
4 thuộc
trong
{a,4b,cột
c, d}
ta lập

bảng
gồm cótính
5 dịng
(ứngM).
với Tại
5 đốimỗi
tượng
điểm
giao
nhau
giữa
dịng

cột
ta
đánh
trong G) và 4 cột (ứng với 4 thuộc tính trong M).dấu
Tại X
mỗi
điểm
dịng
và cột tính
ta đánh
nếugiao
đối nhau
tượnggiữa
gG
có thuộc
m dấu
M. × nếu đối

tượng g ∈ G có thuộc tính m ∈ M.

một bảng tham chiếu chéo như trong Hình 1. Để
Xây dựng giàn (lattice) từ tập các quan hệ nhị phân đã có
nhiều ứng dụng quan trọng. Wille (1982) đã xem mỗi phần
tử trong giàn như một khái niệm và tạo thành đồ thị tương
ứng (lược đồ Hasse). Đồ thị như là quan hệ khái quát hóa
giữa các khái niệm. Từ ý tưởng này, giàn biểu diễn một phân
cấp khái niệm. Phân cấp khái niệm đã cho thấy có nhiều ưu
điểm trong các lĩnh vực về khai phá tri thức từ các cơ sở dữ
liệu lớn [6]. Đã có nhiều thuật toán được đề xuất sinh giàn
từ quan hệ nhị phân [1][2][4]. Nhưng các thuật tốn này ít
đề cập đến độ phức tạp. Lhouari Nourine và các cộng sự
đã đề xuất một thuật toán nhanh (fast) cho phép xây dựng
giàn [5].
Trong bài báo này, chúng tôi giới thiệu một phương pháp
cải tiến xây dựng giàn của các tác giả trong [5]. Các thuật
toán cho phép tạo ra tập khái niệm và lược đồ Hasse tương
ứng từ một ngữ cảnh hình thức cho trước.

1
2
3
4
5

a
×
×
×


b
×

×

c

d

×
×
×

×

,Y)
nghĩ
tiếp
giữa
X
nối
được
bộ p
cho
H1 v
khái
niệm
hiệu


niệm
ngữ

×

Hình
Mộtngữ
ngữ cảnh
cảnh hình
thức
K. K.
Hình
1. 1:
Một
hình
thức
Định nghĩa 2. Cho tập A  G gồm các đối
Trong các thuật tốn giới thiệu, trước tiên chúng tơi tính Định nghĩa 2. Cho tập A ⊆ G gồm các đối tượng. Chúng
ta
định
nghĩa
A :=ta{m
∈ M|g
I m,A’
∀g:=∈ {m
A} (tập
tượng. Chúng
định
nghĩa
 Mcác| gthuộc

I
cơ sở của ngữ cảnh, sau đó tính tất cả các khái niệm từ cơ
tính
chung
của
các
đối
tượng
trong
A).
Tương
tự, cho tập
sở. Ưu điểm của định lý 4 trong bài báo này là có thể dễ
gta 
A}(tập
các:=thuộc
các
B m,
⊆M
định
nghĩa B
{g ∈ tính
G|g Ichung
m, ∀mcủa
∈ B}
(tập
dàng xác định quan hệ bao hàm của các khái niệm.
3. T
trong
tự, trong

cho tập
cácđối
đốitượng
tượng có
cùngA).
tậpTương
thuộc tính
B).B  M ta
2. Một số khái niệm cơ sở
địnhnghĩa
nghĩa3.B’Một
:= {g
G | ghình
I mthức
m của
 B}
Định
kháiniệm
ngữ(tập
cảnh
(G,
M,
I)

cặp
(A,
B),
với
A


G,
B

M,
A
=
các đối tượng có cùng tập thuộc tính trong B). B trình
Sau đây chúng tơi trình bày một số khái niệm cơ sở về

giàn có liên quan. Để có thơng tin chi tiết hơn về giàn, chúng
ta có thể xem thêm trong [2].

và B = A. Chúng ta gọi A là một phạm vi (extent) và B
nghĩacủa
3. khái
Mộtniệm
khái(A,
niệm
hình M,
thức
một mục Định
đích (intent)
B). B(G,
I) là
ngữ
M,của
I) ngữ
là cặp
(A,
B),

tậpcủa
tất cả
cáccảnh
khái(G,
niệm
cảnh
(G,
M,với
I). A  G,

Định nghĩa 1. Một ngữ cảnh hình thức (formal context)
2 hệ thứ tự bộ phận được định nghĩa trên tập
Một quan
K := (G, M, I), trong đó G, M là hai tập và I là quan
hệ giữa G và M. Các phần tử của G được gọi là các đối B(G, M, I) của ngữ cảnh (G, M, I) như sau:
Cho H1 = (X , X) ∈ B(G, M, I) và H2 = (Y , Y) ∈
tượng, các phần tử của M được gọi là các thuộc tính của
ngữ cảnh. Để biểu diễn quan hệ giữa đối tượng g ∈ G với B(G, M, I), định nghĩa H1 < H2 ⇔ X ⊆ Y, nghĩa là H1 là
thuộc tính m ∈ M ta viết (g I m)4 hoặc (g, m) ∈ I và đọc cha của H2 hay khái quát hóa trực tiếp trong giàn. Thật ra
47

thức


TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 1(74).2014.QUYỂN II

có một quan hệ đối ngẫu giữa X và X trong giàn, nghĩa là,
X ⊆ Y ⇔ Y ⊆ X . Vậy, về bản chất giàn là hai giàn được
kết nối với nhau. Lược đồ Hasse của giàn có thể được sinh
ra bằng cách sử dụng quan hệ thứ tự bộ phận. Nếu H1 < H2

và không tồn tại H3 sao cho H1 < H3 < H2 thì sẽ tồn tại
một cạnh nối giữa H1 và H2 . Lược đồ/đồ thị này biểu diễn
quan hệ khái quát hóa/chuyên biệt hóa giữa các khái niệm
và có thể được sử dụng như một công cụ hiệu quả trong việc
khai phá dữ liệu và tri thức.

Định lý 1. Cho K = (G, M, I) là một ngữ cảnh hình thức.
Khi đó, với ∀F ∈ FB , ta có (F, γ(F)) là một khái niệm của
K, và B ≡ {(F, γ(F))|F ∈ FB } = B(G, M, I).
Bây giờ bài toán của chúng ta là đi xây dựng giàn từ ngữ
cảnh đã cho K = (G, M, I) thông qua thuật tốn được thực
hiện qua 3 bước sau:
(1) Tính cơ sở B của ngữ cảnh K;
(2) Sinh họ B = {(F, γ(F))|F ∈ FB };
(3) Xây dựng giàn từ B.

Ví dụ 2. Ngữ cảnh của Ví dụ 1 có 9 khái niệm. Đồ thị trong
Hình 2 biểu diễn giàn của ngữ cảnh:
3.1. Tính cơ sở B của ngữ cảnh K

Từ định nghĩa của cơ sở, chúng ta có thể xác định
lực lượng của B là bằng với lực lượng của M, nghĩa là
|B| = |M|.
Thuật toán 1. Cơ sở B.
Input: Ngữ cảnh K = (G, M, I)
Output: Cơ sở B của ngữ cảnh.
Begin
|B| = |M|
for each m ∈ B do
m =Φ

for each m ∈ B do
for each g ∈ G do
if g I m then m = m ∪ {g}
End
Hình 2: Giàn cho ngữ cảnh của hình 1.

3. Thuật tốn nhanh xây dựng giàn
Trước khi trình bày thuật tốn, chúng tơi trình bày định
nghĩa cơ bản sau:
Cho K = (G, M, I) là một ngữ cảnh hình thức. Cho
g ∈ G, ta viết g thay vì {g} cho đối tượng mục đích
g := {m ∈ M|g I m} của đối tượng g. Tương tự,
m := g ∈ G|g I m là thuộc tính phạm vi của thuộc tính
m. Một cơ sở B là tập tất cả các thuộc tính phạm vị của K,
nghĩa là,
B = {m |m ∈ M}
Ta ký hiệu FB là họ được sinh ra bởi các phép giao trong
B, nghĩa là,
FB = {
m |I ∈ 2B }
m ∈I

Cho mỗi F ∈ FB , ký hiệu γ(F) ⊆ M, sao cho ∀m ⊆
γ(F), F ⊆ m , nghĩa là,
γ(F) = {m ∈ M|F ⊆ m }
Ví dụ 3. Trong ngữ cảnh của Hình 1,

Định lý 2. Thuật tốn 1 tính cơ sở B của ngữ cảnh K có độ
phức tạp là O(|G| ∗ |M|).
Bây giờ chúng ta sử dụng cơ sở B để tạo họ khái niệm

B = {(F, γ(F))|F ∈ FB }.
3.2. Tạo họ khái niệm B = {(F, γ(F))|F ∈ FB }
Thuật tốn trình bày sau đây tạo ra tất cả các khái
niệm (F, γ(F)) từ cơ sở B của ngữ cảnh đã cho K, nghĩa
là, tính FB và với mỗi F ∈ FB , ta tìm γ(F) tương ứng.
Dễ dàng ta suy ra được độ phức tạp của thuật toán là
O((|G| + |M|) ∗ |M| ∗ |FB|).
Thuật toán 2. Sinh B(G, M, I) = {(F, γ(F))|F ∈ FB }.
Input: Cơ sở B
Output: B(G, M, I)
Begin
FB = {G, γ(G)} = Φ
for each m ∈ B do
if m = G then γ(G) = γ(G) ∪ m
for each m ∈ B do
for each F ∈ FB do
begin
F =F∩m
if F ∈
/ FB then
begin
FB = FB ∪ F
end
γ(F ) = γ(F ) ∪ {M}
end
End

B = {a = {134}, b = {1, 4},
c = {234}, d = {25}};
FB = {{12345}, {134}, {14}, {234}, {34},

{25}, {2}, {4}, Φ}; và
{γ(F)|F ∈ FB } = {Φ, {a}, {ab}, {c}, {d},
{ac}, {cd}, {abc}, {abcd}}.
Định lý sau đây được suy ra trực tiếp từ định nghĩa trên. Định lý 3. Thuật tốn 2 tính họ B = {(F, γ(F))|F ∈ FB }
48


Lương Văn Nghĩa, Lê Văn Sơn, Huỳnh Triệu Vỹ

từ cơ sở B có độ phức tạp là O((|G| + |M|) ∗ |M| ∗ |FB |).
3.3. Xây dựng giàn từ B
Giả sử (FB , ⊂) là thứ tự bộ phận của quan hệ bao
hàm giữa các tập. Cho F , F ∈ FB với F ⊂ F, ký hiệu
D(F F) = γ(F )\γ(F) và định nghĩa chính xác quan hệ
bao hàm ≺ của FB như sau:
∀F1 , F2 ∈ (FB , ⊂), Nếu F1 ⊂ F2 , không tồn tại
F = F1 , F2 , sao cho F1 ⊂ F ⊂ F2 ,thì chúng ta gọi F2
bao hàm chính xác F1 và viết F1 ≺ F2 .
Ví dụ 4. Từ ví dụ 2, cho F = Φ, F = {2}, γ(F ) =
{abcd}, γ(F) = {cd}, khi đó D(F , F) = {ab}. Rõ ràng
F ≺ F, và chúng ta thấy rằng F\a = F\b = {2}, tổng
quát chúng ta có định lý sau:

Output: Lược đồ Hasse của B(G,M,I)
Begin
for each F ∈ FB do
COUNT(F) = 0
for each F ∈ FB do
for each m’ ∈ B\γ(F) do
begin

F’ = F ∩ m’;
COUNT(F’)++;
if |γ(F’)| = COUNT(F’) + |γ(F)| then
Nối (F, γ(F)) với (F’,γ(F’)).
end
Reset COUNT;
End

Định lý 6. Thuật tốn 3 có độ phức tạp là O((|G| + |M|) ∗
Định lý 4. Cho F , F ∈ FB với F ⊂ F, thì F ≺ F ⇔
|M| ∗ |FB |).
F\m1 = F\m2 với ∀m1 , m2 ∈ D(F , F).
Rõ ràng thuật tốn có tổng độ phức tạp là O((|G| +
Chứng minh. Ta thấy F có thể được viết F = F ∩
|M|) ∗ |M| ∗ |FB |). Thuật toán thật sự đơn giản và hiệu quả
{m |m ∈ D(F , F)} khi đó,
cho việc xây dựng giàn từ cơ sở B của ngữ cảnh K.
⇒ ∀m1 , m2 ∈ D(F , F), giả sử F\m1 ⊂ F\m2 , suy ra
ta có F = F ∩ {m |m ∈ D(F , F)} ⊂ F ≡ F ∩ B1 ∈ F, 4. Kết luận
điều này mâu thuẩn với F ≺ F, vậy F\m1 ⊆ F\m2 . Tương
Ưu điểm của các thuật toán nhanh xây dựng giàn đã đề
tự chúng ta có F\m1 ⊇ F\m2 .
xuất trong bài báo này có độ phức tạp đa thức. Theo hướng
⇐ Giả sử ∃F , sao cho F ⊂ F ⊂ F khi đó ta có tiếp cận này, chúng ta đã rút ngắn được thời gian sinh luật
γ(F) ⊂ γ(F ) ⊂ γ(F ). Vì γ(F )\(F) ∈ γ(F )\γ(F) = kết hợp. Thay vì áp dụng thuật tốn Apriori ta phải mất
D(F , .F), suy ra F = F ∩ {m |m ∈ D(F , F)} = F .
nhiều thời gian cho việc tìm tập ứng viên trước khi sinh tập
phổ biến và thuật tốn Apriori có độ phức tạp là hàm mũ.
Hệ quả 1. Cho F , F ∈ FB và F ⊂ F, khi đó:
Trong bài báo này, chúng tôi cũng đã đưa ra một các tiếp

F ≺ F ⇔ F = F ⇔ m với ∀m ∈ D(F , F).
cận mới là tạo ra tập khái niệm và lược đồ Hasse tương ứng
Bây giờ chúng ta giới thiệu cách xây dựng giàn từ tập từ một ngữ cảnh hình thức cho trước trong thuật tốn nhanh
khái niệm B của ngữ cảnh K. Ứng với mỗi F ∈ FB chúng ta xây dựng giàn.
tìm trong FB tất cả các bao hàm chính xác của F, nghĩa là,
∀F ∈ FB tìm {F ∈ FB |F ≺ F}. Rõ ràng F ∈ FB là một
Tài liệu tham khảo
ứng viên nếu F ⊂ FvF được tính từ F ∩ m , với ∀m ∈
[1] Godin, R, Missaoui, R, alaui, H, Incremental Concept Formation
B\γ(F). Giả sử chúng ta đặt S = {F ∩ m |m ∈ B\γ(F)}.
Algorithm Based on Galois (Concept) Lattice, Computational
Khi đó, ta có định lý sau:
Itelligence, 1995, 11(2):246-267.
Định lý 5. F ∈ S, F ≺ F nếu và chỉ nếu F được tìm thấy
chính xác |D(F , F)| lần trong S.
Chứng minh. Từ định nghĩa của S, định lý được chứng
minh trực tiếp từ Hệ quả 1.
Thuật toán sau tính tập S và tần suất xuất hiện của các
phần tử F trong S (thể hiện trong COUNT(F’)). Sau đó, ứng
với mỗi F ∈ S, kiểm tra nếu |D(F , F)| = COUNT(F )
thì ta có F ≺ F và vẽ một cạnh nối giữa (F, γ(F)) và
(F , γ(F )).
Thuật toán 3. Xây dựng giàn từ B.
Input: B

[2] Bernhard Ganter, Rudolf wille, Formal Concept Analysis, 1999,
Springer-Verlag Berlin Heidelberg.
[3] Xie Zhipeng Liu Zong-Tian, A Fast Incremental Algorithm for
Building Concept Lattice, Chinese J.Computer, 2002,25(5).
[4] Keyun Hu, Yuchang Lu and Chunyi shi, Incremental Discovering

Association Rules: A Concept Lattice Approach, PAKDD 1999:
109-113.
[5] Lhouari Nourine, Olivier Raynaud, A fast algorithm for building
lattice Information Processing, letters 71 (1999) 199-204.
[6] Lương Văn Nghĩa (2012), Khai phá dữ liệu theo tiếp cận tập thơ nhằm
tìm thuộc tính hạt nhân và chọn đặc trưng trên tập cơ sở dữ liệu lớn,
Tạp chí KH&CN, ISSN 0866-7659, Đại học Phạm Văn Đồng, số (01),
12/2012, pp 46-54.
[7] Kumar A., New Techniques for Data Reduction in Database Systems
for Knowledge Discovery Applications, Journal of Intelligent
Information Systems, 10(1), 31-48, 2005.

(BBT nhận bài: 22/12/2013, phản biện xong: 07/01/2014)

49



×