Phân mảnh dữ liệu trong thiết kế cơ sở dữ liệu phân tán dựa vào kỹ thuật phân cụm hướng tri thức

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.77 MB, 5 trang )

Lê Văn Sơn, Lương Văn Nghĩa

PHÂN MẢNH DỮ LIỆU TRONG THIẾT KẾ CƠ SỞ DỮ LIỆU PHÂN TÁN
DỰA VÀO KỸ THUẬT PHÂN CỤM HƯỚNG TRI THỨC
FRAGMENTATION IN DISTRIBUTED DATABASE DESIGN
BASED ON KNOWLEDGE-ORIENTED CLUSTERING TECHNIQUE
Lê Văn Sơn1 , Lương Văn Nghĩa2
1

Trường Đại học Sư phạm, Đại học Đà Nẵng; Email:
2
Trường Đại học Phạm Văn Đồng; Email:

Tóm tắt – Bài tốn tối ưu hóa cơ sở dữ liệu phân tán bao gồm các
bài toán: phân mảnh và định vị dữ liệu. Có nhiều phương pháp tiếp
cận khác nhau và nhiều thuật toán được đề xuất để giải quyết các
bài toán này. Tuy nhiên, độ phức tạp của thuật toán vẫn cịn là một
thách thức. Trong bài báo này, chúng tơi sử dụng kỹ thuật phân cụm
hướng tri thức cho cả hai bài toán phân mảnh ngang và phân mảnh
dọc dữ liệu. Độ đo tương tự sử dụng trong hai thuật toán là các độ
đo được phát triển từ các độ đo cổ điển. Kết quả thử nghiệm trên
các tập dữ liệu nhỏ hoàn toàn trùng khớp với kết quả phân mảnh
dựa vào các thuật toán cổ điển. Thời gian thực hiên phân mảnh dữ
liệu cũng được giảm đáng kể (mặc dù độ phức tạp thuật toán trong
trường hợp tổng quát vẫn chưa thay đổi).

Abstract – The optimization problem of data fragmentation
is requiring to several interrelated problems including: Data
fragmentation and Data allocation. Although we had many different
algorithms to approach solving problems, the complexity of
algorithm is always a big challenge to solve. In this paper,

we presented a knowledge-oriented clustering technique that is
applying both of vertical fragmentation and horizontal fragmentation
problems. Similarity measures are used in both of algorithms which
were built in the traditional measures. The experimental result of
small data files and the fragmentation result based-on traditional
algorithm are similar. The execution time of fragmented data is
significantly reduced. (Although, the complexity of algorithm in the
general case is still un-changed).

Từ khóa – cơ sở dữ liệu phân tán; phân mảnh; định vị; độ đo tương
tự, phân cụm; kỹ thuật phân cụm hướng tri thức.

Key words – distributed database; fragmentation; allocation;
similarity measures; clustering; knowledge-oriented clustering
technique.

1. Đặt vấn đề

điển và khai phá dữ liệu [2].
Nội dung chính của bài báo được tổ chức như sau: Các
khái niệm cơ sở được trình bày trong Mục 2. Mục 3, trình
bày thuật toán phân cụm hướng tri thức. Mục 4, 5 lần lượt
trình bày thuật tốn phân mảnh dọc, phân mảnh ngang đề
xuất. Mục 6 là phần kết luận.

Trong môi trường phân tán, mỗi đơn vị dữ liệu (item)
được truy xuất tại các trạm (site) thường không phải là một
quan hệ mà chỉ là một bộ phận của quan hệ. Vì vậy, để tối ưu
hóa q trình thực hiện các truy vấn, các quan hệ của lược
đồ toàn cục (global scheme) được phân mảnh thành các đơn

vị dữ liệu.
Các loại phân mảnh dữ liệu bao gồm phân mảnh dọc,
phân mảnh ngang, phân mảnh hỗn hợp (mixed) và phân
mảnh suy dẫn (derivate). Hai thuật toán cổ điển gắn liền với
phân mảnh ngang và phân mảnh dọc lần lượt là thuật toán
PHORIZONTAL và thuật toán BEA [5]. Nhiều tác giả đã đề
xuất các thuật toán cải biên hai thuật toán này như Navathe
và đồng sự (1984), Cornell và Yu (1987), Chakravarthy và
đồng sự (1994), Bellatreche (2000), Schewe (2002),.. Tuy
nhiên, độ phức tạp của các thuật toán này là khá lớn, phân
mảnh dọc là O(n2 ) với n là số lượng thuộc tính, phân mảnh
ngang là O(2m ) với m là số bản ghi [5][8].
Trong thời gian gần đây, một số tác giả đã kết hợp giải
bài toán phân mảnh và bài toán định vị bằng các thuật toán
tối ưu [9][14] hay sử dụng các thuật toán heuristic [1][9],
thời gian thực hiện các thuật toán này giảm đáng kể so với
các thuật toán cổ điển mặc dù độ phức tạp của giải thuật
trong trường hợp tổng quát vẫn chưa được cải thiện. Sử
dụng kỹ thuật luật kết hợp trong khai phá dữ liệu để phân
mảnh dọc dữ liệu đã được đề cập [10], tuy vậy các kỹ thuật
khai phá dữ liệu khác cũng chưa được các tác giả quan tâm
ứng dụng.
Trong bài báo này, chúng tơi đề xuất sử dụng thuật tốn
phân cụm hướng tri thức cho 2 bài toán phân mảnh dọc và
phân mảnh ngang. Các độ đo tương đồng (similarity) được
phát triển dựa trên các độ đo đã có trong các thuật toán cổ

2. Một số khái niệm cơ sở
2.1. Phân mảnh dọc
Phân mảnh dọc là phân rã tập thuộc tính của lược đồ

quan hệ R thành các lược đồ con R1 , R2 , .., Rm , sao cho
các thuộc tính trong mỗi lược đồ con là thường được truy
vấn cùng nhau. Để thể hiện mức độ hay cùng được truy
vấn cùng nhau, Hoffer và Severance đưa ra khái niệm ái lực
thuộc tính (attribute affinity) [13].
Nếu Q = q1 , q2 , .., qm là tập các ứng dụng,
R(A1 , A2 , .., An ) là một lược đồ quan hệ. Mối quan hệ giữa
ứng dụng qi và thuộc tính Aj được xác định bởi giá trị sử
dụng [2]:

1, Aj có tham gia qi
use (qi , Aj ) =
(1)
0, Aj không có tham gia qi
Đặt Q(A, B) = q ∈ Q|use(q, A).use(q, B) = 1. Ái lực
giữa 2 thuộc tính Ai , Aj :
!
X
X
Aff(Ai , Aj ) =
refl (q) ∗ accl (q)
(2)
q∈Q(Ai ,Aj )

∀Sl

Trong đó, refl (q): số lần cặp thuộc tính (Ai , Aj ) được
tham chiếu trong ứng dụng q tại trạm Sl; accl(q): tần số truy
xuất ứng dụng q đến các thuộc tính (Ai , Aj ) tại trạm Sl .
Thuật toán BEA thực hiện gồm 2 giai đoạn chính:

59

dù
át
ợp
đã
ệu

ng
án
ng
đã
].

tính sinh ra 1 ma trận ái lực tụ thuộc tính CA (Cluster
TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 1(74).2014.QUYỂN II
Affintity matrix) có số đo ái lực chung AM (global
(1). measure)
Hoán vị hàng,
cộtnhất
của ma
Một quan hệ tương đương (quan hệ 2 ngôi thỏa các tính
affinity
là lớn
[5].trân ái lực thuộc tính sinh
ra 1 ma trận ái lực tụ thuộc tính CA (Cluster Affintity matrix)
(2).áiTìm
điểm AM
phân(global

hoạchaffinity
tập thuộc
tính là
từ lớn
ma
có số đo
lực chung
measure)
trận
tụ thuộc tính CA bằng phương pháp vét cạn, sao
nhất [5].
cho (2).
[8]: Tìm điểm phân hoạch tập thuộc tính từ ma trận tụ
thuộc tính CA bằng phương pháp
vét cạn, sao cho [8]:
Z= CTQ *CBQ – COQ2 đạt cực đại, với:
Z = CTQ ∗ CBQ − COQ2 đạt cực đại, với:
CTQ   ref j (q j )acc j (qi )
X X
qTQ Sj
CTQ =
refj (qj )accj (qi )
q∈TQ ∀Sj



X
CBQ 
ref jX
(q j )acc j (q i )

CBQ
=
refj (qj )accj (qi )
qBQ Sj

hư
2.
c.
c,

q∈BQ ∀Sj

  ref

q∈OQ ∀Sj
qOQ Sj

A1

..

Aj)

ác
ực

..

Ai

A i+1

..

An

TA

Ai
Ai+1
BA
An
Hình
Matrận
trận tụ
tụ thuộc
CACA
Hình
1. 1:Ma
thuộctính
tính
Trong
đó, đó,
Trong

g,
hệ
ởi

2)

A2

A1

ủa
m,
là
độ
và
te

Ái

X X
refj (qj (j )acc
q i ) j (qi )
j (q j )acc

=
COQ COQ


AQ(qii)=
) ={A
{A
|use(qi,A
AQ(q
TQ={qi | AQ(qi) TA}
j| juse(q

j)=1};
i, A
j ) = 1};
TQ = {qi |AQ(qi ) ⊆ TA};

BQ=
i | AQ(qi)  BA}; OQ=Q\ {TQBQ}
BQ ={q{q
|AQ(q ) ⊆ BA};
i

i

OQ
Q{TQ
∪ BQ}.
Độ=phức
tạpcủa
thuật toán tỉ lệ với n2
phức
tạp của
thuật toán tỉ lệ với n2 .
2.2. Độ
Phân
mảnh
ngang
2.2. Phân
Phânmảnh
mảnhngang
ngang là phân chia tập các bản ghi

Phân
mảnh
ngang
phânhơn.
chia tập
cácmảnh
bản ghingang
thành các
thành các tập bản ghilà nhỏ
Phân
dựa
tập
bản
ghi
nhỏ
hơn.
Phân
mảnh
ngang
dựa
vào
các vị
điều
vào các điều kiện truy vấn được thể hiện qua các
từ
kiện truy vấn được thể hiện qua các vị từ đơn giản có dạng:
đơn giản có dạng:
P : Aj θ<giá trị>
j  <giá trị>
ĐặtP:PA

r = {p1 , p2 , .., pk } là tập các vị từ đơn giản được
trích raĐặt
từ tập
Một
hộitập
vị từ
xâyđơn
dựng
từ
Pr các
= {pứng
cácđược
vị từ
giản
1, pdụng.
2, .., p
k} là
Pr
có
dạng:
được trích ra từ tập các ứng dụng. Một hội vị từ được
p1 ∗ ∧p2 ∗ ∧.. ∧ pn ∗
(3)

xây dựng từ Pr có dạng:

Trong đó pi ∗là vị từ mang 1 trong giá trị là pi hay ¬pi
p1*  p2* ..pn*
(2.3)
Thuật tốn PHORIZONTAL sử dụng các hội vị từ

đó ptừi*Plàr , vị
1 trong
là pi
có thểTrong
xây dựng
để từ
tìmmang
các điều
kiện giá
phântrịmảnh
ngang dữ liệu [11]. Quan hệ r(R) sẽ được phân mảnh thành
{r1 (R), r2 (R), .., rk (R)}, với ri (R) = σFi (r(R)), 1 ≤ i ≤ k;
Fi là một vị từ hội sơ cấp (mj ).
2.3. Hệ thống thông tin và quan hệ không phân biệt
Hệ thống thơng tin là một cặp SI=(U, A), trong đó U là
tập hữu hạn các đối tượng U={t1 , t2 , .., tn }, A là tập hữu
hạn khác rỗng các thuộc tính.
60

chất phản xạ, đối xứng và bắc cầu) xác định trên U được gọi
là một quan hệ không phân biệt trên U.
3. Thuật toán phân cụm hướng tri thức

Thuật toán phân cụm hướng tri thức KO-KnowledgeOriented Clustering dựa vào lý thuyết tập thô đầu tiên
được đề xuất bởi nhóm tác giả Shoji Hirano and Shusaku
Tsumoto (2001) [12]. Đây là thuật toán phân cụm tự động
xác định số cụm dựa vào bộ dữ liệu khảo sát. Ý tưởng chính
của thuật toán phân cụm này gồm 2 giai đoạn [3]:
1. Xây dựng 1 quan hệ tương đương ban đầu trên tập các
đối tượng cần phân cụm.

2. Hiệu chỉnh các quan hệ tương đương bằng cách sử
dụng một ngưỡng Tk dựa trên độ khơng phân biệt.
Q trình lặp cập nhật lại Tk cho đến khi thu được
phân cụm tốt nhất.
Thuật toán này được nhóm tác giả C.L Bean,
C.Kambhampati hiệu chỉnh và thử nghiêm (2008) [4] (bài
báo của nhóm tác giả chỉ xây dựng lại quan hệ tương đương
ban đầu dựa vào ý tưởng đường “đẳng trọng” so với cách
xây dựng dựa trên gradient của nhóm tác giả Shoji Hiran,
Shusaku Tsumoto). Các kết quả thử nghiệm của 2 nhóm tác
giả trên nhằm minh họa cho thuật toán, chưa đưa ra các ứng
dụng trong thực tế.
Sử dụng thuật toán này để phân mảnh dữ liệu, chúng tôi
đã đề xuất quan hệ tương đương ban đầu dựa trên khoảng
cách trung bình giữa các đối tượng.
Thuật tốn phân cụm hướng tri thức chúng tơi sử dụng
cụ thể như sau:
Input: U= Tập các đối tượng cần phân cụm
(Mỗi đối tượng phải được mô tả các thông tin cần thiết
để xây dựng độ tương tự).
Output: Các phân cụm (tương ứng với các phân mảnh
dữ liệu)
Method:
Bước 1: Xây dựng ma trận độ tương tự S=S(ti , tj ) giữa
tất cả các cặp đối tượng(ti , tj ).
Bước 2: Chỉ định một quan hệ không phân biệt ban đầu
Ri cho từng đối tượng. Tổng hợp để có được một phân cụm
ban đầu.
Bước 3: Xây dựng ma trận bất khả phân biệt Γ =
ν(ti , tj ) để đánh giá chất lượng phân cụm.

Bước 4: Sửa đổi phân cụm theo một quan hệ bất khả
phân biệt mới Rimod cho từng đối tượng để đạt được một
phân cụm sửa đổi.
Bước 5: Lặp lại bước 3 và 4 cho đến khi thu được một
phân cụm ổn định.
Chi tiết của thuật tốn có thể tham khảo [4][12]. Điểm
cần lưu ý là chúng tôi đề xuất cách xây dựng quan hệ không
phân biệt ban đầu khác với 2 nhóm tác giả Shoji Hirano,
Shusaku Tsumoto và C.L Bean, C.Kambhampati như sau:
Quan hệ không phân biệt ứng với thuộc tính thứ i:
Ri = {(ti , tj ) ∈ U × U : d(ti , tj ) ≤ Thi với j = 1, 2,
. . . , n}

Văn Sơn, Lương Văn Nghĩa
Định nghĩa 1. Độ đo tham chiếu của giao tác qi
{q1, q2, q3, q4}, và F = {f1, fLê
2, f3, f4} = {45, 5, 75, 3}.
với thuộcTrong
tính đó
Aj d(t
ký i hiệu
) haygiữa
Mij2làđốitần
suấttham
i, Ajcách
, tj ) làM(q
khoảng
tượng
- Tập

hiện
với đặc
tập các
giao
tác
Từtần
giảsuất
thiếtthực
ta có
cácứng
vector
trưng
tham
gia qphân
cụm.
{q
,
q
,
q
,
q
},
và
F
=
{f
,
f
,

f
,
f
}
=
{45,
5,
75,
3}.
1
2
3
4
1
2
3
4
giao tác
tham
chiếu
đến
thuộc
tính
A
được
xác
định
i
j
chiếu:

Từ giả thiết ta có các vector đặc trưng tham chiếu:
Ngưỡng Thi được xác định như sau:
bởi giá trị:
q
q q
q
1

2

3

4

q1 0 q2 0 q3 0 q4
VA1= 45
Aj )* fi 
M(qi, Aj) = Mij= nuse(qi ,TẠP
CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ ……………….
X

− s(t
)) /(n
i =suất thực(1
i , tjgiao
Với: fi làThtần
hiện
của
tác −
qi 1)

và




VA12== 045 5 0 75 0 0 0
VA23== 450 5 5 0 75 3 0
= 045 0 5 = {f
0 1,3f2,3f3, f4} = {45, 5, 75, 3}.
4=
{qVA
1, q3
2, q3, q4}, và F75
VA4 = 0
0 75 3

(4)

j=1,j6=i

use(qi, Aj) xácĐịnh
định nghĩa
bởi công
thứcđo(2.1).
1. Độ
tham chiếu của giao tác qi
Với
s(t
,
t

)
là
độ
tương
tự
của 2M(q
đối tượng
ti , tj .M
[2].là tần suất
i
j
với
thuộc
tính
A
ký
hiệu
Aj) hay
j
Định nghĩa 2. Vector đặc trưngi, tham
chiếu ijVA
Từ giả thiết ta có các vector đặc trưng tham
j
trận
độ
tương
tự S4x4
(s(A
tác
tham

chiếu
thuộc
tính
Ajtán
được
k , Akl ))
k=1,4;l=1,4
4. giao
Phân
mảnh
dọc
hệtham
cơ đến
sởchiếu
dữ
liệu
phân
dựa
vàođịnh MaMa
của thuộc
tính
Aqji ứng
với
của
các
giao
tácxác
trận
độ
tự =

S4x4
= (s(A
,A
chiếu: tương
l)) k=1,4;l=1,4
thuật
toán
phân
cụm
hướng
tri
thức
bởi
giá
trị:
(q1, q2, ..,qm) được xác định như sau:
A1 A2 A3 q1 qA2 4 q3 q4
Để chuyển
mảnh
A1 1
0VA1=0.9918
0
45 00 0
(qi ,dọc
A j )trọng
* f i hệ cơ sở dữ
M(qiq, bài
Aj) toán
= Mphân
ij = use

q
… q
1
liệu phân tán, các
giả thiết2 bài toán được mchuyển đổi sang
giả thiết bài
toán
phân
vàohiện
các của
kháigiao
niệmtác
sau:qi và
Với:
fi là
tầncụm
suấtdựa
thực

VAj=

M1j

A2
A3
A4

… Mmj

M2j

4.1.
Thuộc
Vector
trưng
tham
chiếu
use(q
) xácvàđịnh
bởiđặc
cơng
thức
(2.1).
i, Ajtính

1VA2=0.0073
0
50.9970
75
1
VA3= 45 50.0026
0
VA4= 0
01 75

0
3
3

Kết quả phân mảnh bằng thuật tốn phân cụm

Định
1.đồng
Độ
đo
tham
chiếu tính
của giao
qi vớichiếu
thuộcVAj Kết quả phân mảnh bằng thuật toán phân cụm hướng tri
4.2. Độ
đo nghĩa
tương
của
thuộc
Định
nghĩa
2.2Vector
đặc
trưngtáctham
hướng
tri thức
được:
thức thu
được:thu
tính
ký hiệu M(qi,
Aj) hay tham
Mij làchiếu
tần suất
giao

qi tác
củaAjthuộc
cáctác
giao
Ma trận độ tương tự S4x4= (s(Ak, Al)) k=1,4;l=1,4
j ứng
Định
nghĩatính
3. A
Độ
đo với
tương đồng
của của
2 thuộc
tham chiếu đến thuộc tính Aj được xác định bởi giá trị
Cụm
Tập thuộc
tính
Cụm ATập
thuộc
tính
, ql 2có
, ..,q
được xác
sau:chiếu tương
A2 A
A4
tính A(q
2 m)vector
đặc định

trưngnhư
tham
1
3
k, 1A

1 1 {A1, {A
A3} }
M(q , A ) = M = use(q , A ) ∗ fi
A1 {A
1 ,A 0}1 , A30.9918
0
2
2
4 ,A }
qm
{A
Với: fi là tần suất thực hiện của giao tác q…
A22
12 40.0073 0.9970
i và use(qi , Aj )
VAđịnh
, M2kthức
, .., (1).
Mmk)
Nhận xét:
k = (M
xác
bởi1kcông
A3

1
0.0026
Nhận xét:
VA
M
M
…
M
j=, .., M 1j
2j
mj
A
1 kết quả
4
VAl =
(M1l2.
, MVector
)
Định
nghĩa
đặc
trưng
tham
chiếu
VAj
của
thuộc
Kết
nàytrùng
trùngkhớp

khớp
2l
ml
Kếtquả
quảphân
phân mảnh
mảnh này
với với
kết quả phân
tính Aj ứng với tham chiếu của các giao tác (q1 , q2 , .., qm ) phân
Kết
quả
phân
mảnh
bằng
thuật
toán phân cụm
mảnh
dọc
theo
thuật
toán
BEA.
mảnh
dọc
theo
thuật
toán
BEA.
được

xácđo
định bởi độ
đo cosin:
4.2.xác
Độ
được
định tương
như sau:đồng của 2 thuộc tính
hướng tri thức thu được:
m
5. 5.Phân
cơsởsởdữ
dữliệu
liệu
phân
Phânmảnh
mảnhngang
ngang hệ
hệ cơ
phân
tántán
dựadựa
vào
Định nghĩa 3. Độ
đo tương đồng của 2 thuộc
q1
qM2 ik *...
q
M il m
Cụm

Tập
thuộc
tính
thuật
tốn
phân
cụm
hướng
tri
thức
vào thuật tốn phân cụm hướng tri thức
tính VA
Akk, *A
2 Mvector
chiếu tương
l có
VA
VA
Mđặc trưng
... Mtham
jl=
mj
1
{A1, A3}
s(Ak, Aứng
 1j i 1 2j
l) =
Tương
như phân
phân mảnh

dọc
hệ hệ
cơ cơ
sở dữ
(4.1)
với
Tươngtự như
mảnh
dọc2trong
sở liệu
dữ
m (q1, q2, ..,q
m m)::
VAkbộ* các
VAl giao tác
2
{A
,Atrong
4}
2
4.2. Độ đo tương đồng của M
2 thuộc
tínhM 2
phân
tán,
việc
chuyển
đổi
giả
thiết

phân
mảnh
ngang
[2]
từ
*
il
liệu phân
tán,xét:
việc chuyển đổi giả thiết phân mảnh
VAk = (M1k, M2k, ..,ikMmk)
Nhận
thuật
toán
PHORIZONTAL
dựa
trên
các
khái
niệm
cơ
sở
i

1
i

1
Định nghĩa 3. Độ đo tương đồng của 2 thuộc tính Ak , Al ngang [2] từ thuật toán PHORIZONTAL dựa trên các
VA

l = (M1l, M2l, .., Mml)
Kết quả phân mảnh này trùng khớp với kết quả
có 2 vector
đặc
trưng tham chiếu tương ứng với bộ các giao sau:
i
j
i
i
ứng với bộ các
giao
tácij(qq1,1 q2, ..,q
m):
q:2







khái niệm cơ sở sau:
5.1. Vector
hóa cácdọc
bảntheo
ghi thuật
của một
quan
hệ[A9].
phân mảnh

tốn
BEA
5.1.
Vector
hóa
các
bản
ghi
của
một
quan
hệcác vị từ
Xét
quan mảnh
hệ r(R)={T
.., Tsở
tậpliệu
1, T
2 , cơ
l }, dữ
VAk = (M1k , M2k , .., Mmk ) m
5.
Phân
ngang
hệ
phân tán dựa
Để minh
họa
mảnh dọc dựa vào
M ik *thuật

M il toán
đơn giản rút trích từ các ứng dụng trên r(R) là
VAl =
(Mphân
1l , M2l , .., Mml )
Xét quan
hệtoán
r(R)={T1,cụm
T2, hướng
..,Tl}, tập
các vị từ
tri các
thức
VAk *VA
1 thiết ví dụ bài
Pr = vào
{Pr1thuật
, Pr2 , ..,
Prmphân
}. Vector hóa
nhị phân
bản ghi
phân cụm
tri thức,
sử ldụng
s(Ahướng
 lại igiả
k, Al) =
đơn
giản

rút
trích
từ
các
ứng
dụng
trên
r(R)
là
Pr={Pr
(4.1)
1,
được
xác
định
bởi
độ
đo
cosin:
m
m
VA
*
VA
theo
qui
tắc:
Tương
như
phân

mảnh
dọc
trong
hệ cơ
sở dữ
l
tốn phân mảnh dọc kdựa vào
thuật tốn
BEA được
2
2
MP
M il
Pr2, ..,Prliệu
m}. Vector hóa nhị phân các bản ghi theo qui
m *
ik
phânPrtán,
việc
chuyển
trình bày trong [2]:
Pr
...
Prj đổi
... giả
Prmthiết phân mảnh
Miki ∗
1
2
i 1

1Mil
tắc:
VAk ∗ VAl
i=1
ngang
dựa trên các
T1[2]
...PrPHORIZONTAL
a1j.. Pr
... a1m
s
11 thuật
= s
(5)
k , Athuộc
l) =
Pra1từ
Pr2a12 ..tốn
- Tậps(Acác
tính:
Att = {A
j
m
1, A
2, A3, A4}
m
m
kVA
k k ∗ kVAl k
P

P
...
...
...sau: ...
...
...
...
2 ∗ toán M
2
4.3.
Phân
mảnh
dọc
dựa
vào
thuật
phân
cụm
khái
niệm
cơ
sở
M
T1 a11 a12 .. a1j .. a1m
il
- Tập các giao tác: Q = {q1, q2, q3i=1
, q4}ik
i=1
T
ai1

a
... aij
... aim
hướngMa
tri trận
thứcsừ dụng:
.. i
.. i2
..
...
...hóa ...
... ghi
... của
... một
... quan hệ
5.1.TiVector
các
bản
a
a
..
a
..
a
i1
i2
ij
im
4.3. Phân
mảnh

dọc
dựa
vào
thuật
tốn
phân
cụm
hướng
Để minh họa
phân
mảnh
dọc
dựa
vào
thuật
tốn
T
a
a
...
a
...
a
l
l1
l2
lj
lm
A1 A2 A3 A4
.. Xét quan

.. hệ r(R)={T1, T
.. 2, ..,Tl}, tập các vị từ
tri
thức
phân cụmqhướng
1 tri0 thức,
1 sử 0dụng lại giả thiết ví dụ bài
1
Tl al1 a(l2 .. alj .. alm
1, từ
khicác
Ti[Pr
truetrên r(R) là Pr={Pr1,
đơn giản
rút trích
ứng
dụng
j] =
Để minh
vào thuật
phân
0phândọc
1mảnh
1 dọcvào
0dựathuật
2mảnh
tốn
phânqhọa
dựa
tốntốn

BEA
được
∀aij =
1, khi
Tinhị
[Pr
]
true
0 [2]:
0lại giả1 thiết ví dụ bài tốn phân
Pr2, ..,Prm}. Vector
hóa
các bản ghi theo qui
cụm
hướng
sử 1dụng
khi
Ti[Pr
false

3thức,
j ]phân
j=
0,
trình
bàytriqtrong
[A8]
aij  
q4vào0thuật0 tốn1BEA1được trình bày trong [2]:
mảnh dọc dựa

tắc:
0, khi Ti [Pr j ]  false
các thuộc
tính:
Att, A
= {A
1, A2, A3, A4}
.. nhị
Prj phân
.. Prm
5.2. Độ đo tương đồngPrcủa
2Prvector
1
2
- -Tập Tập
các thuộc
tính Att
= {A
1
2 , A3 , A4 }
các
giao
=
{q
q
,
q
,
q
1,, q

2}
3giao
4}tác:
T
a
a
..
a
.. a1m
- Tập
tầnTập
suấtgiao
thực
hiên
với
tập
các
1
11
12
1j
- -Tập
các
tác
Q tác:
= ứng
{qQ
,
q
,

q
1 2 3 4
Xétđo
2 vector
, được
biểu diễn
các biến nhị
5.2. Độ
tươngxđồng
2 vector
nhịbằng
phân
i và xjcủa
..
..
..
Ma trận sử Ma
dụng:
trận sừ dụng:
phân. Giả sử các biến nhị phân có cùng trọng số. Ta có bảng
4.3. Phân
mảnh
dọc): dựa vào thuật tốn phân cụm
tác (q1 , qđược
xác định bởi độ đo cosin:
2 , .., qm
hướng tri thức





q1
q2
q3
q4

4

-

A1
1
0
0
0

A2
0
1
1
0



A3
1
1
0
1

A4
0
0
1
1

Ti ai1 ai2 .. aij .. aim
sự kiện như Bảng 1. Trong đó q là số các biến nhị phân bằng
..
..
..
1 đối với cả 2 vector xi và xj , s là số các biến nhị phân bằng
Tl al1 al2 .. alj .. alm
0 đối với xi nhưng bằng 1 đối với xj , r là số các biến nhị
phân bằng 1 đối với xi nhưng bằng
0 đối
t là
số các
Tivới
[Prxj ]j , 
true

1, khi
avới

biến nhị phân bằng 0 đối
cả
2
vector

x
và
x
[2].

ij
i
j

0, khi Ti [Pr j ]  false

Tập tần suất thực hiên ứng với tập các giao tác:

61

nhưng bằng 0 đối với xj, t là số các biến nhị phân bằng
VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 1(74).2014.QUYỂN II
0TẠP
đốiCHÍ
vớiKHOA
cả 2 HỌC
vector
xi và xj [2].
Bảng
1: Bảngsự
sựkiện
kiện cho
nhịnhị
phân

Bảng
1. Bảng
chobiến
biến
phân

Đối tượng i

Đối tương j
1
0 Tổng
q
r
q+r
1
s
t
s+t
0
Tổng q+s r+t
p

Sự khác nhau của 2 vector xi và trên
xj dựa
trên các
Sự khác nhau của 2 vector xi và xj dựa
các biến nhị
biến
nhị
phân

đối
xứng
(symmetric
phân đối xứng (symmetric binary dissimilarity) là: binary
dissimilarity) là:
d(xi , xj ) =

d ( xi , x j )

r
q r

r+s

sq + r + s + t
s t

(6)

(5.1)

Sự khác nhau của 2 vector xi và xj dựa trên các biến nhị
phân bất
xứng
(asymmetric
binaryxidissimilarity)
Sựđối
khác
nhau
của 2 vector

và xj dựa trên các

biến nhị phân bất đối xứng
r + s(asymmetric binary
d(xi , xj ) =
(7)
dissimilarity) là:
q+r+s

r s
Độdđo
xi và xj ,
( xitương
, x j ) đồng (similarity) giữa 2 vector (5.2)
được xác định bởi hệ
số
Jaccard:
q r s
sim(xđồng
1 − d(xi , xjgiữa
)
Độ đo tương
(similarity)
2 vector(8)xi
i , xj ) =
và xj, được xác định bởi hệ số Jaccard:
5.3. Phân mảnh ngang dựa vào thuật toán phân cụm
(5.3)
sim
hướng

tri( xthức
i , x j )  1  d ( xi , x j )

Sử dụng lại giả thiết ví dụ bài tốn phân mảnh ngang dựa

5.3.
mảnh
ngang dựa vào
thuật
phân[2]:
cụm
vào Phân
thuật tốn
PHORIZONTAL
được
trìnhtốn
bày trong
hướng
Giảtri
sử thức
có một quan hệ Emp
Sử dụng lại
giả thiết
ví dụ bài
tốn phân mảnh
ENO
ENAME
TITLE
ngang dựa vào
PHORIZONTAL

T1 thuật
E1 tốnJjoe
Elect-Eng được trình
T
E
M.Smith
Syst-Analyst
2
2
bày trong [2]:
T3

E3

A.Lee

Mech-Eng

Giả sử
hệ EmpProgrammer
T4có một
E4 quan
J.Smith
B.Casey
5
BảngT2.
DữE5liệu mẫu
để
T6
E6

L.Chu
TENO
E7 ENAME
R.David
7
T1
Jjoe
T8E1 E8
J.Jone

Syst-Analyst
phân
đoạn ngang
Elect-Eng
TITLE
Mech-Eng
Elect-Eng
Syst-Analyst

T2
E2
M.Smith
Syst-Analyst
Xét
T32 vị từE3đơn giản:A.Lee
Mech-Eng
- Tp41 =(TITLE>“Programmer”)
và Programmer
E4
J.Smith

- Tp52 =(TITLE<“Programmer”)
vớiSyst-Analyst
quy tắc so sánh
E5
B.Casey
chuỗi
theo
thứ
tự
a,b,c.
.
.
T6
E6
L.Chu
Elect-Eng
T7 hóaE7các bảnR.David
Vector
ghi theo 2 vị từ pMech-Eng
1 và p2 :
T8
E8
J.Jone
Syst-Analyst
T1
T2
T3
T4
T5
T6

T7
T8

p1
1
0
1
0
0
1
1
0

p2
0
1
0
0
1
0
0
1

5.4. Kết quả phân mảnh ngang quan hệ Emp theo thật
toán phân cụm hướng tri thức
Cụm
1
2
3
62

Tập các bản ghi
T1 , T3 , T6 , T7
T2 , T5 , T8
T4

p1
p2
T1
1
0
T2
0
1
Nhận xét: Kết quả phân
T3 mảnh
1 này 0trùng khớp với kết
quả phân mảnh ngang theo
T4 thuật 0tốn PHORIZONTAL.
0
T
0
1
5
6. Kết luận
T6
1
0
Trong bài báo này chúng
T7 tơi1trình bày

0 giải pháp phân
mảnh dọc và ngang của hệ
T8 cơ sở0 dữ liệu
1 phân tán dựa vào
thuật toán phân cụm hướng tri thức. Với giải pháp này chúng
quả
phân
hệbài
Emp
tôi 5.4.
đã đềKết
xuất
được
cách mảnh
chuyểnngang
đổi giả quan
thiết các
toántheo
phân
mảnh
cổ
điển
trở
về
giả
thuyết
cho
bài
toán
phân

cụm.
thật toán phân cụm hướng tri thức
Trong thuật tốn phân
hướng
tri thức,
Cụm cụm
Tập
các bản
ghi chúng tơi có
đề xuất cách xây dựng1quan hệ
tương
đương
T1, T3, T6, T7 ban đầu dựa
vào ngưỡng khoảng cách,
đây
làTđiểm
khác biệt với 2 thuật
2
2, T5, T8
toán của 2 nhóm tác giả3 Shoji Hirano,
Shusaku
Tsumoto và
T4
C.L Bean, C.Kambhampati đã đề xuất trước đó.
Nhận xét:
Kết quả thử nghiệm trên các bộ dữ liệu trong [13] cho
Kếttrùng
quả lắp
phân
này

khớp
với toán
kết quả
thấy kết quả
vớimảnh
kết quả
có trùng
được từ
2 thuật
phân
mảnh
cổ điển
là PHORIZONTAL
thuật tốn BEA.
phân
mảnh
ngang
theo thuật tốn và
PHORIZONTAL.
Ngồi dữ liệu thử nghiệm như đã trình bày, chúng tơi cịn
Kết luận
thử6.nghiệm
trên một số bộ dữ liệu khác, kết quả có được
cũng tương
đồng với
thuật
tốn
cổ điển
trên.
Trong

bài 2báo
này
chúng
tơinêu
trình
bày giải pháp
Tuy
các
bộ
cơ
sở
dữ
liệu
phân
tán
thử
nghiệm
cịnphân
nhỏ tán
phân mảnh dọc và ngang của hệ cơ sở dữ liệu
nhưng lại phù hợp với các thử nghiệm trên [2] cho các phân
dựa vào thuật toán phân cụm hướng tri thức. Với giải
mảnh cổ điển, đồng thời so sánh được với kết quả trên thuật
pháp
chúng
đề đã
xuất
cách gian
chuyển
tốn

phânnày
cụm
hướngtơitriđã
thức
đề được
xuất. Thời
tới, đổi
giả tơi
thiết
bài các
tốnbộphân
mảnh
cỗ điển
chúng
sẽ các
sưu tập
dữ liệu
đã được
cơngtrở
bố về
có giả
kích
thước
lớn
hơn
để
có
thử
nghiệm
so

sánh
tính
khả
dụng
thuyết cho bài toán phân cụm.
của giải pháp đề xuất với việc kết hợp các kỹ thuật phân
phân
cụm
cụm khácTrong
dựa vàothuật
thuật tốn
tốn di
truyền,
tiếnhướng
hóa haytricácthức,
chúng
tơi có đề
cách
hệ lý
tương
thuật
tốn heuristic
kếtxuất
hợp với
các xây
cơngdựng
cụ tốnquan
học như
thuyết
tập thơ,

[3][4]
đánh giákhoảng
và chỉ racách,
các giải
đương
ban tập
đầumờdựa
vàođểngưỡng
đây là
pháp
phânkhác
mảnhbiệt
dữ liệu
điểm
vớivới
2 hiệu
thuậtnăng
tốncao.
của 2 nhóm tác giả

Shoji Hirano, Shusaku Tsumoto và C.L Bean,
Tài liệu tham khảo
C.Kambhampati đã đề xuất trước đó.
[1] Adrian Runceanu, Towards Vertical Fragmention in Distributed
Kết quả
thử nghiệm
các bộondữComputer,
liệu trong
Databases,
International

Joint trên
Conferences
Information,
andkết
Systems
and Engineering
(CISSE
[13]
cho thấy
quảSciences,
trùng lắp
với kết quả
có 2007)
được từ
Conference; 01/2007.
2 thuật
tốn
phân
mảnh
là PHORIZONTAL
[2]
Lương Văn
Nghĩa
(2013),
Phân cổ
đoạnđiển
dọc, ngang
trong thiết kế cơ
dữ liệu phân tán dựa trên kỹ thuật phân cụm, Tạp chí Khoa học
vàsở

thuật
tốn
BEA.
Ngồi
dữ
liệu
thử
nghiệm như đã
và Cơng nghệ, Đại học Đà Nẵng, số 3(64).2013.
trình
bày,
tơi cịn
trên
số thơ
bộ dữ
[3]
Lương
Vănchúng
Nghĩa (2012),
Khaithử
phánghiệm
dữ liệu theo
tiếpmột
cận tập
nhằm tìm thuộc tính hạt nhân và chọn đặc trưng trên tập cơ sở dữ liệu
liệu
khác, kết quả có được cũng tương đồng với 2
lớn, Tạp chí KH&CN, ISSN 0866-7659, Đại học Phạm Văn Đồng,
số (01),
12/2012,

pp 46-54.
thuật
toán
cổ điển
nêu trên.
[4] C.L Bean, C.Kambhampati (2008), Automonous Clustering Using
Rough Set Theory, International Journal of Automation and
Computing, Vol.5 (No.1). pp. 90-102. ISSN 1476-8186.
[5] S. Chakravarthy, J. Muthuraj, R. Varadarajan, and S. Navathe,
5
Anobjective function for vertically partitioning relations in
distributed databases and its analysis, Tech Rep. UF-CIS-TR-92-045,
1994.
[6] Hui Ma, Klaus-Dieter Schewe and Markus Kirchberg, A
Heuristic Approach to Vertical Fragmentation, Proceedings of
the 2007 conference on Databases and Information Systems IV:
Selected Papers from the Seventh International Baltic Conference
DB&IS’2006, page 103-116.
[7] I. Lungu, T. Vatuiu, A. G. Fodor (2006), Fragmentation solutions
used in the projection of Distributed Database System, Proceedings
of the 6th International Conference "ELEKTRO 2006", pp. 44-48,
Edis-Zilina University Publishers.
[8] Navathe S, Ceri S, Wiederhold G, Dou J (1984), Vertical
partitioning algorithms for database design, ACM Trans Database
Syst, 9(4).

Lê Văn Sơn, Lương Văn Nghĩa
[9] Marwa F. F. Areed, Ali I.El-Dosouky, Hesham A. Ali, A Heuristic
Approach for Horizontal Fragmentation and Allocation in DOODB,

infos2008.fci.cu.edu.eg/infos/DB-02-P009-016.pdf.
[10] Narasimhaiah Gorla, Pang Wing Yan Betty, Vertical
Fragmentation in Databases Using Data-Mining Technique, www.
irmainternational.org/chapter/vertical-fragmentation-databases-usingdata/40404/.
[11] Shahidul Islam Khan, A. S. M. Latiful Hoque (2010), A New
Technique for Database Fragmentation in Distributed Systems,
International Journal of Computer Applications (0975 – 8887), pp.

20-24, Volume 5– No.9.
[12] Shoji Hirano and Shusaku Tsumoto, A Knowledge-Oriented
Clustering Technique Based on Rough Sets, Computer Software and
Applications Conference, 2001. COMPSAC 2001.
[13] Tamer O., Valduriez P.. (1999), Principles of Distributed Database
Systems, Prentice Hall Englewood Cliffs, Second Edition, New
Jersey 07362.
[14] Yin-Fu Huang, Jyh-her Chen, Fragment Allocation in Distributed
Database Design, Journal of Information Science and Engineering,
491-506(2001).

(BBT nhận bài: 21/12/2013, phản biện xong: 22/01/2014)

63

Phân mảnh dữ liệu trong thiết kế cơ sở dữ liệu phân tán dựa vào kỹ thuật phân cụm hướng tri thức

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về