Tải bản đầy đủ (.pdf) (27 trang)

Nghiên cứu hệ sinh ánh xạ đóng và ứng dụng trong thể hiện ngữ nghĩa dữ liệu (tóm tắt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (469.61 KB, 27 trang )



BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM


VIỆN CÔNG NGHỆ THÔNG TIN




BÙI ĐỨC MINH


NGHIÊN CỨU HỆ SINH ÁNH XẠ ĐÓNG
VÀ ỨNG DỤNG TRONG THỂ HIỆN
NGỮ NGHĨA DỮ LIỆU


Chuyên ngành: BẢO ĐẢM TOÁN HỌC CHO MÁY TÍNH
VÀ HỆ THỐNG TÍNH TOÁN
Mã số: 62.46.35.01







TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC











NỘI
- 2014


Công trình được hoàn thành tại: Viện Công nghệ Thông tin - Viện Khoa
học và Công nghệ Việt nam






Người hướng dẫn khoa học
1. PGS. TSKH. NGUYỄN XUÂN HUY
2. TS. HOÀNG QUANG





Phản biện 1: …………………………………………

Phản biện 2: …………………………………………
Phản biện 3: ………………………………………




Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp nhà nước
họp tại: …………………………………………………………….
…………………………………………………………………….
vào hồi giờ ngày tháng năm 20…






Có thể tìm hiểu luận án tại thư viên: ……………………………
…………………………………………………………………….

1

PHẦN MỞ ĐẦU
1. Đặt vấn đề
Trong nghiên cứu và mô tả thế giới thực, cùng với việc phản ánh ngữ nghĩa dữ
liệu của cơ sở dữ liệu thì lý thuyết về phụ thuộc dữ liệu đóng một vai trò rất cơ bản.
quan trọng. Phụ thuộc dữ liệu trong thiết kế và quản trị một cơ sở dữ liệu được hiểu là
sự mô tả các ràng buộc mà dữ liệu phải thỏa mản trong các bài toán thực tế và đây
cũng là yếu tố quyết định đến chất lượng dữ liệu trong quá trình xử lý và quản trị một
hệ thống. Một số kết quả nghiên cứu trong các năm gần đây cho thấy có thể vận dụng
khái niệm ánh xạ đóng để tiếp tục nghiên cứu các vấn đề thuộc về ngữ nghĩa dữ liệu.

Các công trình nghiên cứu về lý thuyết giàn giao từ cuối những năm 90 đến nay cũng
có nhiều đóng góp trong các lĩnh vực về khai phá dữ liệu và cơ sở dữ liệu. Việc tiếp
tục nghiên cứu các ứng dụng trên lý thuyết giàn giao cũng là một vấn đề đáng quan
tâm. Mỗi ánh xạ đóng được đặc trưng thông qua một hệ suy dẫn gọi là hệ sinh. Để
quản lý các hệ suy dẫn lớn, phức tạp cần phải có nhiều thuật toán hiệu quả để tính
toán các đối tượng. Nếu kích thước của hệ suy dẫn càng nhỏ thì hiệu quả các thuật
toán đạt được càng cao. Kỹ thuật thu gọn hệ sinh là một tiếp cận để giải quyết bài
toán này với ý tưởng là loại bỏ khỏi hệ sinh ban đầu một số phần tử để thu được hệ
sinh mới có kích thước nhỏ hơn và biểu diễn lại các đối tượng của hệ sinh ban đầu
theo các đối tượng của hệ sinh mới. Kỹ thuật này đã được các nhà khoa học từ đầu
những năm 2000 đến nay công bố trong nhiều công trình. Vấn đề chọn lựa tập phần
tử để loại bỏ như thế nào để đạt hiệu quả cũng là một bài toán cần tiếp tục nghiên
cứu. Bên cạnh đó, bài toán đặt ra là ngoài kỹ thuật thu gọn hệ sinh thì ta còn có thể sử
dụng phương pháp nào để thu nhỏ kích thước một hệ suy dẫn? Đây là bài toán cũng
cần được khảo sát và nghiên cứu.
2. Mục đích của luận án
Mục đích của luận án là tìm kiếm, phát triển các công cụ và phương pháp biểu
diễn các đối tượng của một hệ suy dẫn nhằm rút gọn không gian lưu trữ và nâng cao
hiệu quả tính toán. Trên cơ sở đó, vận dụng các kết quả thu được về mặt lý thuyết vào
các ứng dụng cụ thể trong một số lĩnh vực cơ sở dữ liệu và khai phá dữ liệu.
3. Phương pháp nghiên cứu
Tổng hợp tài liệu và các kết quả nghiên cứu đã công bố có liên quan đến đề tài.
Trao đổi, học hỏi với các chuyên gia đang làm việc cùng lĩnh vực đang nghiên cứu và
các lĩnh vực có liên quan.
Đối sánh các kết quả thu được về mặt lý thuyết và thuật toán với các kết quả đã
công bố nhằm đánh giá ý nghĩa và hiệu quả của các kết quả trong khuôn khổ luận án.
Vận dụng các phương pháp và cấu trúc của toán học rời rạc (bao gồm cả logic
hình thức) để chứng minh một số kết quả trong luận án.

2


3. Bố cục luận án

Luận án được trình bày trong 03 chương, phần mở đầu, phần kết luận
Chương 1. Một số khái niệm cơ bản trong cơ sở dữ liệu quan hệ và khai phá dữ
liệu
Chương này đề cập đến một số khái niệm chung và cơ bản nhất về lý thuyết cơ
sở dữ liệu quan hệ, cụ thể như khái niệm về quan hệ, bộ, thuộc tính, LĐQH, khái
niệm phụ thuộc hàm, bao đóng của tập phụ thuộc hàm, bao đóng tập thuộc tính, bài
toán thành viên, khóa và phản khóa, …. Ngoài ra, trong chương cũng trình bày một
số khái niệm cơ bản được sử dụng khi khai phá dữ liệu như khái niệm về cơ sở dữ
liệu giao tác, tập phổ biến, luật kết hợp, …, kết nối Galois và một số tính chất cơ bản.
Chương 2. Ánh xạ đóng & Lý thuyết giàn giao và ứng dụng
Chương này giới thiệu một số khái niệm, tính chất của ánh xạ đóng và lý thuyết
giản giao. Kết quả mới trong chương gồm có phát biểu về một điều kiện đủ để phép
hợp thành các AXĐ là một AXĐ và điều kiện để một họ con các AXĐ đóng với phép
hợp thành. Ngoài ra, một số kết quả đạt được khi xây dựng các ứng dụng của AXĐ,
lý thuyết giàn giao trong các bài toán khai phá dữ liệu và lý thuyết cơ sở dữ liệu cũng
được trình bày ở đây.
Chương 3. Hệ sinh ánh xạ đóng và một số kết quả nghiên cứu
Trong chương chủ yếu trình bày các định nghĩa, tính chất quan trọng của hệ sinh
AXĐ và các định lý, bổ đề biểu diễn cơ sở, phản cơ sở của hệ sinh AXĐ thông qua
kỹ thuật thu gọn hệ sinh. Kết quả mới và chủ yếu trong chương này là đề xuất một
dạng biểu diễn phản cơ sở của hệ sinh theo vế phải tối đại của tập luật sinh cùng với
thuật toán thu gọn một hệ sinh bất kỳ về một hệ sinh đơn giản gọi là hệ sinh cân bằng
và định lý về tính đúng của thuật toán. Bên cạnh đó, trong chương cũng trình bày một
số kết quả nghiên cứu thu được khi xây dựng các dạng giản lược của tập luật sinh, sự
tương quan giữa các đối tượng trong hệ sinh AXĐ, ….
CHƯƠNG 1: MỘT SỐ KHÁI NIỆM CƠ BẢN TRONG CƠ SỞ DỮ
LIỆU QUAN HỆ VÀ KHAI PHÁ DỮ LIỆU

VÀ KHAI PHÁ DỮ LIỆU

1.1 Khái niệm về cơ sở dữ liệu quan hệ
Cơ sở dữ liệu quan hệ và các khái niệm cơ bản đã được công bố trong rất nhiều
công trình. Ở đây chỉ trình bày tóm tắt lại các khái niệm về quan hệ, thuộc tính, bộ
cùng một vài ký hiệu và quy ước.

3

Định nghĩa 1.1
Cho tập hữu hạn và khác rỗng U = {A
1
, A
2
, , A
n
} với n 1. Các phần tử
thuộc U gọi là thuộc tính. Với mỗi thuộc tính A
i
U, i = 1, 2, , n là một tập tương
ứng dom(A
i
)

với dom(A
i
) 2

gọi là miền giá trị của thuộc tính A
i

. Gọi D là hợp của
các dom(A
i
), i = 1,2, ,n. Ta ký hiệu quan hệ R với các thuộc tính trên U là R(U), với
R là một tập các ánh xạ t: UD với t(A
i
) dom(A
i
), A
i
U. Mỗi ánh xạ gọi là một
bộ của quan hệ R.
1.2 Phụ thuộc hàm
Phụ thuộc hàm là một trong những lớp phụ thuộc logic được đề xuất đầu tiên có
một vai trò rất quan trọng trong việc thiết kế và xử lý các cơ sở dữ liệu. Trong phần
này sẽ trình bày các khái niệm cơ bản như phụ thuộc hàm, bao đóng tập phụ thuộc
hàm, các loại suy dẫn, bao đóng tập thuộc tính, …
1.2.1. Khái niệm phụ thuộc hàm
Cho tập thuộc tính U hữu hạn và khác rỗng. Một phụ thuộc hàm (PTH) trên U
có dạng f: XY ; X,Y  U. Nếu XY là một PTH trên U thì ta nói tập thuộc tính Y
phụ thuộc vào tập thuộc tính X, hoặc tập thuộc tính X xác định hàm tập thuộc tính Y.
Cho quan hệ R(U) và PTH f: XY trên U. Ta nói quan hệ R thoả PTH f và viết
R(f), nếu hai bộ tuỳ ý trong R giống nhau trên X thì chúng cũng giống nhau trên Y,
R(XY)  (u,v  R): (u.X = v.X)  (u.Y = v.Y)
Cho tập PTH F trên tập thuộc tính U. Ta nói quan hệ R(U) thoả tập PTH F, và
viết R(F), nếu R thoả mọi PTH trong F, R(F)  ( f  F): R(f)
Nếu quan hệ R thỏa PTH f ta cũng nói PTH f đúng trong quan hệ R.
1.2.2. Lược đồ quan hệ
Cặp a = (U, F) được gọi là một lược đồ quan hệ (LĐQH) với
U

là tập hữu hạn
các thuộc tính,
F
là tập các
PTH
trên tập thuộc tính
U.

1.2.3. Bao đóng tập phụ thuộc hàm
Định nghĩa 1.2
Cho tập PTH F trên tập thuộc tính U. Tập nhỏ nhất các PTH trên U chứa F được
gọi là bao đóng của F, ký hiệu F
+
thoả các tính chất F1-F3 của hệ tiên đề Armstrong
A
o
được trình bày như sau:
X, Y, Z  U:
F1. Tính phản xạ: Nếu X  Y thì XY  F
+

F2. Tính gia tăng: Nếu XY  F
+
thì XZYZ  F
+

F3. Tính bắc cầu: Nếu XY  F
+
và YZ  F
+

thì XZ  F
+



4

Định nghĩa 1.3
Ta nói PTH f được suy dẫn theo tiên đề (suy dẫn logic) từ tập PTH F và ký hiệu
là F╞ f, nếu f  F
+
, F╞ f  f  F
+

Định nghĩa 1.4
Gọi F là tập PTH trên tập thuộc tính U và f là một PTH trên U. PTH f được nói
là suy dẫn theo quan hệ từ tập PTH F, ký hiệu là F├ f, nếu mọi quan hệ R(U) thoả F
thì cũng thoả f, F├ f  SAT(F)  SAT(f)
Định nghĩa 1.5
Cho tập PTH F trên tập thuộc tính U, ta ký hiệu F* là tập các PTH f trên U
được suy dẫn theo quan hệ từ tập PTH F. Ta viết: F * = { f: XY | X,Y  U, F├ f }
Ta có thể khẳng định suy dẫn theo quan hệ và suy dẫn theo tiên đề là một, nghĩa

F
+
= F *.
Nói cách khác, ta có, F╞ f  F├ f
Định nghĩa 1.6
Cho tập thuộc tính U và F là tập PTH trên U. Gọi f là một PTH trên U. f gọi là
PTH được suy dẫn theo quan hệ có không quá p bộ từ F và viết F ├

p
f, nếu mọi quan
hệ R trong REL
p
(U) thoả tập F thì R cũng thoả f . Ta có thể viết:
F├
p
f  SAT
p
(F)  SAT
p
(f)
Gọi F là tập PTH trên tập thuộc tính U, F' là tập các PTH f trên U được suy dẫn
theo quan hệ có không quá hai bộ từ tập PTH F. Khi đó,
F' = { f: XY | X,Y  U, F├
2
f }
Để chứng tỏ các loại suy dẫn theo tiên đề, suy dẫn theo quan hệ và suy dẫn theo
quan hệ có không quá P bộ là hoàn toàn tương đương, ta xem định lý sau,
1.2.4. Định lý tương đương
Định lý 1.1
F
+
= F * = F'
1.2.5. Bao đóng tập thuộc tính
Cho tập PTH F trên tập thuộc tính U và một tập con các thuộc tính X trong U.
Bao đóng của tập thuộc tính X, ký hiệu X
+
là tập thuộc tính X
+

= {A U | X  AF
+
}
Bao đóng có một số các tính chất cơ bản sau,
Cho LĐQH a = (U,F). Khi đó  X, Y  U ta có
(i) Tính phản xạ: X  X
+

(ii) Tính đồng biến: X  Y

X
+
Y
+

(iii) Tính lũy đẳng: (X
+
)
+
= X
+

1.2.6. Bài toán thành viên
Bài toán được phát biểu: Cho tập thuộc tính U, tập các PTH F trên U và một
PTH f: XY trên U. Hỏi rằng, f  F+ hay không? Định lý thành viên phát biểu như

5

sau, phụ thuộc hàm XY  F
+

khi và chỉ khi Y  X
+
.

1.3. Khóa và phản khóa của LĐQH
Khi làm việc với một lược đồ quan hệ thì khóa và phản khóa là những khái niệm
rất cơ bản và quan trọng. Sau đây là phần trình bày lại một số khái niệm và tính chất
có liên quan đến khóa và phản khóa của một lược đồ quan hệ.
1.3.1. Khoá của lược đồ quan hệ
Định nghĩa 1.7
Cho LĐQH a = (U, F). Tập thuộc tính K  U gọi là khoá của LĐQH a nếu,
(i) K
+
= U
(ii) A K: (K \ A)
+
U
Nếu K thoả điều kiện (i) thì K được gọi là một siêu khoá.

Định nghĩa 1.8
Tập thuộc tính Y U được gọi là phụ thuộc đầy đủ vào tập thuộc tính X U, và
được ký hiệu là X  Y nếu,

(i) X Y, và

(ii) (A X): X \ A ↛ Y

Khi nghiên cứu về khóa của một LĐQH, trong nhiều công trình các tác giả đã
phát biểu về một số tính chất của khóa như sau: Cho LĐQH a = (U, F). Khi đó:
(i) K  U là một khoá khi và chỉ khi U phụ thuộc đầy đủ vào K.

(ii) Hai khoá khác nhau của một LĐQH không bao nhau.
(iii) Mọi LĐQH đều có ít nhất một khoá.
Ngoài ra, tính chất đặc trưng của các thuộc tính khóa trong LĐQH được phát
biểu như sau,
Cho K là một khóa của LĐQH a = (U,F). Khi đó, X  K: X
+
K=X.
Bên cạnh đó, công thức tính giao các khóa của một LĐQH cũng được trình bày
như sau, Cho LĐQH a = (U,F) với n thuộc tính trong U và m PTH trong F. Gọi U
I

giao các khóa của a. Khi đó, giao các khóa được tính qua công thức sau ,

FRL
I
LRUU

 )\(\

Từ công thức tính giao các khóa, tính chất về khóa duy nhất của LĐQH cũng
được phát biểu như sau,
Cho LĐQH a = (U,F). Gọi U
I
là giao của các khóa trong a. Khi đó a có một
khóa duy nhất khi và chỉ khi U
I
+
= U.

1.3.2 Phản khóa của lược đồ quan hệ

Định nghĩa 1.9
Cho LĐQH a = (U, F). Tập con P  U được gọi là phản khóa của a nếu:
i P
+
 U, và

6

ii AU \ P: PA

= U.
1.4. Một số khái niệm trong khai phá dữ liệu
Khai phá dữ liệu là một lĩnh vực được quan tâm hiện nay. Trong phần này sẽ
trình bày một số khái niệm về cơ sở dữ liệu giao dịch, khái niệm tập phổ biến, luật
kết hợp và một số khái niệm khác có liên quan đến khai phá dữ liệu. Cũng trong phần
này, kết nối Galois và một số tính chất cũng sẽ được đề cập.
1.4.1 Một số khái niệm cơ bản
Cơ sở dữ liệu giao dịch được định nghĩa là một cặp α = (T, I) với I = {x
1
, x
2
, …,
x
n
} là tập các mục dữ liệu và T = {t
1
, t
2
, …, t
m

} là tập các giao tác trên α. Mỗi giao tác
t  T được biểu diễn dưới dạng một vector nhị phân, trong đó giá trị tại vị trí i bằng 1
cho biết mục x
i
xuất hiện trong t, bằng 0 cho biết mục x
i
không xuất hiện trong t.

Cho tập mục X  I. Ta gọi độ phổ biến của X trong α là số giao tác trong α chứa
X, ký hiệu là

(X). Tập X  I được gọi là tập phổ biến nếu

(X) ≥ minsup với minsup
là ngưỡng phổ biến do người dùng quy định.

Từ các khái niệm trên, ta có thể nhận xét như sau,
Mọi tập con của tập phổ biến là tập phổ biến. Ngược lại, mọi tập cha của một tập
không phổ biến thì không phổ biến.
1.4.2 Luật kết hợp và kết nối Galois
Định nghĩa 1.10
Luật kết hợp (Association Rule) trên cơ sở dữ liệu giao dịch α = (T, I) là một biểu
thức có dạng X
1
→ X
2
, với X
1,
X
2

 I và X
1
∩ X
2
= .
+ Độ phổ biến của luật kết hợp, X
1
→ X
2
, là

( X
1
 X
2
)=

(X
1
X
2
).
+ Độ tin cậy của luật kết hợp, X
1
→ X
2
, là tỷ số

(X
1

X
2
) /

(X
1
).
+ Ta gọi X
1
→ X
2
là luật phổ biến nếu

(X
1
X
2
) ≥ minsup, là luật tin cậy nếu

(X
1
X
2
) /

(X
1
) ≥ minconf với minsup, minconf là ngưỡng phổ biến và ngưỡng tin
cậy do người dùng quy định.


Định nghĩa 1.11
Cho cơ sở dữ liệu giao dịch α = (T, I). Gọi Subset(X) là tập chứa tất cả các tập
con của X. Ta định nghĩa các ánh xạ sau,

t: Subset(I) → Subset(T), t(X) = {u  T | u.X =1}. Nói cách khác thì t(X) là tập
tất cả các giao tác trên T chứa mọi mục dữ liệu trong X.
i: Subset(T) → Subset(I), i(Y) = {x  I | t  Y, t.x =1}. Nói cách khác thì i(Y) là
tập tất cả các mục dữ liệu thuộc I có mặt ở tất cả các giao tác t thuộc Y.
Cặp ánh xạ (t, i) được gọi là kết nối Galois. Kết nối Galois thỏa các tính chất sau,

Y,

Y
1
, Y
2
 T và X, X
1
, X
2
 I,:

(i) Y
1
 Y
2
 i(Y
2
)  i(Y
1

)


7

(ii) X
1
 X
2
 t(X
2
)  t(X
1
)

(iii) Y  t(i(Y)), X  i(t(X))

(iv) i(Y
1
 Y
2
) = i(Y
1
)  i(Y
2
)

(v) t(X
1
 X

2
) = t(X
1
)  t(X
2
)

CHƯƠNG 2: ÁNH XẠ ĐÓNG & LÝ THUYẾT GIÀN GIAO VÀ
ỨNG DỤNG
2.1 Ánh xạ đóng
Ánh xạ đóng thuộc về họ các ánh xạ được sử dụng để thiết lập mối quan hệ giữa
các tập con của một tập hữu hạn thỏa các tính chất phản xạ, đồng biến và lũy đẵng.
Trong chương này của luận án sẽ trình bày một số định nghĩa và tính chất cơ bản của
ánh xạ đóng, vai trò của ánh xạ đóng trong việc ứng dụng giải quyết các bài toán về
khai phá dữ liệu và lý thuyết cơ sở dữ liệu.
2.1.1. Các khái niệm và tính chất ánh xạ đóng
Định nghĩa 2.1
Cho tập
U hữu hạn.
Ánh xạ
f
:
SubSet
(
U
) 
SubSet
(
U
)


được gọi là đóng trên
U
nếu với mọi tập con
X, Y

U
thỏa các tính chất sau,
(i) Tính phản xạ:
f
(X)  X,
(ii) Tính đồng biến: Nếu X  Y thì f(X)  f(Y),
(iii) Tính lũy đẳng: f(f(X)) = f(X).
Ngoài ba tính chất trên, ánh xạ đóng (AXĐ) còn thỏa các tính chất sau, Gọi f là
AXĐ cho trước trên U. Khi đó, với mọi X,Y  U ta thu được,
(iv) f(f(X)Y) = f(Xf(Y)) = f(XY)
(v) fXY  fXfY
(vi) f(XY)  f(X) f(Y)
Ngoài các khái niệm trên, các định nghĩa và định lý sau đây sẽ trình bày về phép
hạn chế của AXĐ trên một tập con. Đây cũng được xem là một tính chất quan trọng
của AXĐ, cụ thể là hạn chế của một AXĐ trên một tập con cũng là một AXĐ.
2.1.2. Phép hạn chế của ánh xạ đóng
Định nghĩa 2.2
Cho AXĐ f trên U và một tập con M của U. Hạn chế của ánh xạ f trên M, ký
hiệu f
M
là ánh xạ trên M được xác định như sau: X  M, f
M
(X) = f(X )  M


Ngoài ra, các nhà nghiên cứu cũng đã chứng minh được là với mọi AXĐ f trên
U và với mọi tập con M của U, f
M
là một AXĐ trên M.

8

2.1.3. Điểm bất động (tập đóng) trên ánh xạ đóng
Cho AXĐ f trên tập U hữu hạn. Tập con X  U được gọi là điểm bất động (hay
là tập đóng) của AXĐ f nếu f(X) = X .
Ta ký hiệu Fix(f) là tập toàn bộ các điểm bất động của AXĐ f. Vì f(U) = U nên
Fix(f) luôn chứa U. Mặt khác, dựa vào tính lũy đẳng của các AXĐ ta có thể mô tả
Fix(f) như sau, Fix(f) = { f(X) | X  U}

Bên cạnh các khái niệm và tính chất đã trình bày của AXĐ, khi nghiên cứu về
các phép toán trên AXĐ thì phép toán hội và phép toán hợp thành trên AXĐ cũng
đóng một vai trò cơ bản trong việc giải quyết các bài toán ứng dụng trong cơ sở dữ
liệu. Phần sau đây sẽ lần lượt trình bày các định nghĩa và các mệnh đề, định lý có liên
quan đến các phép toán trên. Ngoài các kết quả đã được các tác giả khác công bố,
trong luận án cũng phát biểu thêm một điều kiện đủ để phép toán hợp thành các AXĐ
là một AXĐ, đồng thời chỉ ra điều kiện để họ con các AXĐ đóng với phép hợp thành
2.2 Các phép toán trên ánh xạ đóng
Bên cạnh các khái niệm và tính chất đã trình bày của AXĐ, phép toán hội và
phép toán hợp thành trên AXĐ cũng đóng một vai trò cơ bản khi giải quyết các bài
toán ứng dung trong cơ sở dữ liệu. Phần này cũng trình bày một số khái niệm cơ bản
có liên quan đến các phép toán trên cùng với một số kết quả nghiên cứu của chúng tôi
liên quan đến phép toán hợp thành các AXĐ.
2.2.1. Phép toán hội
Định nghĩa 2.3
Cho các AXĐ f, g trên tập U hữu hạn. Ta xác định ánh xạ h trên U như sau,

h(X) = f(X)  g(X), X  U. Ta gọi h là hội các AXĐ f và g và ký hiệu là h = f*g.

Các nhà nghiên cứu cũng đã chứng minh được là hội của hai AXĐ trên U là một
AXĐ trên U. Nói cách khác, không gian các AXĐ đóng với phép toán hội.

2.2.2 Phép toán hợp thành
Định nghĩa 2.4
Cho hai AXĐ f, g trên tập U hữu hạn. Ánh xạ k được xác định trên U như sau,
k(X) = f(g(X)), X  U. k gọi là hợp thành của hai AXĐ f và g, ký hiệu là k = f

g
Tuy nhiên, các nhà nghiên cứu cũng đã chứng minh được phép hợp thành các
AXĐ chỉ thỏa tính phản xạ và đồng biến nhưng không thỏa tính lũy đẵng và cũng
không có tính chất giao hoán.
Định nghĩa 2.5
Cho tập hữu hạn U và các ánh xạ f, g  Map(U). Ta nói ánh xạ f hẹp hơn ánh
xạ g và ký hiệu là f  g, nếu với mọi X  U ta luôn có f(X)  g(X).
Với mọi ánh xạ f, g, h  Map(U), quan hệ “hẹp hơn”  thoả các tính chất sau:

9

(i) Phản xạ: f  f,
(ii) Phản xứng: Nếu f  g và g  f thì f = g,
(iii) Bắc cầu: Nếu f  g và g  h thì f  h.
Mệnh đề 2.1
Hợp thành hai AXĐ không hẹp hơn mỗi ánh xạ thành phần, tức là, với mọi
AXĐ f và g, ta có:
1. f

g  f , 2. f


g  g

Mệnh đề 2.2
Với mọi AXĐ f, g và h trên U, nếu f  g thì
1. f

h  g

h, 2. h

f  h

g.
Mệnh đề 2.3
Với mọi AXĐ f, g, k và h trên U, nếu f  k và g  h thì f

g  k

h.
Mệnh đề 2.4
Với mọi AXĐ f, g  CloseU ba điều kiện sau đây là tương đương:
(i) f  g, (ii) f

g = g, (iii) g

f = g.
Để phép hợp thành các AXĐ là một AXĐ thì điều kiện cần và đủ thứ nhất được
phát biểu qua định lý sau,
Định lý 2.1

Cho hai AXĐ f và g. Các hợp thành f

g và g

f đồng thời là các AXĐ khi và chỉ
khi chúng giao hoán.
Định lý sau đây cũng sẽ phát biểu điều kiện cần và đủ thứ hai để hợp thành các
AXĐ là một AXĐ,
Định lý 2.2
Hợp thành f.g của hai AXĐ f và g là một AXĐ khi và chỉ khi f

g

f = f

g.
Sau đây là phần trình bày một vài kết quả nghiên cứu về phép hợp thành,
Hệ quả 2.1
Cho các ánh xạ đóng f, g trên tập U hữu hạn. Nếu f  g hay g  f thì hợp thành
f.g và g.f là các ánh xạ đóng.
Bổ đề 2.1
Cho G  Close(U) với Close(U) là tập toàn thể các AXĐ trên U hữu hạn. Tập G
đóng với phép hợp thành nếu G là thứ tự toàn phần đối với phép  “hẹp hơn”.
2.2.3 Ứng dụng phép toán hợp thành
Bài toán được phát biểu như sau: Cho hai tập phụ thuộc hàm F và G trên cùng
một tập thuộc tính U. Có tồn tại hay không tập phụ thuộc hàm H trên U thỏa tính chất
sau: X  U: (X )
H
+
= ((X )

G
+
)
F
+

10

Để tiện trình bày, ta ký hiệu f, g, h lần lượt là các ánh xạ tính bao đóng của các
tập con thuộc tính theo các tập phụ thuộc hàm F, G, H tương ứng. Cụ thể là ta có thể
viết f(X) = X
F
+
, g(X) = X
G
+
, h(X) = X
H
+
.
Do f, g là các ánh xạ đóng trên U nên tập phụ thuộc hàm H tồn tại khi và chỉ khi
phép hợp thành f.g là ánh xạ đóng. Lúc này, ta có thể vận dụng các định lý 2.1, 2.2 và
hệ quả 2.1 của phép hợp thành AXĐ đã trình bày trong mục 2.2.2.
2.3 Cơ sở và phản cơ sở của ánh xạ đóng
Trong phần này sẽ trình bày một số các định nghĩa về cơ sở và phản cơ sở của
ánh xạ đóng. Một số các bổ đề, tính chất và định lý có liên quan đến kết quả nghiên
cứu về phản cơ sở trong luận án cũng được trình bày ở đây.
2.3.1. Cơ sở ánh xạ đóng
Định nghĩa 2.6
Cho AXĐ f trên U. Tập con K của U được gọi là cơ sở của AXĐ f nếu K thỏa

đồng thời hai tính chất sau đây
i Tính toàn thể: fK = U, và
ii Tính tối tiểu:  X  K: fX  U.
Nếu K thỏa tính chất (i) thì K được gọi là siêu cơ sở của AXĐ f.
Base(f) được ký hiệu là tập các cơ sở của AXĐ f.

Một đặc trưng của cơ sở AXĐ cũng được trình bày như sau: Nếu gọi K là một
cơ sở của AXĐ f trên tập U. Khi đó: X  K: f(X)  K = X.
Từ đặc trưng trên, ta nhận thấy, do X = f(X)  K = f
K
(X), nên X là điểm bất động
(tập đóng) đối với f
K
.
Việc xác định cơ sở ánh xạ đóng theo đặc trưng trên cũng được trình bày như
sau: Cho AXĐ f trên U và siêu cơ sở K của f. Nếu X  K: f(X)  K = X thì K là cơ
sở của f.
Định nghĩa 2.7
Cho f là AXĐ trên U. Phần tử A trong U được gọi là phần tử cơ sở hoặc phần tử
nguyên thủy của AXĐ f nếu A xuất hiện trong một cơ sở nào đó của f. A được gọi là
phần tử phi cơ sở hoặc phần tử phi nguyên thủy của AXĐ f nếu A không có trong bất
kỳ cơ sở nào của f. Ta ký hiệu U
B
là tập các phần tử cơ sở của AXĐ f trên U; U
o

tập của các phần tử phi cơ sở của f. U
I
là tập giao các cơ sở của f. Khi đó, U = U
B

| U
o

là một phân hoạch trên U.
Ngoài ra, các nhà nghiên cứu cũng trình bày một phát biểu về công thức tính
giao các cơ sở trên ánh xạ đóng như sau,

Cho AXĐ f trên tập hữu hạn U. Khi đó:

UX
I
XXfUU

 )\)((\


11

Bên cạnh đó, một phát biểu về điều kiện cần và đủ để AXĐ có duy nhất một cơ
sở cũng được các nhà nghiên cứu trình bày như sau,
Nếu gọi f là một AXĐ trên tập hữu hạn U thì f có duy nhất một cơ sở khi và chỉ
khi f(U
I
) = U, trong đó U
I
là giao các cơ sở.
2.3.2. Phản cơ sở ánh xạ đóng
Như đã trình bày ở các phần trước, một khái niệm đối ngẫu với cơ sở AXĐ là
phản cơ sở AXĐ. Khái niệm đối ngẫu ở đây theo nghĩa là cơ sở là tập phần tử nhỏ
nhất có ảnh là U, còn phản cơ sở là tập lớn nhất chứa các phần tử có ảnh khác U. Ta

có thể sử dụng phản cơ sở thay cho vai trò của cơ sở, thuật toán xác định phản cơ sở
từ cơ sở và ngược lại có độ phức tạp là tuyến tính. Các khái niệm và tính chất liên
quan đến phản cơ sở AXĐ được trình bày qua các định nghĩa, bổ đề và định lý sau
đây,
Định nghĩa 2.8
Cho AXĐ f trên U. Tập con P của U được gọi là phản cơ sở của AXĐ f nếu:
i fP  U, và
ii A U \ P: fPA = U.
Ta ký hiệu AntiBase(f) là tập các phản cơ sở của AXĐ f.

2.4. Giàn giao ánh xạ đóng
Trong một số lĩnh vực như cơ sở dữ liệu, khai phá dữ liệu,… thì giàn giao AXĐ
được sử dụng như một công cụ toán học và có nhiều đóng góp, ứng dụng hiệu quả.
Phần sau đây sẽ trình bày các khái niệm, tính chất cơ bản về điểm bất động (hay còn
gọi là tập đóng) và lý thuyết giàn giao AXĐ cùng với các bổ đề, định lý phát biểu về
sự tương quan giữa các tập đặc trưng trong một giàn giao.
2.4.1. Một số khái niệm cơ bản
Định nghĩa 2.9
Gọi G là một họ các tập con của tập hữu hạn U đóng với phép giao, cụ thể là
giao của mọi họ con trong G đều cho kết quả là một tập con trong G,
G  SubSet(U): (H  G 

HX
X

 G)
G được gọi là giàn giao trên tập hữu hạn U. Khi đó tồn tại một họ con duy nhất
S chứa trong G sao cho mọi phần tử của G đều được biểu diễn qua giao của các phần
tử trong S. Nói cách khác, S là tập nhỏ nhất của G thỏa tính chất:
G = {X

1
   X
k
| k 

X
1
,…, X
k
S}
S được gọi là tập sinh của giàn giao G và được ký hiệu là Gen(G). Để biểu diễn
tập sinh theo nhiều ngữ nghĩa khác nhau, các tác giả đã chỉ ra các tập sau đây thì bằng
nhau trên một giàn giao G cho trước,

12

(i) Gen(G)
(ii) { VG | VU, (X,YG, X V, Y V)  XYV }
(iii) { VG | VU,(V=X
1
…X
k
; X
1
,…,X
k
G, k1) (i,1ik:V = X
i
)}
(iv) { V  G | V 


XV
GX
X


}

Định nghĩa 2.10
Cho (M, ) là một tập hữu hạn có thứ tự bộ phận. Phần tử A trong M được gọi là
cực đại nếu từ A  B và BM, ta luôn có A=B. Ta ký hiệu MAX(M) là tập các phần tử
cực đại của M. Với họ các tập con của tập hữu hạn, xét thứ tự bộ phận .
Phần tử cực đại thuộc các tập trong các công trình nghiên cứu được tác giả trình
bày như sau: Cho (M, ) là một tập hữu hạn có thứ tự bộ phận và P  Q  M. Khi đó,
nếu X  MAX(Q) và X  P thì X  MAX(P).
Bổ đề 2.2
Cho giàn giao G trên tập hữu hạn U, ta có, MAX(Gen(G)) = MAX(G\{U})
Khẳng định về tập đóng (tập các điểm bất động) của AXĐ tạo thành một giàn
giao được trình bày như sau, Cho AXĐ f trên U hữu hạn. Khi đó, Fixf là giàn giao
với phần tử cực đại U.

Khi làm việc với giàn giao thì các tác giả cũng đã đưa ra các khái niệm về đối
nguyên tử và tập Coatom của một giàn giao. Các khái niệm này được trình bày qua
định nghĩa sau,
Định nghĩa 2.11
Cho G là giàn giao trên tập U. Ta ký hiệu Coatom(G) = MAX(G \ {U}) và gọi
các phần tử trong Coatom(G) là đối nguyên tử của giàn giao G.
Định lý sau đây sẽ trình bày về đặc trưng của tập đối nguyên tử (coatom) trong
giàn giao AXĐ,
Định lý 2.3

Với mọi giàn giao G trên tập hữu hạn U, ta có CoatomG = MAXGenG.
2.4.2. Sự tương quan giữa tập phản cơ sở và tập đối nguyên tử
Tính đóng của tập phản cơ sở được trình bày qua bổ đề sau đây,
Bổ đề 2.3
Với mọi AXĐ f trên tập hữu hạn U, ta có AntiBasef)  MAX(Fix(f)\{U})
Ngoài tính đóng của tập phản cơ sở đã chỉ ra ở trên, sự tương quan giữa tập phản
cơ sở và tập đối nguyên tử của giàn giao qua định lý sau đây,
Định lý 2.4
Với mọi AXĐ f trên tập hữu hạn U, AntiBasef) = Coatom(f).

13

2.5. Ứng dụng giàn giao với bài toán ẩn tập mục nhạy cảm
2.5.1. Đặt vấn đề
Bài toán khai thác tri thức nhằm phát hiện các luật phổ biến trên các tập mục
phổ biến. Một số các tập mục không muốn hiển thị vì một lý do nào đó gọi là các tập
mục nhạy cảm. Giải pháp thường được lựa chọn là vẫn công bố đầy đủ các tập mục
nhưng sẽ tìm cách sửa tần suất xuất hiện của các tập mục nhạy cảm xuống dưới
ngưỡng phổ biến

. Khi đó, các tập mục nhạy cảm sẽ trở thành các tập mục không
phổ biến và do đó chúng không thể trở thành các thành phần trong bất kỳ luật nào.
Giải pháp này được gọi là ẩn các tập mục nhạy cảm. Hướng nghiên cứu này rõ ràng
cần thiết cho trường hợp cần bảo vệ bí mật và tính riêng tư trong một số tình huống.
2.5.2. Phát biểu bài toán
Bài toán ẩn tập mục nhạy cảm được phát biểu như sau: Cho bảng T gồm N giao
tác trên M mục. Cho ngưỡng hỗ trợ

và danh sách P các tập mục phổ biến theo
ngưỡng


. Cho tập mục nhạy cảm H

P.

Yêu cầu bài toán là hãy ẩn tập mục nhạy cảm H theo nghĩa: cần chỉ ra các vị trí
cần sửa dữ liệu trên bảng T sao cho

(X) <

và các tập mục phổ biến khác bị ảnh
hưởng ít nhất.
2.5.3. Cơ sở lý thuyết
Mệnh đề 2.5
Họ các tập mục phổ biến P tạo thành một giàn giao AXĐ.
Khi xét mỗi tập mục phổ biến X trong P, ta nhận thấy tập Poset(X)  P là một
giàn giao đầy đủ với tập Gen gồm các phần tử trên hàng thứ hai.

Ngoài ra, ta cũng có thêm một số nhận xét sau,
(i) Nếu tập phổ biến X ẩn thì mọi tập phổ biến Y chứa X cũng ẩn theo.

(ii) Nếu X  P thì mọi Update(A,X,T,d), A  X đều kéo theo Update(A,Y,T,d),
Y  X, A  Y. tức là độ phổ biến của mọi tập con chứa A của X đều bị giảm d đơn vị.
(iii) Các tập mục Y như mô tả trong (i) được gọi là các tập mục chịu hiệu ứng
phụ khi cập nhật (xóa) mục A trong tập mục X. Điều này cho thấy, nếu cập nhật mục
A trong tập mục X cần chú ý đến các tập mục con đúng và chứa A của X. Nếu độ phổ
biến của chúng lớn hơn ngưỡng

không nhiều thì chúng sẽ có nguy cơ bị ẩn theo.
2.5.4. Thuật toán ẩn tập mục nhạy cảm

Từ định lý 2.3, mệnh đề 2.5 cùng các nhận xét trên, thuật toán Itemhide được đề
xuất để ẩn một tập mục nhạy cảm H cho trước.
2.6. Giàn giao và ứng dụng trong khai thác tập phổ biến
Phần này sẽ minh họa cho việc vận dụng AXĐ và lý thuyết giàn giao vào lĩnh
vực khai phá dữ liệu, cụ thề là trình bày một phương pháp xác định tập phổ biến tối

14

đại với mục đích thu nhỏ số lượng tập phổ biến cần quản lý nhưng vẫn đảm bảo được
việc sinh luật kết hợp đầy đủ.
2.6.1. Cơ sở lý thuyết
Định nghĩa 2.12
Cho cơ sở dữ liệu giao dịch α =(T, I) và tập mục X  I. Ta nói X là tập phổ biến
tối đại nếu X là tập phổ biến và X không là tập con thực sự của một tập phổ biến nào
cả. Ký hiệu MFI là họ các tập phổ biến tối đại của α.
Ta nhận thấy rằng, với mỗt tập phổ biến, tồn tại một tập phổ biến tối đại chứa nó.

2.6.2. Thuật toán xác định tập phổ biến tối đại
Thuật toán 2.5
Tư tưởng thuật toán Coatom được đề xuất với ý tưởng là từ cơ sở dữ liệu giao
dịch cho trước, trước hết sẽ xác định họ các tập phổ biến với một thuật toán nào đó,
chẳng hạn như thuật toán khai thác song song với thuật toán SABMA. Sau đó, từ họ
các tập phổ biến thu được ta sẽ xây dựng một đồ thị có hướng H để xác định họ các
tập phổ biến tối đại.
CHƯƠNG 3: HỆ SINH ÁNH XẠ ĐÓNG VÀ MỘT SỐ KẾT QUẢ
NGHIÊN CỨU
3.1 Hệ sinh ánh xạ đóng
Mỗi ánh xạ đóng được mô tả thông qua một hệ suy dẫn gọi là hệ sinh AXĐ.
Phần sau đây sẽ trình bày các khái niệm cơ bản về tập luật sinh, hệ sinh, tập bao của
một tập con các phần tử, ánh xạ cảm sinh và một số tính chất quan trọng của hệ sinh.

3.1.1. Khái niệm hệ sinh ánhxạ đóng
Định nghĩa 3.1
Cho tập hữu hạn U, luật sinh f trên U là biểu thức dạng f: L  R; L, R  U.
Các tập L và R được gọi tương ứng là vế trái và vế phải của luật sinh f và được ký
hiệu tương ứng là LS(f) và RS(f).
Ta ký hiệu

= (U, F) là một hệ sinh ánh xạ đóng, trong đó U là một tập hữu
hạn, F là tập các luật sinh trên U.
Định nghĩa 3.2

Cho một hệ sinh AXĐ

= (U, F) và các tập con X, Z của U. Ta gọi Z là một tập
bao của tập X trong hệ sinh

nếu Z thỏa,
(i) Z  X,
(ii) L  R  F, L  Z thì R  Z.
Kí hiệu [X] là họ các tập bao của X trong hệ sinh cho trước.


15

3.1.2. Ánhxạ cảm sinh
Định nghĩa 3.3

Cho

= (U,F). Ánh xạ f


: SubSet(U)  SubSet(U) được xác định như sau,
X  U: f

(X) = [X]. Nói cách khác, f

(X) là tập con nhỏ nhất của U thỏa các tính
chất sau:
(i) f

(X)  X,
(ii)  L  R  F, L  f

(X)  R  f

(X).
f

được gọi là ánh xạ cảm sinh của

, X là vật, f

(X) là ảnh của f

. Ta nhận
thấy, f

(X) chính là tập bao nhỏ nhất của X trong hệ sinh

.

Khẳng định mỗi hệ sinh thì xác định duy nhất một AXĐ và ngược lại mỗi AXĐ
thì xác định một hệ sinh được trình bày qua định lý sau đây,
Định lý 3.1
(i) Với mỗi hệ sinh

= (U,F), ánh xạ cảm sinh f

là AXĐ trên U.
(ii) Với mỗi AXĐ h trên U, tồn tại một hệ sinh

= (U,F) thỏa tính chất,
 X  U: f

(X) = h(X)

3.1.3. Thuật toán xác định ảnh một tập con trong hệ sinh
Thuật toán 3.1
Cho hệ sinh

= (U,F) và tập con X của U. Hãy tính f

(X). Thuật toán Image
tính f

(X) với độ phức tạp thời gian là đa thức theo chiều dài dữ liệu vào
.
3.2 Giản lược tập luật sinh
Trong một hệ sinh AXĐ, nếu số lượng luật sinh ít đi hay số các phần tử tham gia
vào luật sinh không nhiều thì không gian lưu trữ được rút gọn và hiệu quả tính toán
các đối tượng trong hệ sinh sẽ được cải thiện. Phần này sẽ trình bày một tiếp cận theo

hướng giản lược các tập luật sinh bằng cách xây dựng một số khái niệm bao gồm khái
niệm tập luật sinh tương đương, các dạng suy dẫn của tập luật sinh và các dạng giản
lược của tập luật sinh như tập giản lược tự nhiên, tập giản lược không dư cùng với
các thuật toán tương ứng để giản lược tập luật sinh ban đầu về các dạng thu gọn.
3.2.1. Một số khái niệm cơ sở
Để xây dựng được các khái niệm đã trình bày ở trên, trước hết trong phần này sẽ
trình bày cách xây dựng một số khái niệm cơ sở như ảnh của tập luật sinh, dạng suy
dẫn logic (còn gọi là suy dẫn theo tiên đề) của luật sinh, thuật toán xác định một luật
sinh có thuộc về tập luật sinh hay không qua các định nghĩa và định lý sau đây,
Định nghĩa 3.4
Cho tập luật sinh F trên tập U hữu hạn. Ảnh của F, ký hiệu là F* là tập nhỏ nhất
các luật sinh trên U chứa F và thỏa các tính chất của hệ tiên đề Armstrong sau:

X, Y, Z  U:

16

F1. Tính phản xạ:
Nếu X  Y thì X

Y

F*
F2. Tính gia tăng:
Nếu X

Y  F* thì XZ

YZ  F*
F3. Tính bắc cầu:

Nếu X

Y  F* và Y

Z  F* thì X

Z  F*
Từ các khái niệm và tính chất trên, trong các kết quả nghiên cứu về các dạng
giản lược tập luật sinh thì một số khái niệm sau cũng được đề xuất trong luận án,
+ Một luật sinh f được suy dẫn logic (hay suy dẫn theo tiên đề) từ tập luật sinh
F, ký hiệu là F╞ f, nếu f  F*. Ta có thể viết: F╞ f  f

F*
+ Cho hai tập luật sinh F và G trên U hữu hạn. Ta nói F suy dẫn ra được G, ký
hiệu F╞ G, nếu gG: F╞ g. Ta nói F tương đương với G, ký hiệu F  G, nếu
F╞ G và G╞ F. Ký hiệu F ≢ G có nghĩa F và G không tương đương.
Định nghĩa 3.5
Cho hệ sinh

= (U,F). Ta gọi ảnh của ánh xạ cảm sinh f


đối với tập X, f

(X) là
ảnh của X trong hệ sinh

, ký hiệu là X
*


. hay X
*
(nếu chỉ làm việc trên một hệ sinh).

Định lý 3.2
Cho hệ sinh AXĐ

= (U,F), ta có, X

Y  F* khi và chỉ khi Y  X
*

.
3.2.2. Tập giản lược tự nhiên
Định nghĩa 3.6
Cho hai tập luật sinh F và G trên U. G gọi là tập giản lược tự nhiên của F nếu:
(i) G tương đương F, và
(ii) G có dạng giản lược tự nhiên với ý nghĩa như sau:
+ Hai vế trái và phải của mọi luật sinh trong G rời nhau:

f  G: LS(f)  RS(f) = 
+ Các vế trái của mọi luật sinh trong G khác nhau đôi một:

f, g  G: f

g

LS(f)

LS(g)

3.2.3. Tập giản lược không dư
Định nghĩa 3.7
Cho hai tập luật sinh F và G trên tập U hữu hạn. G được gọi là tập giản lược
không dư của F nếu,
(i) G tương đương F, và
(ii) G có dạng giản lược không dư theo nghĩa sau: gG: G \{g} ≢ G
3.3 Thu gọn hệ sinh ánh xạ đóng
Trong quản lý các hệ suy dẫn lớn và phức tạp đòi hỏi phải có nhiều thuật toán
hữu hiệu để tính toán các đối tượng như ảnh, cơ sở, phản cơ sở, Một thuật toán tốt

17

theo nghĩa độ phức tạp tính toán giới hạn ở các hàm tuyến tính hoặc đa thức theo
chiều dài dữ liệu vào. Bên cạnh đó, ta cũng nhận thấy, nếu kích thước của các hệ suy
dẫn càng nhỏ thì các thuật toán càng phát huy hiệu quả hơn. Một trong số các hướng
nghiên cứu tinh giản các hệ suy dẫn được thực hiện thông qua các phép biến đổi
tương đương, chẳng hạn, trong phần trên của luận án đã trình bày các dạng giản lược
của một tập luật sinh.
Trong phần này của luận án sẽ trình bày theo một cách tiếp cận khác là sử dụng
kỹ thuật thu gọn một hệ suy dẫn. Bản chất của kỹ thuật này là loại bỏ khỏi hệ suy dẫn
ban đầu một số phần tử không quan trọng theo nghĩa chúng không làm ảnh hưởng
đến kết quả tính toán các đối tượng đang quan tâm như ảnh, cơ sở, phản cơ sở, Mặc
dù hệ suy dẫn thu được qua phép thu gọn không tương đương với hệ suy dẫn ban đầu,
nhưng điểm đặc biệt là ta vẫn có thể thu được các đối tượng cần tìm bằng những phép
toán đơn giản như loại bỏ hoặc thêm vào một số phần tử.
3.3.1. Các khái niệm và thuật toán thu gọn hệ sinh AXĐ
Định nghĩa 3.8

Cho hai hệ sinh


= (U,F),

= (V,G) và tập M  U. Ta nói hệ sinh

nhận được
từ hệ sinh

qua phép thu gọn theo tập M, và kí hiệu là

=

\M, nếu sau khi loại bỏ
mọi xuất hiện của các phần tử của M trong hệ sinh

thì thu được hệ sinh

.
Sau khi thực hiện thủ tục G = F\M, nếu:
- G chứa các luật sinh tầm thường (dạng XY, X  Y) thì ta loại các luật sinh
này khỏi G,
- G chứa các luật sinh trùng lặp thì ta lược bớt các luật sinh này.
3.3.2. Biểu diễn ảnh tập con theo phép thu gọn hệ sinh AXĐ
Công thức biểu diễn ảnh của tập con theo phép thu gọn hệ sinh được trình bày
qua định lý sau,
Định lý 3.3
Cho hệ sinh

= (U,F) và hai tập con không giao nhau X và Y trong U. Khi đó:
(XY)
*


= X (Y)
*

\X

Hệ quả 3.1
Cho hệ sinh

= (U,F) và tập X  U. Khi đó: X
*

= X ()
*

\X

Phần sau đây sẽ trình bày một số khái niệm và tính chất của cơ sở, phản cơ sở hệ
sinh AXĐ và các phát biểu biểu diễn các đối tượng này theo kỹ thuật thu gọn hệ sinh.
Trong phần này cũng giới thiệu một kết quả nghiên cứu mới về phương pháp biểu
diễn phản cơ sở của một hệ sinh theo vế phải cực đại của tập luật sinh.

18

3.4 Cơ sở và phản cơ sở hệ sinh ánh xạ đóng
3.4.1. Cơ sở hệ sinh ánh xạ đóng
Định nghĩa 3.9
Ta gọi cơ sở của hệ sinh là cơ sở của ánh xạ cảm sinh của hệ sinh đó. Với mỗi
hệ sinh


= (U,F), ta ký hiệu Base(

) là tập các cơ sở của ánh xạ cảm sinh của hệ
sinh

; U
B
là tập các phần tử cơ sở của hệ sinh

, tức là tập các phần tử có trong một
cơ sở của

; U
0
là tập các phần tử phi cơ sở của

, tức là tập các phần tử không có
trong bất kỳ cơ sở nào của

; U
I
là giao các cơ sở của

. Khi đó, U
B
| U
0
là một phân
hoạch trên U.
Ngoài các phương pháp sử dụng để biểu diễn cơ sở của hệ sinh theo phép thu

gọn hệ sinh đã được công bố thì một cách tiếp cận khác để biểu diễn cơ sở hệ sinh
cũng dựa trên kỹ thuật thu gọn hệ sinh, nhưng điểm đặc biệt ở cách tiếp cận này là
tập thu gọn là một vế trái tối tiểu của tập luật sinh của hệ sinh cho trước.

3.4.2. Phản cơ sở hệ sinh ánh xạ đóng
Một số các định nghĩa, định lý sau đây sẽ trình bày các khái niệm về phản cơ sở
và cách biểu diễn phản cơ sở của hệ sinh ánh xạ đóng theo phép thu gọn hệ sinh. Mặt
khác, trong phần này cũng trình bày các điều kiện cần và đủ về bảo toàn tập phản cơ
sở thông qua phép thu gọn hệ sinh.

Định nghĩa 3.10
Ta gọi phản cơ sở của hệ sinh là phản cơ sở của ánh xạ cảm sinh của hệ sinh đó.
Với hệ sinh

= (U,F). Ta ký hiệu, AntiBase(

) là tập các phản cơ sở của hệ sinh

;
Fix

 là họ các điểm bất động của hệ sinh

; U
B
là tập các phần tử phản cơ sở của


tức là các phần tử có mặt trong một phản cơ sở của hệ sinh


; U
I
là giao của các
phản cơ sở của

tức là các phần tử có mặt trong mọi phản cơ sở của hệ sinh

; U
o

tập các phần tử không có trong bất kỳ phản cơ sở nào của hệ sinh

. Ta nhận thấy là
U
o
| U
B
là một phân hoạch trên U.
Các tính chất liên quan đến tập đóng(tập các điểm bất động) khi thu gọn hệ sinh
được trình bày qua định lý sau đây,
Định lý 3.4
Cho hai hệ sinh AXĐ

= (U, F) và

= (V,G). Biết

=

\XvớiX, M  U,

X  M = . Khi đó:
1. XM  Fix

 khi và chỉ khi M  Fix

.
2. XM  Gen

 khi và chỉ khi M  Gen

.
3. XM  Coatom

 khi và chỉ khi M  Coatom

.
4. XM  AntiBase

 khi và chỉ khi M  AntiBase

.
Ngoài ra, trong nhiều công trình, các tác giả cũng đã trình bày một phương pháp

19

biểu diễn phản cơ sở hệ sinh AXĐ với kỹ thuật thu gọn hệ sinh. Cụ thể nếu gọi hệ
sinh  = U,F với tập AntiBase

 ≠ . Đặt


=

\ X, X  U. Khi đó, ta thu được,
1. AntiBase(

) = AntiBase(

) khi và chỉ khi X = .
2. AntiBase(

) = X  AntiBase(

) khi và chỉ khi X  U
I
.
3.4.3. Một dạng biểu diễn phản cơ sở hệ sinh AXĐ
Trong phần này sẽ giới thiệu thêm một kết quả về một dạng biểu diễn phản cơ
sở hệ sinh theo vế phải cực đại của tập luật sinh. Khái niệm về vế phải cực đại của
tập luật sinh cùng với việc phát biểu và chứng minh các bổ đề, định lý sau sẽ minh
họa cho dạng biểu diễn phản cơ sở này.

Định nghĩa 3.11
Cho hệ sinh

=(U, F). Ta ký hiệu MR(F) là tập các vế phải cực đại của F,
MR(F) = MAX {RS(f) | f

F}

Bổ đề 3.1

Cho hệ sinh

= (U, F). Nếu R  MR(F) thì R là tập con của phản cơ sở nào đó
của

khi và chỉ khi R
*
 U.
Định lý 3.5
Mọi phản cơ sở của hệ sinh AXĐ

= (U, F) đều biểu diễn được dưới dạng RM
với R là vế phải cực đại không chứa cơ sở của tập luật sinh và M là phản cơ sở của hệ
sinh

=

\R.

3.4.4. Sự tương quan giữa các đối tượng trong hệ sinh AXĐ
Bên cạnh các phương pháp biểu diễn phản cơ sở đã trình bày, phần sau đây sẽ
giới thiệu thêm một số kết quả nghiên cứu về mối tương quan giữa các đối tượng
trong hệ sinh AXĐ.
Bổ đề 3.2
Cho hai tập luật sinh F và G trên U. Khi đó F và G tương đương khi và chỉ khi
X  U: X
F
*
= X
G

*

Định lý sau trình bày về mối tương quan giữa tập cơ sở và tập phản cơ sở của hệ
sinh AXĐ,
Định lý 3.6
Cho hai hệ sinh

= U,F và

= U,G. Khi đó,
Base

=Base

  AntiBase

=AntiBase


Bổ đề 3.3
Cho hai tập luật sinh F và G trên U. Nếu F và G tương đương thì hai hệ sinh
AXĐ

= U,F và

= U,G có cùng tập cơ sở và do đó có cùng tập phản cơ sở,
Base

 = Base


, AntiBase

 = AntiBase

.


20

3.5 Ứng dụng hệ sinh AXĐ giải bài toán hệ suy dẫn
3.5.1. Các khái niệm và quy tắc suy dẫn

Định nghĩa 3.12
Hệ suy dẫn là một cặp

= (U,F) trong đó U là một tập nền (tập các sự kiện), F
là tập các luật dẫn dạng L  R; L, R  U.
Một số quy tắc suy dẫn cơ bản
Áp dụng hệ tiên đề Armstrong , L, R, V  U:
F1. Tiên đề phản xạ: L  R  L  R,
F2. Tiên đề gia tăng: L  R

 LV RV,
F3. Tiên đề bắc cầu: LR  RV  LV.
3.5.2. Một số dạng bài toán suy dẫn
Trong thực tế, có thể sử dụng hệ suy dẫn để giải quyết một số bài toán. Vận
dụng các khái niệm trong hệ sinh ánh xạ đóng để minh họa cho việc giải các dạng bài
toán sau đây.
(1) Cho hệ suy dẫn


= (U,F) và luật dẫn h: X  Y. Hãy cho biết tính đúng của
luật dẫn h theo nghĩa, luật dẫn h là đúng khi và chỉ khi xuất phát từ tập luật dẫn F ban
đầu, sau hữu hạn bước vận dụng các tiên đề F1-F3 của hệ Armstrong ta thu được h.
Vận dụng các khái niệm trong hệ sinh AXĐ, ta có thể chỉ ra mệnh đề h: XY
đúng khi và chỉ khi Y  f

(X), với f

là ánh xạ cảm sinh của

.
(2) Cho hệ suy dẫn

= (U,F) và hai tập sự kiện X và Y. Cho biết xuất phát từ
các sự kiện X có thể suy ra những sự kiện nào trong số các sự kiện Y.
Với dạng bài toán này, sử dụng các tính chất của ánh xạ cảm sinh của hệ sinh và
phép giao trong tập hợp, ta có thể khẳng định rằng từ các sự kiện X có thể suy ra
những sự kiện f

(X)  Y trong số các sự kiện Y.
3.6 Hệ sinh cân bằng
Phần sau đây sẽ trình bày một số khái niệm và tính chất của một hệ sinh đặc biệt
gọi là hệ sinh cân bằng. Kết quả nghiên cứu chính trong luận án khi làm việc với hệ
suy dẫn này là xây dựng một thuật toán trình bày cách thu gọn một hệ sinh bất kỳ về
dạng hệ sinh cân bằng và phát biểu định lý chứng minh tính đúng của thuật toán.
3.6.1. Các khái niệm và một sô tính chất
Định nghĩa 3.13
Hệ sinh α = (U,F) gọi là cân bằng nếu α thỏa các tính chất sau đây:
(B1) Hợp các vế trái, vế phải của các luật sinh trong F đúng bằng tập U:
LS(F) = RS(F) = U

(B2) F không chứa luật sinh tầm thường, là các luật sinh có vế trái chứa vế phải:

21

 X,Y  U: X  Y  (X  Y  F)
(B3) Hai vế trái và phải của mọi luật sinh trong F rời nhau (không giao nhau):
 f  F: LS(f)  RS(f) = 
(B4) Các vế trái của mọi luật sinh trong F khác nhau đôi một:
 f, g  F: LS(f) = LS(g)  f = g
Ngoài bốn tính chất cơ bản đã trình bày trên, hệ sinh cân bằng còn thỏa một số
các tính chất sau đây,
Tính chất 3.1
Hệ sinh cân bằng thỏa một số tính chất sau,
(B5) Nếu tập luật sinh F trong hệ sinh AXĐ α = (U,F) thỏa B2-B4 và chỉ có một
luật sinh thì α không thể là HSCB.
(B6) Từ B5 ta suy ra hệ sinh AXĐ chỉ có một thuộc tính thì không thể là HSCB.
(B7) Trong HSCB

= (U,F), giao các cơ sở U
I
= .
(B8) Nếu hệ sinh α = (U,F) là HSCB thì A  U, ta có α\A cũng là HSCB.
3.6.2. Thuật toán thu gọn hệ sinh AXĐ về dạng cân bằng
Thuật toán BS được trình bày và mô tả các bước để thu gọn một hệ sinh AXĐ
về dạng hệ sinh cân bằng. Thuật toán thu gọn hệ sinh ban đầu về dạng hệ sinh cân
bằng với các bước có độ phức tạp không quá O(mn), với m là số lượng luật sinh trong
tập luật F, n số lượng các phần tử có trong U.
Định lý 3.7
Hệ sinh thu được sau khi thực hiện thuật toán BS là một hệ sinh cân bằng.


3.7 Ứng dụng hệ sinh AXĐ trong cơ sở dữ liệu
Các khái niệm về lược đồ quan hệ đã trình bày trong chương một là trường hợp
riêng của hệ sinh AXĐ thông qua một số các tương ứng được trình bày sau đây.
Thông qua các tương ứng này cho thấy có thể vận dụng công cụ hệ sinh AXĐ để
nhận lại các kết quả về khóa, phản khóa, bao đóng, … trong CDSL. Mặt khác, sử
dụng công cụ này còn có thể giải quyết được một số bài toán khác trong CSDL.
Cơ sở dữ liệu Ánh xạ đóng
Tập thuộc tính Tập phần tử
Phụ thuộc hàm

Luật sinh
LĐQH Hệ sinh
Bao đóng của tập thuộc tính Ánh xạ đóng
Khóa Cơ sở
Phản khóa Phản cơ sở
Dạng chuẩn Dạng chuẩn


22

3.7.1. Bài toán phân rã và kết nối các quan hệ
Định nghĩa 3.14
Cho các quan hệ r(R) và s(S) với R, S là các tập thuộc tính. Đặt T=RS, phép kết
các quan hệ r và s, ký hiệu là r*s là quan hệ q(T) sao cho các bộ t
r
 r và t
s
 s thỏa t
r
= t[R] và t

s
= t[S].
Định nghĩa 3.15
Cho các quan hệ s
1
(S
1
), s
2
(S
2
), …, s
m
(S
m
) và quan hệ r(R) sao cho R = S
1
S
2
…S
m
.
Gọi t
1
, t
2
, …, t
m
là các bộ thỏa t
1

 s
1
, t
2
 s
2
, …, t
m
s
m
. Ta nói, các bộ t
1
, t
2
, …, t
m

khả kết nếu tồn tại bộ t  r(R) thỏa t
i
= t(S
i
), 1  i  m. Bộ t được gọi là kết quả của
phép kết t
1
, t
2
, …, t
m
, t  s
1

*s
2
*…*s
m
.
Định nghĩa 3.16
Các quan hệ s
1
, s
2
, …, s
m
được gọi là kết đầy đủ nếu mọi bộ của mỗi quan hệ s
i
, 1
 i  m đều là thành phần của một số bộ khả kết trên các quan hệ này.
Mệnh đề 3.1
Cho q(U) là quan hệ trên tập thuộc tính U, S
i
là các tập con của U, 1  i  k. Ta
định nghĩa s
i
= q[S
i
], 1  i  k. Các quan hệ s
1
, s
2
, …, s
k

là kết đầy đủ.
Bài toán phân rã
Cho lược đồ quan hệ a = (U, F). Với mỗi phép phân rã m = (M
1
, M
2
, …, M
k
) trên
U, ta xét phép toán m
U
như sau,
Gọi REL(U) là tập toàn thể các quan hệ trên U, với mỗi quan hệ r trong REL(U),
ta đặt m
U
(r) = r[M
1
]*r[M
2
]*…*r[M
k
].
Tính chất 3.2
Nếu gọi m
U
(r) = r[M
1
]*r[M
2
]*…*r[M

k
] thì m
U
là một ánh xạ đóng, nghĩa là m
U

thỏa các tính chất sau:
Gọi r, s là các quan hệ trên tập thuộc tính U,
(i) Tính phản xạ: r  m
U
(r),
(ii) Tính đồng biến: r  s  m
U
(r)  m
U
(s),
(iii) Tính lũy đẵng: m
U
(m
U
(r))= m
U
(r)
Nhận xét 3.1
Khi thực hiện phép toán trên, nếu ta nhận được kết quả của phép kết là một quan
hệ đúng là quan hệ ban đầu thì phép kết này gọi là kết không mất mát thông tin. Cụ
thể, nếu gọi r(U) là quan hệ trước khi phân rã và m
U
(r) là quan hệ sau khi kết thì
m

U
(r)=r(U). Hay nói cách khác, theo ngôn ngữ của ánh xạ đóng thì r(U) chính là
điểm bất động (tập đóng) của ánh xạ đóng m
U
.

23

3.7.2 Một dạng biểu diễn phản khóa của lược đồ quan hệ
Định lý 3.8
Mọi phản khóa của LĐQH a = (U, F) đều biểu diễn được dưới dạng RM với R là
vế phải cực đại không chứa khóa của tập phụ thuộc hàm và M là phản khóa của lược
đồ quan hệ b = a\R.


KẾT LUẬN
Luận án đã trình bày một cách khái quát một số các nội dung cơ bản về lược đồ
quan hệ trong lý thuyết cơ sở dữ liệu. Từ đó, luận án đã sử dụng ánh xạ đóng như một
công cụ toán học trong việc biễu diễn lại các đối tượng trong lĩnh vực này. Hơn thế
nữa, luận án cũng chỉ ra việc áp dụng các lý thuyết về ánh xạ đóng trong lĩnh vực
khai phá dữ liệu như áp dụng lý thuyết giàn giao ánh xạ đóng để ẩn các tập mục nhạy
cảm hay xác định và quản lý tập phổ biến tối đại đã trình bày ở chương 2.
Luận án cũng đề cập về một hệ suy dẫn gọi là hệ sinh ánh xạ đóng cùng với kỹ
thuật thu gọn hệ sinh, trình bày cách biểu diễn ảnh, cơ sở và phản cơ sở của một hệ
suy dẫn và đề xuât một dạng biểu diễn phản cơ sở của hệ sinh theo vế phải tối đại của
tập luật sinh. Ý nghĩa việc giản lược tập luật sinh trong một hệ suy dẫn và các dạng
giản lược một tập luật sinh cùng với thuật toán cũng được trình bày trong luận án.
Cuối cùng, trong luận án cũng đã xây dựng một thuật toán cùng với định lý chứng
minh tính đúng của thuật toán này khi thu gọn hệ sinh về dạng cân bằng.
Cụ thể, luận án đã tập trung nghiên cứu, đóng góp một số vấn đề qua các nội

dung sau:
1. Ánh xạ đóng được xem là một công cụ toán học có nhiều ứng dụng khi giải
quyết một số bài toán đối với các hệ suy dẫn. Luận án đã thu được một số kết quả khi
nghiên cứu về phép toán hợp thành các AXĐ và lý thuyết giàn giao. Cụ thể, các kết
quả đạt được là như sau:
+ Phát biểu, chứng minh điều kiện đủ để phép hợp thành các AXĐ là một AXĐ.
+ Phát biểu, chứng minh điều kiện để họ con AXĐ đóng với phép hợp thành.
+ Ứng dụng lý thuyết giàn giao AXĐ để giải bài toán ẩn tập mục nhạy cảm khi
khai thác luật kết hợp trong khai phá dữ liệu. Cụ thể về bài toán này, luận án đã phát
biểu và chứng minh họ các tập phổ biến tạo thành một giàn giao, đồng thời xây dựng
thuật toán ItemHide để ẩn các tập mục nhạy cảm khi khai thác luật kết hợp trong một
cơ sở dữ liệu giao dịch.
+ Ứng dụng lý thuyết giàn giao để xác định tập phổ biến tối đại nhằm tiết kiệm
không gian lưu trữ và thời gian trao đổi dữ liệu trong bài toán khai thác luật kết hợp.

24

2. Mỗi AXĐ được mô tả thông qua một hệ suy dẫn gọi là hệ sinh AXĐ. Việc
nghiên cứu về hệ sinh nói chung, biểu diễn các đối tượng trong hệ sinh nói riêng đòi
hỏi phải có những thuật toán hiệu quả như thuật toán giản lược tập luật sinh, cùng với
những kỹ thuật làm cho việc biểu diễn các đối tượng trở nên đơn giản hơn như kỹ
thuật thu gọn hệ sinh, xây dựng các hệ sinh mới, đặc biệt như hệ sinh cân bằng,… Từ
các nhận xét trên, luận án đã thu được một số kết quả khi nghiên cứu về các hệ sinh
AXĐ như sau,
+ Xây dựng các khái niệm, thuật toán giản lược tập luật sinh của một hệ sinh
AXĐ về dạng tập giản lược tự nhiên và tập giản lược không dư.
+ Phát biểu các bổ đề và định lý để biểu diễn phản cơ sở hệ sinh theo vế phải tối
đại của tập luật sinh.
+ Phát biểu định lý về sự tương quan giữa tập cơ sở và tập phản cơ sở của một
hệ sinh AXĐ.

+ Xây dựng thuật toán và chứng minh tính đúng đắn của thuật toán khi thu gọn
một hệ sinh bất kỳ về dạng hệ sinh cân bằng (HSCB).
Các kết quả trên có ý nghĩa về lý thuyết và thực tiển. Cụ thể là,
+ Đóng góp cho việc phát triển các khái niệm và công cụ toán học bao gồm lý
thuyết giàn giao, lý thuyết ánh xạ đóng, lý thuyết cơ sở dữ liệu quan hệ và các hệ suy
dẫn.
+ Cung cấp một số thuật toán tiện ích cho thiết kế cơ sở dữ liệu, các hệ sinh và
các hệ suy dẫn. Cung cấp một số dạng thu gọn các hệ sinh và các dạng biểu diễn đối
tượng trong hệ suy dẫn như cơ sở, phản cơ sở. Các thuật toán này cho phép thu gọn
không gian lưu trữ các luật và tăng tốc độ xử lý các luật.
Các nghiên cứu và đóng góp trong luận án chủ yếu là sử dụng công cụ ánh xạ
đóng được đặc trưng qua một hệ suy dẫn gọi là hệ sinh để giải quyết bài toán biểu
diễn các đối tượng trong một hệ suy dẫn và ứng dụng các đặc trưng, tính chất của hệ
suy dẫn này để giải quyết một số bài toán. Bài toán đặt ra là với công cụ ánh xạ đóng
thì việc biểu diễn các đối tượng cơ sở, phản cơ sở của một hệ suy dẫn còn có thể biểu
diễn theo phương pháp nào khác hay không? Đây cũng là hướng cần tiếp tục nghiên
cứu. Bên cạnh đó, qua một số ứng dụng được trình bày trong luận án cũng cho thấy
khả năng sử dụng công cụ ánh xạ đóng trong nhiều lĩnh vực. Việc chỉ ra những lĩnh
vực nào còn có thể áp dụng công cụ này là bài toán mở khá thú vị và là một vấn đề
cần tiếp tục nghiên cứu, phát triền trong thời gian tới.


DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ LIÊN QUAN LUẬN ÁN
[1]
BUI DUC MINH, Closure mappings and the problem of determining maximal
frequent itemsets in data mining, Journal Mathematics-Physics, VietNam
National University HaNoi,Vol.29, No.2, 2013, 48-54
[2]
BÙI ĐỨC MINH, Hệ sinh ánh xạ đóng và bài toán biểu diễn phản cơ sở,
Chuyên san các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT, Tạp

chí Công nghệ thông tin & Truyền thông, Tập V-1, Số 10 (30), tháng 12/2013,
34-39.
[3]
BÙI ĐỨC MINH, LƯƠNG NGUYỄN HOÀNG HOA, CAO TÙNG ANH,
NGUYỄN GIA NHƯ, NGUYỄN XUÂN HUY, Biểu diễn cơ sở của hệ sinh
ánh xạ đóng, Kỷ yếu Hội thảo Quốc gia "Một số vấn đề chọn lọc của Công
nghệ thông tin", Hưng yên, 19-20/08/2010, NXB KHKT Hà Nội, 2011, 51-58
[4]
BÙI ĐỨC MINH, LƯƠNG NGUYỄN HOÀNG HOA, NGUYỄN MINH
HIỆP, BÙI DUY TUẤN, NGUYỄN XUÂN HUY, Ánh xạ đóng và ứng dụng,
Kỷ yếu Hội thảo khoa học Công nghệ Thông tin năm 2010, Trường Đại học Đà
lạt, Đà lạt, 03/12/2010, 31-38.
[5]
BÙI ĐỨC MINH, LƯƠNG NGUYỄN HOÀNG HOA, Hệ sinh cân bằng và
bài toán biểu diễn cơ sở hệ sinh ánh xạ đóng, Chuyên san các công trình
nghiên cứu, phát triển và ứng dụng CNTT-TT, Tạp chí Công nghệ thông tin &
Truyền thông, Tập V-1, Số 5 (25), tháng 6/1011, 15-21.
[6]
BÙI ĐỨC MINH, LƯƠNG NGUYỄN HOÀNG HOA, CAO TÙNG ANH,
NGUYỄN GIA NHƯ, Hệ sinh cân bằng và thuật toán cân bằng hệ sinh, Kỷ
yếu Hội thảo Khoa học Quốc gia “Một số vấn đề chọn lọc của Công nghệ
thông tin và Truyền thông”, Cần Thơ, 07-08/10/2011, NXB KHKT, 2012,
575-586
[7]
NGUYỄN XUÂN HUY, LÊ THỊ MỸ HẠNH, LƯƠNG NGUYỄN HOÀNG
HOA, BÙI ĐỨC MINH, NGUYỄN ĐỨC VŨ, Thiết kế cơ sở dữ liệu theo tiếp
cận dịch chuyển lược đồ quan hệ, Kỷ yếu Hội thảo Khoa học Quốc gia “Một
số vấn đề chọn lọc của Công nghệ thông tin và Truyền thông”, Đại lãi, 14-
15/09/2007, NXB KHTN và CN, 2008, 499-506.
[8]

NGUYỄN XUÂN HUY, LÊ QUỐC HẢI, NGUYỄN GIA NHƯ, CAO TÙNG
ANH, BÙI ĐỨC MINH, Lý thuyết giàn và ứng dụng trong thuật toán ẩn tập
mục nhạy cảm, Kỷ yếu Hội thảo Khoa học Quốc gia “Một số vấn đề chọn lọc
của Công nghệ thông tin và Truyền thông”, Biên hòa, 05-06/08/2009, NXB
KHKT, 2010, 161-170.



BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM


VIỆN CÔNG NGHỆ THÔNG TIN




BÙI ĐỨC MINH


NGHIÊN CỨU HỆ SINH ÁNH XẠ ĐÓNG
VÀ ỨNG DỤNG TRONG THỂ HIỆN
NGỮ NGHĨA DỮ LIỆU


Chuyên ngành: BẢO ĐẢM TOÁN HỌC CHO MÁY TÍNH
VÀ HỆ THỐNG TÍNH TOÁN
Mã số: 62.46.35.01








TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC










NỘI
- 2014


Công trình được hoàn thành tại: Viện Công nghệ Thông tin - Viện Khoa
học và Công nghệ Việt nam






Người hướng dẫn khoa học
1. PGS. TSKH. NGUYỄN XUÂN HUY

2. TS. HOÀNG QUANG





Phản biện 1: …………………………………………
Phản biện 2: …………………………………………
Phản biện 3: ………………………………………




Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp nhà nước
họp tại: …………………………………………………………….
…………………………………………………………………….
vào hồi giờ ngày tháng năm 20…






Có thể tìm hiểu luận án tại thư viên: ……………………………
…………………………………………………………………….

1

PHẦN MỞ ĐẦU
1. Đặt vấn đề

Trong nghiên cứu và mô tả thế giới thực, cùng với việc phản ánh ngữ nghĩa dữ
liệu của cơ sở dữ liệu thì lý thuyết về phụ thuộc dữ liệu đóng một vai trò rất cơ bản.
quan trọng. Phụ thuộc dữ liệu trong thiết kế và quản trị một cơ sở dữ liệu được hiểu là
sự mô tả các ràng buộc mà dữ liệu phải thỏa mản trong các bài toán thực tế và đây
cũng là yếu tố quyết định đến chất lượng dữ liệu trong quá trình xử lý và quản trị một
hệ thống. Một số kết quả nghiên cứu trong các năm gần đây cho thấy có thể vận dụng
khái niệm ánh xạ đóng để tiếp tục nghiên cứu các vấn đề thuộc về ngữ nghĩa dữ liệu.
Các công trình nghiên cứu về lý thuyết giàn giao từ cuối những năm 90 đến nay cũng
có nhiều đóng góp trong các lĩnh vực về khai phá dữ liệu và cơ sở dữ liệu. Việc tiếp
tục nghiên cứu các ứng dụng trên lý thuyết giàn giao cũng là một vấn đề đáng quan
tâm. Mỗi ánh xạ đóng được đặc trưng thông qua một hệ suy dẫn gọi là hệ sinh. Để
quản lý các hệ suy dẫn lớn, phức tạp cần phải có nhiều thuật toán hiệu quả để tính
toán các đối tượng. Nếu kích thước của hệ suy dẫn càng nhỏ thì hiệu quả các thuật
toán đạt được càng cao. Kỹ thuật thu gọn hệ sinh là một tiếp cận để giải quyết bài
toán này với ý tưởng là loại bỏ khỏi hệ sinh ban đầu một số phần tử để thu được hệ
sinh mới có kích thước nhỏ hơn và biểu diễn lại các đối tượng của hệ sinh ban đầu
theo các đối tượng của hệ sinh mới. Kỹ thuật này đã được các nhà khoa học từ đầu
những năm 2000 đến nay công bố trong nhiều công trình. Vấn đề chọn lựa tập phần
tử để loại bỏ như thế nào để đạt hiệu quả cũng là một bài toán cần tiếp tục nghiên
cứu. Bên cạnh đó, bài toán đặt ra là ngoài kỹ thuật thu gọn hệ sinh thì ta còn có thể sử
dụng phương pháp nào để thu nhỏ kích thước một hệ suy dẫn? Đây là bài toán cũng
cần được khảo sát và nghiên cứu.
2. Mục đích của luận án
Mục đích của luận án là tìm kiếm, phát triển các công cụ và phương pháp biểu
diễn các đối tượng của một hệ suy dẫn nhằm rút gọn không gian lưu trữ và nâng cao
hiệu quả tính toán. Trên cơ sở đó, vận dụng các kết quả thu được về mặt lý thuyết vào
các ứng dụng cụ thể trong một số lĩnh vực cơ sở dữ liệu và khai phá dữ liệu.
3. Phương pháp nghiên cứu
Tổng hợp tài liệu và các kết quả nghiên cứu đã công bố có liên quan đến đề tài.
Trao đổi, học hỏi với các chuyên gia đang làm việc cùng lĩnh vực đang nghiên cứu và

các lĩnh vực có liên quan.
Đối sánh các kết quả thu được về mặt lý thuyết và thuật toán với các kết quả đã
công bố nhằm đánh giá ý nghĩa và hiệu quả của các kết quả trong khuôn khổ luận án.
Vận dụng các phương pháp và cấu trúc của toán học rời rạc (bao gồm cả logic
hình thức) để chứng minh một số kết quả trong luận án.

2

3. Bố cục luận án

Luận án được trình bày trong 03 chương, phần mở đầu, phần kết luận
Chương 1. Một số khái niệm cơ bản trong cơ sở dữ liệu quan hệ và khai phá dữ
liệu
Chương này đề cập đến một số khái niệm chung và cơ bản nhất về lý thuyết cơ
sở dữ liệu quan hệ, cụ thể như khái niệm về quan hệ, bộ, thuộc tính, LĐQH, khái
niệm phụ thuộc hàm, bao đóng của tập phụ thuộc hàm, bao đóng tập thuộc tính, bài
toán thành viên, khóa và phản khóa, …. Ngoài ra, trong chương cũng trình bày một
số khái niệm cơ bản được sử dụng khi khai phá dữ liệu như khái niệm về cơ sở dữ
liệu giao tác, tập phổ biến, luật kết hợp, …, kết nối Galois và một số tính chất cơ bản.
Chương 2. Ánh xạ đóng & Lý thuyết giàn giao và ứng dụng
Chương này giới thiệu một số khái niệm, tính chất của ánh xạ đóng và lý thuyết
giản giao. Kết quả mới trong chương gồm có phát biểu về một điều kiện đủ để phép
hợp thành các AXĐ là một AXĐ và điều kiện để một họ con các AXĐ đóng với phép
hợp thành. Ngoài ra, một số kết quả đạt được khi xây dựng các ứng dụng của AXĐ,
lý thuyết giàn giao trong các bài toán khai phá dữ liệu và lý thuyết cơ sở dữ liệu cũng
được trình bày ở đây.
Chương 3. Hệ sinh ánh xạ đóng và một số kết quả nghiên cứu
Trong chương chủ yếu trình bày các định nghĩa, tính chất quan trọng của hệ sinh
AXĐ và các định lý, bổ đề biểu diễn cơ sở, phản cơ sở của hệ sinh AXĐ thông qua
kỹ thuật thu gọn hệ sinh. Kết quả mới và chủ yếu trong chương này là đề xuất một

dạng biểu diễn phản cơ sở của hệ sinh theo vế phải tối đại của tập luật sinh cùng với
thuật toán thu gọn một hệ sinh bất kỳ về một hệ sinh đơn giản gọi là hệ sinh cân bằng
và định lý về tính đúng của thuật toán. Bên cạnh đó, trong chương cũng trình bày một
số kết quả nghiên cứu thu được khi xây dựng các dạng giản lược của tập luật sinh, sự
tương quan giữa các đối tượng trong hệ sinh AXĐ, ….
CHƯƠNG 1: MỘT SỐ KHÁI NIỆM CƠ BẢN TRONG CƠ SỞ DỮ
LIỆU QUAN HỆ VÀ KHAI PHÁ DỮ LIỆU
VÀ KHAI PHÁ DỮ LIỆU

1.1 Khái niệm về cơ sở dữ liệu quan hệ
Cơ sở dữ liệu quan hệ và các khái niệm cơ bản đã được công bố trong rất nhiều
công trình. Ở đây chỉ trình bày tóm tắt lại các khái niệm về quan hệ, thuộc tính, bộ
cùng một vài ký hiệu và quy ước.

3

Định nghĩa 1.1
Cho tập hữu hạn và khác rỗng U = {A
1
, A
2
, , A
n
} với n 1. Các phần tử
thuộc U gọi là thuộc tính. Với mỗi thuộc tính A
i
U, i = 1, 2, , n là một tập tương
ứng dom(A
i
)


với dom(A
i
) 2

gọi là miền giá trị của thuộc tính A
i
. Gọi D là hợp của
các dom(A
i
), i = 1,2, ,n. Ta ký hiệu quan hệ R với các thuộc tính trên U là R(U), với
R là một tập các ánh xạ t: UD với t(A
i
) dom(A
i
), A
i
U. Mỗi ánh xạ gọi là một
bộ của quan hệ R.
1.2 Phụ thuộc hàm
Phụ thuộc hàm là một trong những lớp phụ thuộc logic được đề xuất đầu tiên có
một vai trò rất quan trọng trong việc thiết kế và xử lý các cơ sở dữ liệu. Trong phần
này sẽ trình bày các khái niệm cơ bản như phụ thuộc hàm, bao đóng tập phụ thuộc
hàm, các loại suy dẫn, bao đóng tập thuộc tính, …
1.2.1. Khái niệm phụ thuộc hàm
Cho tập thuộc tính U hữu hạn và khác rỗng. Một phụ thuộc hàm (PTH) trên U
có dạng f: XY ; X,Y  U. Nếu XY là một PTH trên U thì ta nói tập thuộc tính Y
phụ thuộc vào tập thuộc tính X, hoặc tập thuộc tính X xác định hàm tập thuộc tính Y.
Cho quan hệ R(U) và PTH f: XY trên U. Ta nói quan hệ R thoả PTH f và viết
R(f), nếu hai bộ tuỳ ý trong R giống nhau trên X thì chúng cũng giống nhau trên Y,

R(XY)  (u,v  R): (u.X = v.X)  (u.Y = v.Y)
Cho tập PTH F trên tập thuộc tính U. Ta nói quan hệ R(U) thoả tập PTH F, và
viết R(F), nếu R thoả mọi PTH trong F, R(F)  ( f  F): R(f)
Nếu quan hệ R thỏa PTH f ta cũng nói PTH f đúng trong quan hệ R.
1.2.2. Lược đồ quan hệ
Cặp a = (U, F) được gọi là một lược đồ quan hệ (LĐQH) với
U
là tập hữu hạn
các thuộc tính,
F
là tập các
PTH
trên tập thuộc tính
U.

1.2.3. Bao đóng tập phụ thuộc hàm
Định nghĩa 1.2
Cho tập PTH F trên tập thuộc tính U. Tập nhỏ nhất các PTH trên U chứa F được
gọi là bao đóng của F, ký hiệu F
+
thoả các tính chất F1-F3 của hệ tiên đề Armstrong
A
o
được trình bày như sau:
X, Y, Z  U:
F1. Tính phản xạ: Nếu X  Y thì XY  F
+

F2. Tính gia tăng: Nếu XY  F
+

thì XZYZ  F
+

F3. Tính bắc cầu: Nếu XY  F
+
và YZ  F
+
thì XZ  F
+



4

Định nghĩa 1.3
Ta nói PTH f được suy dẫn theo tiên đề (suy dẫn logic) từ tập PTH F và ký hiệu
là F╞ f, nếu f  F
+
, F╞ f  f  F
+

Định nghĩa 1.4
Gọi F là tập PTH trên tập thuộc tính U và f là một PTH trên U. PTH f được nói
là suy dẫn theo quan hệ từ tập PTH F, ký hiệu là F├ f, nếu mọi quan hệ R(U) thoả F
thì cũng thoả f, F├ f  SAT(F)  SAT(f)
Định nghĩa 1.5
Cho tập PTH F trên tập thuộc tính U, ta ký hiệu F* là tập các PTH f trên U
được suy dẫn theo quan hệ từ tập PTH F. Ta viết: F * = { f: XY | X,Y  U, F├ f }
Ta có thể khẳng định suy dẫn theo quan hệ và suy dẫn theo tiên đề là một, nghĩa


F
+
= F *.
Nói cách khác, ta có, F╞ f  F├ f
Định nghĩa 1.6
Cho tập thuộc tính U và F là tập PTH trên U. Gọi f là một PTH trên U. f gọi là
PTH được suy dẫn theo quan hệ có không quá p bộ từ F và viết F ├
p
f, nếu mọi quan
hệ R trong REL
p
(U) thoả tập F thì R cũng thoả f . Ta có thể viết:
F├
p
f  SAT
p
(F)  SAT
p
(f)
Gọi F là tập PTH trên tập thuộc tính U, F' là tập các PTH f trên U được suy dẫn
theo quan hệ có không quá hai bộ từ tập PTH F. Khi đó,
F' = { f: XY | X,Y  U, F├
2
f }
Để chứng tỏ các loại suy dẫn theo tiên đề, suy dẫn theo quan hệ và suy dẫn theo
quan hệ có không quá P bộ là hoàn toàn tương đương, ta xem định lý sau,
1.2.4. Định lý tương đương
Định lý 1.1
F
+

= F * = F'
1.2.5. Bao đóng tập thuộc tính
Cho tập PTH F trên tập thuộc tính U và một tập con các thuộc tính X trong U.
Bao đóng của tập thuộc tính X, ký hiệu X
+
là tập thuộc tính X
+
= {A U | X  AF
+
}
Bao đóng có một số các tính chất cơ bản sau,
Cho LĐQH a = (U,F). Khi đó  X, Y  U ta có
(i) Tính phản xạ: X  X
+

(ii) Tính đồng biến: X  Y

X
+
Y
+

(iii) Tính lũy đẳng: (X
+
)
+
= X
+

1.2.6. Bài toán thành viên

Bài toán được phát biểu: Cho tập thuộc tính U, tập các PTH F trên U và một
PTH f: XY trên U. Hỏi rằng, f  F+ hay không? Định lý thành viên phát biểu như

5

sau, phụ thuộc hàm XY  F
+
khi và chỉ khi Y  X
+
.

1.3. Khóa và phản khóa của LĐQH
Khi làm việc với một lược đồ quan hệ thì khóa và phản khóa là những khái niệm
rất cơ bản và quan trọng. Sau đây là phần trình bày lại một số khái niệm và tính chất
có liên quan đến khóa và phản khóa của một lược đồ quan hệ.
1.3.1. Khoá của lược đồ quan hệ
Định nghĩa 1.7
Cho LĐQH a = (U, F). Tập thuộc tính K  U gọi là khoá của LĐQH a nếu,
(i) K
+
= U
(ii) A K: (K \ A)
+
U
Nếu K thoả điều kiện (i) thì K được gọi là một siêu khoá.

Định nghĩa 1.8
Tập thuộc tính Y U được gọi là phụ thuộc đầy đủ vào tập thuộc tính X U, và
được ký hiệu là X  Y nếu,


(i) X Y, và

(ii) (A X): X \ A ↛ Y

Khi nghiên cứu về khóa của một LĐQH, trong nhiều công trình các tác giả đã
phát biểu về một số tính chất của khóa như sau: Cho LĐQH a = (U, F). Khi đó:
(i) K  U là một khoá khi và chỉ khi U phụ thuộc đầy đủ vào K.
(ii) Hai khoá khác nhau của một LĐQH không bao nhau.
(iii) Mọi LĐQH đều có ít nhất một khoá.
Ngoài ra, tính chất đặc trưng của các thuộc tính khóa trong LĐQH được phát
biểu như sau,
Cho K là một khóa của LĐQH a = (U,F). Khi đó, X  K: X
+
K=X.
Bên cạnh đó, công thức tính giao các khóa của một LĐQH cũng được trình bày
như sau, Cho LĐQH a = (U,F) với n thuộc tính trong U và m PTH trong F. Gọi U
I

giao các khóa của a. Khi đó, giao các khóa được tính qua công thức sau ,

FRL
I
LRUU

 )\(\

Từ công thức tính giao các khóa, tính chất về khóa duy nhất của LĐQH cũng
được phát biểu như sau,
Cho LĐQH a = (U,F). Gọi U
I

là giao của các khóa trong a. Khi đó a có một
khóa duy nhất khi và chỉ khi U
I
+
= U.

1.3.2 Phản khóa của lược đồ quan hệ
Định nghĩa 1.9
Cho LĐQH a = (U, F). Tập con P  U được gọi là phản khóa của a nếu:
i P
+
 U, và

6

ii AU \ P: PA

= U.
1.4. Một số khái niệm trong khai phá dữ liệu
Khai phá dữ liệu là một lĩnh vực được quan tâm hiện nay. Trong phần này sẽ
trình bày một số khái niệm về cơ sở dữ liệu giao dịch, khái niệm tập phổ biến, luật
kết hợp và một số khái niệm khác có liên quan đến khai phá dữ liệu. Cũng trong phần
này, kết nối Galois và một số tính chất cũng sẽ được đề cập.
1.4.1 Một số khái niệm cơ bản
Cơ sở dữ liệu giao dịch được định nghĩa là một cặp α = (T, I) với I = {x
1
, x
2
, …,
x

n
} là tập các mục dữ liệu và T = {t
1
, t
2
, …, t
m
} là tập các giao tác trên α. Mỗi giao tác
t  T được biểu diễn dưới dạng một vector nhị phân, trong đó giá trị tại vị trí i bằng 1
cho biết mục x
i
xuất hiện trong t, bằng 0 cho biết mục x
i
không xuất hiện trong t.

Cho tập mục X  I. Ta gọi độ phổ biến của X trong α là số giao tác trong α chứa
X, ký hiệu là

(X). Tập X  I được gọi là tập phổ biến nếu

(X) ≥ minsup với minsup
là ngưỡng phổ biến do người dùng quy định.

Từ các khái niệm trên, ta có thể nhận xét như sau,
Mọi tập con của tập phổ biến là tập phổ biến. Ngược lại, mọi tập cha của một tập
không phổ biến thì không phổ biến.
1.4.2 Luật kết hợp và kết nối Galois
Định nghĩa 1.10
Luật kết hợp (Association Rule) trên cơ sở dữ liệu giao dịch α = (T, I) là một biểu
thức có dạng X

1
→ X
2
, với X
1,
X
2
 I và X
1
∩ X
2
= .
+ Độ phổ biến của luật kết hợp, X
1
→ X
2
, là

( X
1
 X
2
)=

(X
1
X
2
).
+ Độ tin cậy của luật kết hợp, X

1
→ X
2
, là tỷ số

(X
1
X
2
) /

(X
1
).
+ Ta gọi X
1
→ X
2
là luật phổ biến nếu

(X
1
X
2
) ≥ minsup, là luật tin cậy nếu

(X
1
X
2

) /

(X
1
) ≥ minconf với minsup, minconf là ngưỡng phổ biến và ngưỡng tin
cậy do người dùng quy định.

Định nghĩa 1.11
Cho cơ sở dữ liệu giao dịch α = (T, I). Gọi Subset(X) là tập chứa tất cả các tập
con của X. Ta định nghĩa các ánh xạ sau,

t: Subset(I) → Subset(T), t(X) = {u  T | u.X =1}. Nói cách khác thì t(X) là tập
tất cả các giao tác trên T chứa mọi mục dữ liệu trong X.
i: Subset(T) → Subset(I), i(Y) = {x  I | t  Y, t.x =1}. Nói cách khác thì i(Y) là
tập tất cả các mục dữ liệu thuộc I có mặt ở tất cả các giao tác t thuộc Y.
Cặp ánh xạ (t, i) được gọi là kết nối Galois. Kết nối Galois thỏa các tính chất sau,

Y,

Y
1
, Y
2
 T và X, X
1
, X
2
 I,:

(i) Y

1
 Y
2
 i(Y
2
)  i(Y
1
)


7

(ii) X
1
 X
2
 t(X
2
)  t(X
1
)

(iii) Y  t(i(Y)), X  i(t(X))

(iv) i(Y
1
 Y
2
) = i(Y
1

)  i(Y
2
)

(v) t(X
1
 X
2
) = t(X
1
)  t(X
2
)

CHƯƠNG 2: ÁNH XẠ ĐÓNG & LÝ THUYẾT GIÀN GIAO VÀ
ỨNG DỤNG
2.1 Ánh xạ đóng
Ánh xạ đóng thuộc về họ các ánh xạ được sử dụng để thiết lập mối quan hệ giữa
các tập con của một tập hữu hạn thỏa các tính chất phản xạ, đồng biến và lũy đẵng.
Trong chương này của luận án sẽ trình bày một số định nghĩa và tính chất cơ bản của
ánh xạ đóng, vai trò của ánh xạ đóng trong việc ứng dụng giải quyết các bài toán về
khai phá dữ liệu và lý thuyết cơ sở dữ liệu.
2.1.1. Các khái niệm và tính chất ánh xạ đóng
Định nghĩa 2.1
Cho tập
U hữu hạn.
Ánh xạ
f
:
SubSet

(
U
) 
SubSet
(
U
)

được gọi là đóng trên
U
nếu với mọi tập con
X, Y

U
thỏa các tính chất sau,
(i) Tính phản xạ:
f
(X)  X,
(ii) Tính đồng biến: Nếu X  Y thì f(X)  f(Y),
(iii) Tính lũy đẳng: f(f(X)) = f(X).
Ngoài ba tính chất trên, ánh xạ đóng (AXĐ) còn thỏa các tính chất sau, Gọi f là
AXĐ cho trước trên U. Khi đó, với mọi X,Y  U ta thu được,
(iv) f(f(X)Y) = f(Xf(Y)) = f(XY)
(v) fXY  fXfY
(vi) f(XY)  f(X) f(Y)
Ngoài các khái niệm trên, các định nghĩa và định lý sau đây sẽ trình bày về phép
hạn chế của AXĐ trên một tập con. Đây cũng được xem là một tính chất quan trọng
của AXĐ, cụ thể là hạn chế của một AXĐ trên một tập con cũng là một AXĐ.
2.1.2. Phép hạn chế của ánh xạ đóng
Định nghĩa 2.2

Cho AXĐ f trên U và một tập con M của U. Hạn chế của ánh xạ f trên M, ký
hiệu f
M
là ánh xạ trên M được xác định như sau: X  M, f
M
(X) = f(X )  M

Ngoài ra, các nhà nghiên cứu cũng đã chứng minh được là với mọi AXĐ f trên
U và với mọi tập con M của U, f
M
là một AXĐ trên M.

8

2.1.3. Điểm bất động (tập đóng) trên ánh xạ đóng
Cho AXĐ f trên tập U hữu hạn. Tập con X  U được gọi là điểm bất động (hay
là tập đóng) của AXĐ f nếu f(X) = X .
Ta ký hiệu Fix(f) là tập toàn bộ các điểm bất động của AXĐ f. Vì f(U) = U nên
Fix(f) luôn chứa U. Mặt khác, dựa vào tính lũy đẳng của các AXĐ ta có thể mô tả
Fix(f) như sau, Fix(f) = { f(X) | X  U}

Bên cạnh các khái niệm và tính chất đã trình bày của AXĐ, khi nghiên cứu về
các phép toán trên AXĐ thì phép toán hội và phép toán hợp thành trên AXĐ cũng
đóng một vai trò cơ bản trong việc giải quyết các bài toán ứng dụng trong cơ sở dữ
liệu. Phần sau đây sẽ lần lượt trình bày các định nghĩa và các mệnh đề, định lý có liên
quan đến các phép toán trên. Ngoài các kết quả đã được các tác giả khác công bố,
trong luận án cũng phát biểu thêm một điều kiện đủ để phép toán hợp thành các AXĐ
là một AXĐ, đồng thời chỉ ra điều kiện để họ con các AXĐ đóng với phép hợp thành
2.2 Các phép toán trên ánh xạ đóng
Bên cạnh các khái niệm và tính chất đã trình bày của AXĐ, phép toán hội và

phép toán hợp thành trên AXĐ cũng đóng một vai trò cơ bản khi giải quyết các bài
toán ứng dung trong cơ sở dữ liệu. Phần này cũng trình bày một số khái niệm cơ bản
có liên quan đến các phép toán trên cùng với một số kết quả nghiên cứu của chúng tôi
liên quan đến phép toán hợp thành các AXĐ.
2.2.1. Phép toán hội
Định nghĩa 2.3
Cho các AXĐ f, g trên tập U hữu hạn. Ta xác định ánh xạ h trên U như sau,
h(X) = f(X)  g(X), X  U. Ta gọi h là hội các AXĐ f và g và ký hiệu là h = f*g.

Các nhà nghiên cứu cũng đã chứng minh được là hội của hai AXĐ trên U là một
AXĐ trên U. Nói cách khác, không gian các AXĐ đóng với phép toán hội.

2.2.2 Phép toán hợp thành
Định nghĩa 2.4
Cho hai AXĐ f, g trên tập U hữu hạn. Ánh xạ k được xác định trên U như sau,
k(X) = f(g(X)), X  U. k gọi là hợp thành của hai AXĐ f và g, ký hiệu là k = f

g
Tuy nhiên, các nhà nghiên cứu cũng đã chứng minh được phép hợp thành các
AXĐ chỉ thỏa tính phản xạ và đồng biến nhưng không thỏa tính lũy đẵng và cũng
không có tính chất giao hoán.
Định nghĩa 2.5
Cho tập hữu hạn U và các ánh xạ f, g  Map(U). Ta nói ánh xạ f hẹp hơn ánh
xạ g và ký hiệu là f  g, nếu với mọi X  U ta luôn có f(X)  g(X).
Với mọi ánh xạ f, g, h  Map(U), quan hệ “hẹp hơn”  thoả các tính chất sau:

9

(i) Phản xạ: f  f,
(ii) Phản xứng: Nếu f  g và g  f thì f = g,

(iii) Bắc cầu: Nếu f  g và g  h thì f  h.
Mệnh đề 2.1
Hợp thành hai AXĐ không hẹp hơn mỗi ánh xạ thành phần, tức là, với mọi
AXĐ f và g, ta có:
1. f

g  f , 2. f

g  g

Mệnh đề 2.2
Với mọi AXĐ f, g và h trên U, nếu f  g thì
1. f

h  g

h, 2. h

f  h

g.
Mệnh đề 2.3
Với mọi AXĐ f, g, k và h trên U, nếu f  k và g  h thì f

g  k

h.
Mệnh đề 2.4
Với mọi AXĐ f, g  CloseU ba điều kiện sau đây là tương đương:
(i) f  g, (ii) f


g = g, (iii) g

f = g.
Để phép hợp thành các AXĐ là một AXĐ thì điều kiện cần và đủ thứ nhất được
phát biểu qua định lý sau,
Định lý 2.1
Cho hai AXĐ f và g. Các hợp thành f

g và g

f đồng thời là các AXĐ khi và chỉ
khi chúng giao hoán.
Định lý sau đây cũng sẽ phát biểu điều kiện cần và đủ thứ hai để hợp thành các
AXĐ là một AXĐ,
Định lý 2.2
Hợp thành f.g của hai AXĐ f và g là một AXĐ khi và chỉ khi f

g

f = f

g.
Sau đây là phần trình bày một vài kết quả nghiên cứu về phép hợp thành,
Hệ quả 2.1
Cho các ánh xạ đóng f, g trên tập U hữu hạn. Nếu f  g hay g  f thì hợp thành
f.g và g.f là các ánh xạ đóng.
Bổ đề 2.1
Cho G  Close(U) với Close(U) là tập toàn thể các AXĐ trên U hữu hạn. Tập G
đóng với phép hợp thành nếu G là thứ tự toàn phần đối với phép  “hẹp hơn”.

2.2.3 Ứng dụng phép toán hợp thành
Bài toán được phát biểu như sau: Cho hai tập phụ thuộc hàm F và G trên cùng
một tập thuộc tính U. Có tồn tại hay không tập phụ thuộc hàm H trên U thỏa tính chất
sau: X  U: (X )
H
+
= ((X )
G
+
)
F
+

10

Để tiện trình bày, ta ký hiệu f, g, h lần lượt là các ánh xạ tính bao đóng của các
tập con thuộc tính theo các tập phụ thuộc hàm F, G, H tương ứng. Cụ thể là ta có thể
viết f(X) = X
F
+
, g(X) = X
G
+
, h(X) = X
H
+
.
Do f, g là các ánh xạ đóng trên U nên tập phụ thuộc hàm H tồn tại khi và chỉ khi
phép hợp thành f.g là ánh xạ đóng. Lúc này, ta có thể vận dụng các định lý 2.1, 2.2 và
hệ quả 2.1 của phép hợp thành AXĐ đã trình bày trong mục 2.2.2.

2.3 Cơ sở và phản cơ sở của ánh xạ đóng
Trong phần này sẽ trình bày một số các định nghĩa về cơ sở và phản cơ sở của
ánh xạ đóng. Một số các bổ đề, tính chất và định lý có liên quan đến kết quả nghiên
cứu về phản cơ sở trong luận án cũng được trình bày ở đây.
2.3.1. Cơ sở ánh xạ đóng
Định nghĩa 2.6
Cho AXĐ f trên U. Tập con K của U được gọi là cơ sở của AXĐ f nếu K thỏa
đồng thời hai tính chất sau đây
i Tính toàn thể: fK = U, và
ii Tính tối tiểu:  X  K: fX  U.
Nếu K thỏa tính chất (i) thì K được gọi là siêu cơ sở của AXĐ f.
Base(f) được ký hiệu là tập các cơ sở của AXĐ f.

Một đặc trưng của cơ sở AXĐ cũng được trình bày như sau: Nếu gọi K là một
cơ sở của AXĐ f trên tập U. Khi đó: X  K: f(X)  K = X.
Từ đặc trưng trên, ta nhận thấy, do X = f(X)  K = f
K
(X), nên X là điểm bất động
(tập đóng) đối với f
K
.
Việc xác định cơ sở ánh xạ đóng theo đặc trưng trên cũng được trình bày như
sau: Cho AXĐ f trên U và siêu cơ sở K của f. Nếu X  K: f(X)  K = X thì K là cơ
sở của f.
Định nghĩa 2.7
Cho f là AXĐ trên U. Phần tử A trong U được gọi là phần tử cơ sở hoặc phần tử
nguyên thủy của AXĐ f nếu A xuất hiện trong một cơ sở nào đó của f. A được gọi là
phần tử phi cơ sở hoặc phần tử phi nguyên thủy của AXĐ f nếu A không có trong bất
kỳ cơ sở nào của f. Ta ký hiệu U
B

là tập các phần tử cơ sở của AXĐ f trên U; U
o

tập của các phần tử phi cơ sở của f. U
I
là tập giao các cơ sở của f. Khi đó, U = U
B
| U
o

là một phân hoạch trên U.
Ngoài ra, các nhà nghiên cứu cũng trình bày một phát biểu về công thức tính
giao các cơ sở trên ánh xạ đóng như sau,

Cho AXĐ f trên tập hữu hạn U. Khi đó:

UX
I
XXfUU

 )\)((\


11

Bên cạnh đó, một phát biểu về điều kiện cần và đủ để AXĐ có duy nhất một cơ
sở cũng được các nhà nghiên cứu trình bày như sau,
Nếu gọi f là một AXĐ trên tập hữu hạn U thì f có duy nhất một cơ sở khi và chỉ
khi f(U
I

) = U, trong đó U
I
là giao các cơ sở.
2.3.2. Phản cơ sở ánh xạ đóng
Như đã trình bày ở các phần trước, một khái niệm đối ngẫu với cơ sở AXĐ là
phản cơ sở AXĐ. Khái niệm đối ngẫu ở đây theo nghĩa là cơ sở là tập phần tử nhỏ
nhất có ảnh là U, còn phản cơ sở là tập lớn nhất chứa các phần tử có ảnh khác U. Ta
có thể sử dụng phản cơ sở thay cho vai trò của cơ sở, thuật toán xác định phản cơ sở
từ cơ sở và ngược lại có độ phức tạp là tuyến tính. Các khái niệm và tính chất liên
quan đến phản cơ sở AXĐ được trình bày qua các định nghĩa, bổ đề và định lý sau
đây,
Định nghĩa 2.8
Cho AXĐ f trên U. Tập con P của U được gọi là phản cơ sở của AXĐ f nếu:
i fP  U, và
ii A U \ P: fPA = U.
Ta ký hiệu AntiBase(f) là tập các phản cơ sở của AXĐ f.

2.4. Giàn giao ánh xạ đóng
Trong một số lĩnh vực như cơ sở dữ liệu, khai phá dữ liệu,… thì giàn giao AXĐ
được sử dụng như một công cụ toán học và có nhiều đóng góp, ứng dụng hiệu quả.
Phần sau đây sẽ trình bày các khái niệm, tính chất cơ bản về điểm bất động (hay còn
gọi là tập đóng) và lý thuyết giàn giao AXĐ cùng với các bổ đề, định lý phát biểu về
sự tương quan giữa các tập đặc trưng trong một giàn giao.
2.4.1. Một số khái niệm cơ bản
Định nghĩa 2.9
Gọi G là một họ các tập con của tập hữu hạn U đóng với phép giao, cụ thể là
giao của mọi họ con trong G đều cho kết quả là một tập con trong G,
G  SubSet(U): (H  G 

HX

X

 G)
G được gọi là giàn giao trên tập hữu hạn U. Khi đó tồn tại một họ con duy nhất
S chứa trong G sao cho mọi phần tử của G đều được biểu diễn qua giao của các phần
tử trong S. Nói cách khác, S là tập nhỏ nhất của G thỏa tính chất:
G = {X
1
   X
k
| k 

X
1
,…, X
k
S}
S được gọi là tập sinh của giàn giao G và được ký hiệu là Gen(G). Để biểu diễn
tập sinh theo nhiều ngữ nghĩa khác nhau, các tác giả đã chỉ ra các tập sau đây thì bằng
nhau trên một giàn giao G cho trước,

12

(i) Gen(G)
(ii) { VG | VU, (X,YG, X V, Y V)  XYV }
(iii) { VG | VU,(V=X
1
…X
k
; X

1
,…,X
k
G, k1) (i,1ik:V = X
i
)}
(iv) { V  G | V 

XV
GX
X


}

Định nghĩa 2.10
Cho (M, ) là một tập hữu hạn có thứ tự bộ phận. Phần tử A trong M được gọi là
cực đại nếu từ A  B và BM, ta luôn có A=B. Ta ký hiệu MAX(M) là tập các phần tử
cực đại của M. Với họ các tập con của tập hữu hạn, xét thứ tự bộ phận .
Phần tử cực đại thuộc các tập trong các công trình nghiên cứu được tác giả trình
bày như sau: Cho (M, ) là một tập hữu hạn có thứ tự bộ phận và P  Q  M. Khi đó,
nếu X  MAX(Q) và X  P thì X  MAX(P).
Bổ đề 2.2
Cho giàn giao G trên tập hữu hạn U, ta có, MAX(Gen(G)) = MAX(G\{U})
Khẳng định về tập đóng (tập các điểm bất động) của AXĐ tạo thành một giàn
giao được trình bày như sau, Cho AXĐ f trên U hữu hạn. Khi đó, Fixf là giàn giao
với phần tử cực đại U.

Khi làm việc với giàn giao thì các tác giả cũng đã đưa ra các khái niệm về đối
nguyên tử và tập Coatom của một giàn giao. Các khái niệm này được trình bày qua

định nghĩa sau,
Định nghĩa 2.11
Cho G là giàn giao trên tập U. Ta ký hiệu Coatom(G) = MAX(G \ {U}) và gọi
các phần tử trong Coatom(G) là đối nguyên tử của giàn giao G.
Định lý sau đây sẽ trình bày về đặc trưng của tập đối nguyên tử (coatom) trong
giàn giao AXĐ,
Định lý 2.3
Với mọi giàn giao G trên tập hữu hạn U, ta có CoatomG = MAXGenG.
2.4.2. Sự tương quan giữa tập phản cơ sở và tập đối nguyên tử
Tính đóng của tập phản cơ sở được trình bày qua bổ đề sau đây,
Bổ đề 2.3
Với mọi AXĐ f trên tập hữu hạn U, ta có AntiBasef)  MAX(Fix(f)\{U})
Ngoài tính đóng của tập phản cơ sở đã chỉ ra ở trên, sự tương quan giữa tập phản
cơ sở và tập đối nguyên tử của giàn giao qua định lý sau đây,
Định lý 2.4
Với mọi AXĐ f trên tập hữu hạn U, AntiBasef) = Coatom(f).

13

2.5. Ứng dụng giàn giao với bài toán ẩn tập mục nhạy cảm
2.5.1. Đặt vấn đề
Bài toán khai thác tri thức nhằm phát hiện các luật phổ biến trên các tập mục
phổ biến. Một số các tập mục không muốn hiển thị vì một lý do nào đó gọi là các tập
mục nhạy cảm. Giải pháp thường được lựa chọn là vẫn công bố đầy đủ các tập mục
nhưng sẽ tìm cách sửa tần suất xuất hiện của các tập mục nhạy cảm xuống dưới
ngưỡng phổ biến

. Khi đó, các tập mục nhạy cảm sẽ trở thành các tập mục không
phổ biến và do đó chúng không thể trở thành các thành phần trong bất kỳ luật nào.
Giải pháp này được gọi là ẩn các tập mục nhạy cảm. Hướng nghiên cứu này rõ ràng

cần thiết cho trường hợp cần bảo vệ bí mật và tính riêng tư trong một số tình huống.
2.5.2. Phát biểu bài toán
Bài toán ẩn tập mục nhạy cảm được phát biểu như sau: Cho bảng T gồm N giao
tác trên M mục. Cho ngưỡng hỗ trợ

và danh sách P các tập mục phổ biến theo
ngưỡng

. Cho tập mục nhạy cảm H

P.

Yêu cầu bài toán là hãy ẩn tập mục nhạy cảm H theo nghĩa: cần chỉ ra các vị trí
cần sửa dữ liệu trên bảng T sao cho

(X) <

và các tập mục phổ biến khác bị ảnh
hưởng ít nhất.
2.5.3. Cơ sở lý thuyết
Mệnh đề 2.5
Họ các tập mục phổ biến P tạo thành một giàn giao AXĐ.
Khi xét mỗi tập mục phổ biến X trong P, ta nhận thấy tập Poset(X)  P là một
giàn giao đầy đủ với tập Gen gồm các phần tử trên hàng thứ hai.

Ngoài ra, ta cũng có thêm một số nhận xét sau,
(i) Nếu tập phổ biến X ẩn thì mọi tập phổ biến Y chứa X cũng ẩn theo.

(ii) Nếu X  P thì mọi Update(A,X,T,d), A  X đều kéo theo Update(A,Y,T,d),
Y  X, A  Y. tức là độ phổ biến của mọi tập con chứa A của X đều bị giảm d đơn vị.

(iii) Các tập mục Y như mô tả trong (i) được gọi là các tập mục chịu hiệu ứng
phụ khi cập nhật (xóa) mục A trong tập mục X. Điều này cho thấy, nếu cập nhật mục
A trong tập mục X cần chú ý đến các tập mục con đúng và chứa A của X. Nếu độ phổ
biến của chúng lớn hơn ngưỡng

không nhiều thì chúng sẽ có nguy cơ bị ẩn theo.
2.5.4. Thuật toán ẩn tập mục nhạy cảm
Từ định lý 2.3, mệnh đề 2.5 cùng các nhận xét trên, thuật toán Itemhide được đề
xuất để ẩn một tập mục nhạy cảm H cho trước.
2.6. Giàn giao và ứng dụng trong khai thác tập phổ biến
Phần này sẽ minh họa cho việc vận dụng AXĐ và lý thuyết giàn giao vào lĩnh
vực khai phá dữ liệu, cụ thề là trình bày một phương pháp xác định tập phổ biến tối

14

đại với mục đích thu nhỏ số lượng tập phổ biến cần quản lý nhưng vẫn đảm bảo được
việc sinh luật kết hợp đầy đủ.
2.6.1. Cơ sở lý thuyết
Định nghĩa 2.12
Cho cơ sở dữ liệu giao dịch α =(T, I) và tập mục X  I. Ta nói X là tập phổ biến
tối đại nếu X là tập phổ biến và X không là tập con thực sự của một tập phổ biến nào
cả. Ký hiệu MFI là họ các tập phổ biến tối đại của α.
Ta nhận thấy rằng, với mỗt tập phổ biến, tồn tại một tập phổ biến tối đại chứa nó.

2.6.2. Thuật toán xác định tập phổ biến tối đại
Thuật toán 2.5
Tư tưởng thuật toán Coatom được đề xuất với ý tưởng là từ cơ sở dữ liệu giao
dịch cho trước, trước hết sẽ xác định họ các tập phổ biến với một thuật toán nào đó,
chẳng hạn như thuật toán khai thác song song với thuật toán SABMA. Sau đó, từ họ
các tập phổ biến thu được ta sẽ xây dựng một đồ thị có hướng H để xác định họ các

tập phổ biến tối đại.
CHƯƠNG 3: HỆ SINH ÁNH XẠ ĐÓNG VÀ MỘT SỐ KẾT QUẢ
NGHIÊN CỨU
3.1 Hệ sinh ánh xạ đóng
Mỗi ánh xạ đóng được mô tả thông qua một hệ suy dẫn gọi là hệ sinh AXĐ.
Phần sau đây sẽ trình bày các khái niệm cơ bản về tập luật sinh, hệ sinh, tập bao của
một tập con các phần tử, ánh xạ cảm sinh và một số tính chất quan trọng của hệ sinh.
3.1.1. Khái niệm hệ sinh ánhxạ đóng
Định nghĩa 3.1
Cho tập hữu hạn U, luật sinh f trên U là biểu thức dạng f: L  R; L, R  U.
Các tập L và R được gọi tương ứng là vế trái và vế phải của luật sinh f và được ký
hiệu tương ứng là LS(f) và RS(f).
Ta ký hiệu

= (U, F) là một hệ sinh ánh xạ đóng, trong đó U là một tập hữu
hạn, F là tập các luật sinh trên U.
Định nghĩa 3.2

Cho một hệ sinh AXĐ

= (U, F) và các tập con X, Z của U. Ta gọi Z là một tập
bao của tập X trong hệ sinh

nếu Z thỏa,
(i) Z  X,
(ii) L  R  F, L  Z thì R  Z.
Kí hiệu [X] là họ các tập bao của X trong hệ sinh cho trước.


15


3.1.2. Ánhxạ cảm sinh
Định nghĩa 3.3

Cho

= (U,F). Ánh xạ f

: SubSet(U)  SubSet(U) được xác định như sau,
X  U: f

(X) = [X]. Nói cách khác, f

(X) là tập con nhỏ nhất của U thỏa các tính
chất sau:
(i) f

(X)  X,
(ii)  L  R  F, L  f

(X)  R  f

(X).
f

được gọi là ánh xạ cảm sinh của

, X là vật, f

(X) là ảnh của f


. Ta nhận
thấy, f

(X) chính là tập bao nhỏ nhất của X trong hệ sinh

.
Khẳng định mỗi hệ sinh thì xác định duy nhất một AXĐ và ngược lại mỗi AXĐ
thì xác định một hệ sinh được trình bày qua định lý sau đây,
Định lý 3.1
(i) Với mỗi hệ sinh

= (U,F), ánh xạ cảm sinh f

là AXĐ trên U.
(ii) Với mỗi AXĐ h trên U, tồn tại một hệ sinh

= (U,F) thỏa tính chất,
 X  U: f

(X) = h(X)

3.1.3. Thuật toán xác định ảnh một tập con trong hệ sinh
Thuật toán 3.1
Cho hệ sinh

= (U,F) và tập con X của U. Hãy tính f

(X). Thuật toán Image
tính f


(X) với độ phức tạp thời gian là đa thức theo chiều dài dữ liệu vào
.
3.2 Giản lược tập luật sinh
Trong một hệ sinh AXĐ, nếu số lượng luật sinh ít đi hay số các phần tử tham gia
vào luật sinh không nhiều thì không gian lưu trữ được rút gọn và hiệu quả tính toán
các đối tượng trong hệ sinh sẽ được cải thiện. Phần này sẽ trình bày một tiếp cận theo
hướng giản lược các tập luật sinh bằng cách xây dựng một số khái niệm bao gồm khái
niệm tập luật sinh tương đương, các dạng suy dẫn của tập luật sinh và các dạng giản
lược của tập luật sinh như tập giản lược tự nhiên, tập giản lược không dư cùng với
các thuật toán tương ứng để giản lược tập luật sinh ban đầu về các dạng thu gọn.
3.2.1. Một số khái niệm cơ sở
Để xây dựng được các khái niệm đã trình bày ở trên, trước hết trong phần này sẽ
trình bày cách xây dựng một số khái niệm cơ sở như ảnh của tập luật sinh, dạng suy
dẫn logic (còn gọi là suy dẫn theo tiên đề) của luật sinh, thuật toán xác định một luật
sinh có thuộc về tập luật sinh hay không qua các định nghĩa và định lý sau đây,
Định nghĩa 3.4
Cho tập luật sinh F trên tập U hữu hạn. Ảnh của F, ký hiệu là F* là tập nhỏ nhất
các luật sinh trên U chứa F và thỏa các tính chất của hệ tiên đề Armstrong sau:

X, Y, Z  U:

16

F1. Tính phản xạ:
Nếu X  Y thì X

Y

F*

F2. Tính gia tăng:
Nếu X

Y  F* thì XZ

YZ  F*
F3. Tính bắc cầu:
Nếu X

Y  F* và Y

Z  F* thì X

Z  F*
Từ các khái niệm và tính chất trên, trong các kết quả nghiên cứu về các dạng
giản lược tập luật sinh thì một số khái niệm sau cũng được đề xuất trong luận án,
+ Một luật sinh f được suy dẫn logic (hay suy dẫn theo tiên đề) từ tập luật sinh
F, ký hiệu là F╞ f, nếu f  F*. Ta có thể viết: F╞ f  f

F*
+ Cho hai tập luật sinh F và G trên U hữu hạn. Ta nói F suy dẫn ra được G, ký
hiệu F╞ G, nếu gG: F╞ g. Ta nói F tương đương với G, ký hiệu F  G, nếu
F╞ G và G╞ F. Ký hiệu F ≢ G có nghĩa F và G không tương đương.
Định nghĩa 3.5
Cho hệ sinh

= (U,F). Ta gọi ảnh của ánh xạ cảm sinh f


đối với tập X, f


(X) là
ảnh của X trong hệ sinh

, ký hiệu là X
*

. hay X
*
(nếu chỉ làm việc trên một hệ sinh).

Định lý 3.2
Cho hệ sinh AXĐ

= (U,F), ta có, X

Y  F* khi và chỉ khi Y  X
*

.
3.2.2. Tập giản lược tự nhiên
Định nghĩa 3.6
Cho hai tập luật sinh F và G trên U. G gọi là tập giản lược tự nhiên của F nếu:
(i) G tương đương F, và
(ii) G có dạng giản lược tự nhiên với ý nghĩa như sau:
+ Hai vế trái và phải của mọi luật sinh trong G rời nhau:

f  G: LS(f)  RS(f) = 
+ Các vế trái của mọi luật sinh trong G khác nhau đôi một:


f, g  G: f

g

LS(f)

LS(g)
3.2.3. Tập giản lược không dư
Định nghĩa 3.7
Cho hai tập luật sinh F và G trên tập U hữu hạn. G được gọi là tập giản lược
không dư của F nếu,
(i) G tương đương F, và
(ii) G có dạng giản lược không dư theo nghĩa sau: gG: G \{g} ≢ G
3.3 Thu gọn hệ sinh ánh xạ đóng
Trong quản lý các hệ suy dẫn lớn và phức tạp đòi hỏi phải có nhiều thuật toán
hữu hiệu để tính toán các đối tượng như ảnh, cơ sở, phản cơ sở, Một thuật toán tốt

17

theo nghĩa độ phức tạp tính toán giới hạn ở các hàm tuyến tính hoặc đa thức theo
chiều dài dữ liệu vào. Bên cạnh đó, ta cũng nhận thấy, nếu kích thước của các hệ suy
dẫn càng nhỏ thì các thuật toán càng phát huy hiệu quả hơn. Một trong số các hướng
nghiên cứu tinh giản các hệ suy dẫn được thực hiện thông qua các phép biến đổi
tương đương, chẳng hạn, trong phần trên của luận án đã trình bày các dạng giản lược
của một tập luật sinh.
Trong phần này của luận án sẽ trình bày theo một cách tiếp cận khác là sử dụng
kỹ thuật thu gọn một hệ suy dẫn. Bản chất của kỹ thuật này là loại bỏ khỏi hệ suy dẫn
ban đầu một số phần tử không quan trọng theo nghĩa chúng không làm ảnh hưởng
đến kết quả tính toán các đối tượng đang quan tâm như ảnh, cơ sở, phản cơ sở, Mặc
dù hệ suy dẫn thu được qua phép thu gọn không tương đương với hệ suy dẫn ban đầu,

nhưng điểm đặc biệt là ta vẫn có thể thu được các đối tượng cần tìm bằng những phép
toán đơn giản như loại bỏ hoặc thêm vào một số phần tử.
3.3.1. Các khái niệm và thuật toán thu gọn hệ sinh AXĐ
Định nghĩa 3.8

Cho hai hệ sinh

= (U,F),

= (V,G) và tập M  U. Ta nói hệ sinh

nhận được
từ hệ sinh

qua phép thu gọn theo tập M, và kí hiệu là

=

\M, nếu sau khi loại bỏ
mọi xuất hiện của các phần tử của M trong hệ sinh

thì thu được hệ sinh

.
Sau khi thực hiện thủ tục G = F\M, nếu:
- G chứa các luật sinh tầm thường (dạng XY, X  Y) thì ta loại các luật sinh
này khỏi G,
- G chứa các luật sinh trùng lặp thì ta lược bớt các luật sinh này.
3.3.2. Biểu diễn ảnh tập con theo phép thu gọn hệ sinh AXĐ
Công thức biểu diễn ảnh của tập con theo phép thu gọn hệ sinh được trình bày

qua định lý sau,
Định lý 3.3
Cho hệ sinh

= (U,F) và hai tập con không giao nhau X và Y trong U. Khi đó:
(XY)
*

= X (Y)
*

\X

Hệ quả 3.1
Cho hệ sinh

= (U,F) và tập X  U. Khi đó: X
*

= X ()
*

\X

Phần sau đây sẽ trình bày một số khái niệm và tính chất của cơ sở, phản cơ sở hệ
sinh AXĐ và các phát biểu biểu diễn các đối tượng này theo kỹ thuật thu gọn hệ sinh.
Trong phần này cũng giới thiệu một kết quả nghiên cứu mới về phương pháp biểu
diễn phản cơ sở của một hệ sinh theo vế phải cực đại của tập luật sinh.

18


3.4 Cơ sở và phản cơ sở hệ sinh ánh xạ đóng
3.4.1. Cơ sở hệ sinh ánh xạ đóng
Định nghĩa 3.9
Ta gọi cơ sở của hệ sinh là cơ sở của ánh xạ cảm sinh của hệ sinh đó. Với mỗi
hệ sinh

= (U,F), ta ký hiệu Base(

) là tập các cơ sở của ánh xạ cảm sinh của hệ
sinh

; U
B
là tập các phần tử cơ sở của hệ sinh

, tức là tập các phần tử có trong một
cơ sở của

; U
0
là tập các phần tử phi cơ sở của

, tức là tập các phần tử không có
trong bất kỳ cơ sở nào của

; U
I
là giao các cơ sở của


. Khi đó, U
B
| U
0
là một phân
hoạch trên U.
Ngoài các phương pháp sử dụng để biểu diễn cơ sở của hệ sinh theo phép thu
gọn hệ sinh đã được công bố thì một cách tiếp cận khác để biểu diễn cơ sở hệ sinh
cũng dựa trên kỹ thuật thu gọn hệ sinh, nhưng điểm đặc biệt ở cách tiếp cận này là
tập thu gọn là một vế trái tối tiểu của tập luật sinh của hệ sinh cho trước.

3.4.2. Phản cơ sở hệ sinh ánh xạ đóng
Một số các định nghĩa, định lý sau đây sẽ trình bày các khái niệm về phản cơ sở
và cách biểu diễn phản cơ sở của hệ sinh ánh xạ đóng theo phép thu gọn hệ sinh. Mặt
khác, trong phần này cũng trình bày các điều kiện cần và đủ về bảo toàn tập phản cơ
sở thông qua phép thu gọn hệ sinh.

Định nghĩa 3.10
Ta gọi phản cơ sở của hệ sinh là phản cơ sở của ánh xạ cảm sinh của hệ sinh đó.
Với hệ sinh

= (U,F). Ta ký hiệu, AntiBase(

) là tập các phản cơ sở của hệ sinh

;
Fix

 là họ các điểm bất động của hệ sinh


; U
B
là tập các phần tử phản cơ sở của


tức là các phần tử có mặt trong một phản cơ sở của hệ sinh

; U
I
là giao của các
phản cơ sở của

tức là các phần tử có mặt trong mọi phản cơ sở của hệ sinh

; U
o

tập các phần tử không có trong bất kỳ phản cơ sở nào của hệ sinh

. Ta nhận thấy là
U
o
| U
B
là một phân hoạch trên U.
Các tính chất liên quan đến tập đóng(tập các điểm bất động) khi thu gọn hệ sinh
được trình bày qua định lý sau đây,
Định lý 3.4
Cho hai hệ sinh AXĐ


= (U, F) và

= (V,G). Biết

=

\XvớiX, M  U,
X  M = . Khi đó:
1. XM  Fix

 khi và chỉ khi M  Fix

.
2. XM  Gen

 khi và chỉ khi M  Gen

.
3. XM  Coatom

 khi và chỉ khi M  Coatom

.
4. XM  AntiBase

 khi và chỉ khi M  AntiBase

.
Ngoài ra, trong nhiều công trình, các tác giả cũng đã trình bày một phương pháp


19

biểu diễn phản cơ sở hệ sinh AXĐ với kỹ thuật thu gọn hệ sinh. Cụ thể nếu gọi hệ
sinh  = U,F với tập AntiBase

 ≠ . Đặt

=

\ X, X  U. Khi đó, ta thu được,
1. AntiBase(

) = AntiBase(

) khi và chỉ khi X = .
2. AntiBase(

) = X  AntiBase(

) khi và chỉ khi X  U
I
.
3.4.3. Một dạng biểu diễn phản cơ sở hệ sinh AXĐ
Trong phần này sẽ giới thiệu thêm một kết quả về một dạng biểu diễn phản cơ
sở hệ sinh theo vế phải cực đại của tập luật sinh. Khái niệm về vế phải cực đại của
tập luật sinh cùng với việc phát biểu và chứng minh các bổ đề, định lý sau sẽ minh
họa cho dạng biểu diễn phản cơ sở này.

Định nghĩa 3.11
Cho hệ sinh


=(U, F). Ta ký hiệu MR(F) là tập các vế phải cực đại của F,
MR(F) = MAX {RS(f) | f

F}

Bổ đề 3.1
Cho hệ sinh

= (U, F). Nếu R  MR(F) thì R là tập con của phản cơ sở nào đó
của

khi và chỉ khi R
*
 U.
Định lý 3.5
Mọi phản cơ sở của hệ sinh AXĐ

= (U, F) đều biểu diễn được dưới dạng RM
với R là vế phải cực đại không chứa cơ sở của tập luật sinh và M là phản cơ sở của hệ
sinh

=

\R.

3.4.4. Sự tương quan giữa các đối tượng trong hệ sinh AXĐ
Bên cạnh các phương pháp biểu diễn phản cơ sở đã trình bày, phần sau đây sẽ
giới thiệu thêm một số kết quả nghiên cứu về mối tương quan giữa các đối tượng
trong hệ sinh AXĐ.

Bổ đề 3.2
Cho hai tập luật sinh F và G trên U. Khi đó F và G tương đương khi và chỉ khi
X  U: X
F
*
= X
G
*

Định lý sau trình bày về mối tương quan giữa tập cơ sở và tập phản cơ sở của hệ
sinh AXĐ,
Định lý 3.6
Cho hai hệ sinh

= U,F và

= U,G. Khi đó,
Base

=Base

  AntiBase

=AntiBase


Bổ đề 3.3
Cho hai tập luật sinh F và G trên U. Nếu F và G tương đương thì hai hệ sinh
AXĐ


= U,F và

= U,G có cùng tập cơ sở và do đó có cùng tập phản cơ sở,
Base

 = Base

, AntiBase

 = AntiBase

.


20

3.5 Ứng dụng hệ sinh AXĐ giải bài toán hệ suy dẫn
3.5.1. Các khái niệm và quy tắc suy dẫn

Định nghĩa 3.12
Hệ suy dẫn là một cặp

= (U,F) trong đó U là một tập nền (tập các sự kiện), F
là tập các luật dẫn dạng L  R; L, R  U.
Một số quy tắc suy dẫn cơ bản
Áp dụng hệ tiên đề Armstrong , L, R, V  U:
F1. Tiên đề phản xạ: L  R  L  R,
F2. Tiên đề gia tăng: L  R

 LV RV,

F3. Tiên đề bắc cầu: LR  RV  LV.
3.5.2. Một số dạng bài toán suy dẫn
Trong thực tế, có thể sử dụng hệ suy dẫn để giải quyết một số bài toán. Vận
dụng các khái niệm trong hệ sinh ánh xạ đóng để minh họa cho việc giải các dạng bài
toán sau đây.
(1) Cho hệ suy dẫn

= (U,F) và luật dẫn h: X  Y. Hãy cho biết tính đúng của
luật dẫn h theo nghĩa, luật dẫn h là đúng khi và chỉ khi xuất phát từ tập luật dẫn F ban
đầu, sau hữu hạn bước vận dụng các tiên đề F1-F3 của hệ Armstrong ta thu được h.
Vận dụng các khái niệm trong hệ sinh AXĐ, ta có thể chỉ ra mệnh đề h: XY
đúng khi và chỉ khi Y  f

(X), với f

là ánh xạ cảm sinh của

.
(2) Cho hệ suy dẫn

= (U,F) và hai tập sự kiện X và Y. Cho biết xuất phát từ
các sự kiện X có thể suy ra những sự kiện nào trong số các sự kiện Y.
Với dạng bài toán này, sử dụng các tính chất của ánh xạ cảm sinh của hệ sinh và
phép giao trong tập hợp, ta có thể khẳng định rằng từ các sự kiện X có thể suy ra
những sự kiện f

(X)  Y trong số các sự kiện Y.
3.6 Hệ sinh cân bằng
Phần sau đây sẽ trình bày một số khái niệm và tính chất của một hệ sinh đặc biệt
gọi là hệ sinh cân bằng. Kết quả nghiên cứu chính trong luận án khi làm việc với hệ

suy dẫn này là xây dựng một thuật toán trình bày cách thu gọn một hệ sinh bất kỳ về
dạng hệ sinh cân bằng và phát biểu định lý chứng minh tính đúng của thuật toán.
3.6.1. Các khái niệm và một sô tính chất
Định nghĩa 3.13
Hệ sinh α = (U,F) gọi là cân bằng nếu α thỏa các tính chất sau đây:
(B1) Hợp các vế trái, vế phải của các luật sinh trong F đúng bằng tập U:
LS(F) = RS(F) = U
(B2) F không chứa luật sinh tầm thường, là các luật sinh có vế trái chứa vế phải:

21

 X,Y  U: X  Y  (X  Y  F)
(B3) Hai vế trái và phải của mọi luật sinh trong F rời nhau (không giao nhau):
 f  F: LS(f)  RS(f) = 
(B4) Các vế trái của mọi luật sinh trong F khác nhau đôi một:
 f, g  F: LS(f) = LS(g)  f = g
Ngoài bốn tính chất cơ bản đã trình bày trên, hệ sinh cân bằng còn thỏa một số
các tính chất sau đây,
Tính chất 3.1
Hệ sinh cân bằng thỏa một số tính chất sau,
(B5) Nếu tập luật sinh F trong hệ sinh AXĐ α = (U,F) thỏa B2-B4 và chỉ có một
luật sinh thì α không thể là HSCB.
(B6) Từ B5 ta suy ra hệ sinh AXĐ chỉ có một thuộc tính thì không thể là HSCB.
(B7) Trong HSCB

= (U,F), giao các cơ sở U
I
= .
(B8) Nếu hệ sinh α = (U,F) là HSCB thì A  U, ta có α\A cũng là HSCB.
3.6.2. Thuật toán thu gọn hệ sinh AXĐ về dạng cân bằng

Thuật toán BS được trình bày và mô tả các bước để thu gọn một hệ sinh AXĐ
về dạng hệ sinh cân bằng. Thuật toán thu gọn hệ sinh ban đầu về dạng hệ sinh cân
bằng với các bước có độ phức tạp không quá O(mn), với m là số lượng luật sinh trong
tập luật F, n số lượng các phần tử có trong U.
Định lý 3.7
Hệ sinh thu được sau khi thực hiện thuật toán BS là một hệ sinh cân bằng.

3.7 Ứng dụng hệ sinh AXĐ trong cơ sở dữ liệu
Các khái niệm về lược đồ quan hệ đã trình bày trong chương một là trường hợp
riêng của hệ sinh AXĐ thông qua một số các tương ứng được trình bày sau đây.
Thông qua các tương ứng này cho thấy có thể vận dụng công cụ hệ sinh AXĐ để
nhận lại các kết quả về khóa, phản khóa, bao đóng, … trong CDSL. Mặt khác, sử
dụng công cụ này còn có thể giải quyết được một số bài toán khác trong CSDL.
Cơ sở dữ liệu Ánh xạ đóng
Tập thuộc tính Tập phần tử
Phụ thuộc hàm

Luật sinh
LĐQH Hệ sinh
Bao đóng của tập thuộc tính Ánh xạ đóng
Khóa Cơ sở
Phản khóa Phản cơ sở
Dạng chuẩn Dạng chuẩn

×