Tải bản đầy đủ (.pdf) (117 trang)

Nghiên cứu hệ sinh ánh xạ đóng và ứng dụng trong thể hiện ngữ nghĩa dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.68 MB, 117 trang )




BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM

VIỆN CÔNG NGHỆ THÔNG TIN




BÙI ĐỨC MINH



NGHIÊN CỨU HỆ SINH ÁNH XẠ ĐÓNG
VÀ ỨNG DỤNG TRONG THỂ HIỆN
NGỮ NGHĨA DỮ LIỆU






LUẬN ÁN TIẾN SĨ TOÁN HỌC








HÀ NỘI – 2014




BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM

VIỆN CÔNG NGHỆ THÔNG TIN



BÙI ĐỨC MINH


NGHIÊN CỨU HỆ SINH ÁNH XẠ ĐÓNG
VÀ ỨNG DỤNG TRONG THỂ HIỆN
NGỮ NGHĨA DỮ LIỆU

Chuyên ngành: BẢO ĐẢM TOÁN HỌC CHO MÁY TÍNH
VÀ HỆ THỐNG TÍNH TOÁN
Mã số: 62.46.35.01



LUẬN ÁN TIẾN SĨ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TSKH. NGUYỄN XUÂN HUY

2. TS. HOÀNG QUANG



HÀ NỘI - 2014

1


LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả
trong luận án là trung thực và chưa từng công bố trong bất kỳ công trình nào khác.

Tác giả luận án



Bùi Đức Minh




2

LỜI CÁM ƠN


Luận án được thực hiện và hoàn thành tại Viện Công nghệ Thông tin, Viện
Khoa học và Công nghệ Việt Nam, dưới sự hướng dẫn khoa học của PGS TSKH

Nguyễn Xuân Huy và TS Hoàng Quang. Nhân dịp này, xin cho tôi được gửi đến
những người thầy của mình lời cám ơn chân thành về những chỉ dẫn khoa học và
những hướng dẫn tận tình trong quá trình thực hiện luận án. Đặc biệt, xin cho tôi
được bày tỏ lòng biết ơn sâu sắc nhất đến PGS TSKH Nguyễn Xuân Huy, người
Thầy mà tôi đã may mắn được học tập và làm việc trong khoảng thời gian dài,
người đã định hướng, động viên và khơi gợi lòng ham mê nghiên cứu khoa học
cũng như truyền thụ các kiến thức, kinh nghiệm sâu sắc về chuyên môn cho tôi
trong quá trình học tập và thực hiện luận án.
Lời cám ơn chân thành nhất xin gửi đến GS TS Vũ Đức Thi, PGS TS Đoàn
Văn Ban, TS Lê Văn Phùng đã có nhiều nhận xét, góp ý quý báu và định hướng cho
tác giả trong việc nghiên cứu đề tài đang thực hiện.
Tôi xin trân trọng cám ơn đến lãnh đạo Viện CNTT, PGS TS Thái Quang
Vinh, PGS TS Lương Chi Mai, PGS TS Đặng Văn Đức và các Thầy, Cô trong Viện
đã tạo điều kiện tốt nhất cho tôi trong quá trình học tập, nghiên cứu và thực hiện
luận án tại Viện.
Cuối cùng, xin cho tôi gửi lời cám ơn chân thành đến Ban Giám hiệu, lãnh đạo
các phòng ban cùng các đồng nghiệp Khoa CNTT Trường CĐ GTVT Tp. HCM và
gia đình đã tạo điều kiện thuận lợi nhất về vật chất cũng như dành nhiều động viên
về mặt tinh thần để tôi có thể yên tâm học tập và hoàn thành luận án.

3

MỤC LỤC

LỜI CAM ĐOAN 1
LỜI CÁM ƠN 2
MỤC LỤC 3
DANH MỤC CÁC HÌNH 6
DANH MỤC CÁC BẢNG 7
DANH MỤC TỪ VIẾT TẮT 8

PHẦN MỞ ĐẦU 9
CHƯƠNG 1 MỘT SỐ KHÁI NIỆM CƠ BẢN VỀ CƠ SỞ DỮ LIỆU QUAN
HỆ VÀ KHAI PHÁ DỮ LIỆU 18
1.1. Khái niệm về cơ sở dữ liệu quan hệ 19
1.2. Phụ thuộc hàm 19
1.2.1. Khái niệm phụ thuộc hàm 20
1.2.2. Lược đồ quan hệ 21
1.2.3. Bao đóng tập phụ thuộc hàm 21
1.2.4. Định lý tương đương 22
1.2.5. Bao đóng tập thuộc tính 23
1.2.6. Bài toán thành viên 24
1.3. Khóa và phản khóa của lược đồ quan hệ 24
1.3.1. Khóa của lược đồ quan hệ 25
1.3.2. Phản khóa của lược đồ quan hệ 26
1.4. Một số khái niệm trong khai phá dữ liệu 27
1.4.1. Một số khái niệm cơ bản 27
1.4.2. Luật kết hợp và kết nối Galois 29
1.5. Kết luận chương 1 30
CHƯƠNG 2 ÁNH XẠ ĐÓNG&LÝ THUYẾT GIÀN GIAO VÀ ỨNG DỤNG31
2.1. Ánh xạ đóng 33
2.1.1. Các khái niệm và tính chất ánh xạ đóng 33
2.1.2. Phép hạn chế trên ánh xạ đóng 35
2.1.3. Điểm bất động(tập đóng) trên ánh xạ đóng 35
2.2. Các phép toán trên ánh xạ đóng 36

4

2.2.1. Phép toán hội 36
2.2.2. Phép toán hợp thành 36
2.2.3. Ứng dụng phép toán hợp thành 41

2.3. Cơ sở và phản cơ sở ánh xạ đóng 43
2.3.1. Cơ sở ánh xạ đóng 43
2.3.2. Phản cơ sở ánh xạ đóng 44
2.4. Giàn giao 45
2.4.1. Một số khái niệm cơ bản 45
2.4.2. Sự tương quan giữa tập phản cơ sở và tập đối nguyên tử 48
2.5. Ứng dụng giàn giao với bài toán ẩn tập mục nhạy cảm 50
2.5.1. Đặt vấn đề 50
2.5.2. Phát biểu bài toán 51
2.5.3. Cơ sở lý thuyết 53
2.5.4. Thuật toán ẩn tập mục nhạy cảm 56
2.5.5. Kết quả thử nghiệm 60
2.6. Giàn giao và ứng dụng trong khai thác tập phổ biến 61
2.6.1. Cơ sở lý thuyết 62
2.6.2. Thuật toán xác định họ các tập phổ biến tối đại 63
2.7. Kết luận chương 2 65
CHƯƠNG 3 HỆ SINH AXĐ VÀ MỘT SỐ KẾT QUẢ NGHIÊN CỨU 66
3.1. Hệ sinh ánh xạ đóng 68
3.1.1. Khái niệm hệ sinh AXĐ 68
3.1.2. Ánh xạ cảm sinh 69
3.1.3. Thuật toán xác định ảnh một tập con trong hệ sinh 70
3.2. Giản lược tập luật sinh 71
3.2.1. Một số khái niệm cơ sở 71
3.2.2. Tập giản lược tự nhiên 75
3.2.3. Tập giản lược không dư 76
3.3. Thu gọn hệ sinh ánh xạ đóng 78
3.3.1. Các khái niệm và thuật toán thu gọn hệ sinh AXĐ 79
3.3.2. Biểu diễn ảnh tập con theo phép thu gọn hệ sinh AXĐ 80
3.4. Cơ sở và phản cơ sở hệ sinh ánh xạ đóng 81
3.4.1. Cơ sở hệ sinh AXĐ 82

3.4.2. Phản cơ sở hệ sinh AXĐ 83
3.4.3. Một dạng biểu diễn phản cơ sở hệ sinh AXĐ 84
3.4.4. Sự tương quan giữa các đối tượng trong hệ sinh AXĐ 87

5

3.5. Ứng dụng hệ sinh AXĐ giải bài toán hệ suy dẫn 90
3.5.1. Các khái niệm và quy tắc suy dẫn 90
3.5.2. Một số dạng bài toán suy dẫn 90
3.6. Hệ sinh cân bằng 94
3.6.1. Các khái niệm và một số tính chất 94
3.6.2. Thuật toán thu gọn hệ sinh AXĐ về dạng cân bằng 97
3.7. Ứng dụng hệ sinh AXĐ trong cơ sở dữ liệu 100
3.7.1. Bài toán phân rã và kết nối các quan hệ 100
3.7.2. Một dạng biểu diễn phản khóa của lược đồ quan hệ 103
3.8. Kết luận chương 3 105
PHẦN KẾT LUẬN 106
DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ 109
TÀI LIỆU THAM KHẢO 110




6

DANH MỤC CÁC HÌNH

Hình 2.1. Đồ thị của giàn các tập mục phổ biến 53
Hình 2.2. Giàn giao đầy đủ của Poset(ABE) 54
Hình 2.3. Giàn các tập phổ biến sau khi xóa tập mục nhạy cảm 59

Hình 2.4. Giàn các tập phổ biến 64


7

DANH MỤC CÁC BẢNG

Bảng 1.1. Bảng T với 22 giao tác 29
Bảng 1.2. Các tập mục phổ biến theo ngưỡng

= 4 29
Bảng 2.1. Bảng các tập mục với độ phổ biến và số lần sửa 49
Bảng 2.2. Một số kết quả thử nghiệm 53
Bảng 2.3. Cơ sở dữ liệu giao tác minh họa 61
Bảng 2.4. Các tập con và ảnh tương ứng 64
Bảng 3.1. Danh sách các môn học 91
Bảng 3.2. Quan hệ học trước giữa các môn 92
Bảng 3.3. Tương ứng giữa CSDL và AXĐ 100


8

DANH MỤC TỪ VIẾT TẮT

AXĐ: Ánh xạ đóng
CSDL: Cơ sở dữ liệu
HSCB: Hệ sinh cân bằng
LĐQH: Lược đồ quan hệ
PTBD: Phụ thuộc Boole dương
PTBDTQ: Phụ thuộc Boole dương tổng quát

PTBDĐT: Phụ thuộc Boole dương đa trị
PTBDTNB: Phụ thuộc Boole dương theo nhóm bộ
PTH: Phụ thuộc hàm

9

PHẦN MỞ ĐẦU

1. Đặt vấn đề
Trong nghiên cứu và mô tả thế giới thực, cùng với việc phản ánh ngữ nghĩa dữ
liệu của cơ sở dữ liệu (CSDL) thì lý thuyết về phụ thuộc dữ liệu đóng một vai trò rất
cơ bản. Phụ thuộc dữ liệu trong thiết kế và quản trị một cơ sở dữ liệu được hiểu là
sự mô tả các ràng buộc mà dữ liệu phải thỏa mãn trong bài toán thực tế. Đây cũng là
yếu tố quyết định đến chất lượng dữ liệu trong quá trình xử lý và quản trị một hệ
thống. Phụ thuộc dữ liệu được Codd [16], người đặt những nền móng ban đầu cho
mô hình dữ liệu quan hệ từ những năm 70 với phụ thuộc logic đầu tiên là phụ thuộc
hàm (PTH). Đây là loại phụ thuộc thiết lập mối quan hệ về mặt ngữ nghĩa giữa các
tập thuộc tính trong cơ sở dữ liệu. Định lý tương đương khẳng định sự tương đương
giữa các loại suy dẫn bao gồm suy dẫn logic, suy dẫn theo quan hệ và suy dẫn theo
quan hệ có không quá p bộ là định lý rất cơ bản trong lý thuyết về phụ thuộc logic
này. Sau đó, trong các công trình được công bố tiếp theo [10], [11], [12], các tác giả
khác đã tiếp tục phát triển và xây dựng các hệ tiên đề với các dạng phụ thuộc bậc
cao góp phần đặt những nền tảng đầu tiên về cơ sở lý thuyết cho phụ thuộc dữ liệu.
Cụ thể, vào những năm 80, các nhóm nghiên cứu của Berman, Blok và Sagiv,
Delobel [13], [14], [46] đã mở rộng khái niệm PTH sang khái niệm phụ thuộc Boole
dương (PTBD), các ràng buộc dữ liệu được mô tả thông qua các công thức Boole
dương với phép sánh đẳng thức. Công thức Bool dương là những công thức có trị là
1 khi giá trị của các biến thành phần là 1. Định lý tương đương vẫn đúng đối với
phụ thuộc logic này. Cũng trong thời gian này, nhóm nghiên cứu Viện Hàn lâm
Khoa học Hungary, trong [22] công bố vào năm 1988 đã phát biểu về mối tương

quan giữa các đối tượng khóa (cơ sở) và phản khóa (phản cơ sở) trong một lược đồ
quan hệ (LĐQH). Đây là hai khái niệm đối ngẫu nhau theo nghĩa khóa là tập con
nhỏ nhất các thuộc tính có ảnh là U, phản khóa là tập con lớn nhất các thuộc tính có

10

ảnh khác U, với U là tập toàn thể các thuộc tính trong lược đồ quan hệ đang khảo
sát. Cũng trong công trình này, các tác giả đã chỉ ra từ tập các khóa của một LĐQH,
có thể dễ dàng thu được tập các phản khóa của LĐQH này với một thuật toán có độ
phức tạp tính toán là đa thức và ngược lại, từ tập các phản khóa của một LĐQH thì
tập các khóa của LĐQH này hoàn toàn xác định với một thuật toán có độ phức tạp
tính toán đa thức. Phát biểu này cho thấy khi tính toán, biễu diễn các đối tượng
trong lược đồ quan hệ thì khóa và phản khóa có vai trò và ý nghĩa quan trọng như
nhau. Năm 1992, nhóm nghiên cứu Nguyễn Xuân Huy và Lê Thị Thanh, trong [42]
đã mở rộng PTBD thành phụ thuộc Boole dương tổng quát (PTBDTQ). Với loại
phụ thuộc này, phép so sánh đẳng thức được thay bằng phép toán trên quan hệ hai
ngôi thỏa các tính chất phản xạ, đối xứng và bộ phận. Định lý tương đương vẫn
được bảo toàn đối với PTBDTQ. Năm 1994, trong [3] các nhà nghiên cứu lại tiếp
tục mở rộng PTBDTQ, phát triển thành phụ thuộc Bool dương đa trị (PTBĐT) và
phụ thuộc Bool dương theo nhóm bộ (PTBDTNB). Định lý tương đương vẫn được
bảo toàn đối với các loại phụ thuộc này. Gần đây nhất, từ năm 2011 đến nay, trong
[8], [47] các nhóm nghiên cứu của Shaoxu Song, Lei Chen và Nguyễn Xuân Huy
cùng các nghiên cứu sinh đã đề xuất khái niệm phụ thuộc sai khác và giải quyết một
số vấn đề kinh điển liên quan đến lớp phụ thuộc này như bài toán suy dẫn, tìm khoá
và các phủ,
Trong toán học có hai khái niệm được quan tâm nhiều là ánh xạ co và ánh xạ
đóng. Ánh xạ co biến đổi một tập đối tượng thành một tập con của nó, ngược lại ánh
xạ đóng biến đổi một tập đối tượng thành một tập chứa nó. Trong giải tích và topo,
ánh xạ đóng thường được vận dụng cho các hàm liên tục. Cụ thể, một tập đóng là
tập chứa các dãy điểm có giới hạn thì sẽ chứa giới hạn của dãy đó. Trong khuôn khổ

của luận án, khái niệm ánh xạ đóng được vận dụng theo tiếp cận của toán học rời
rạc, cụ thể là ánh xạ đóng được thiết lập trên tập hữu hạn U thỏa các tính chất phản
xạ, đồng biến và lũy đẳng. Khái niệm này đã được các nhóm nghiên cứu trong [15],
[25] sử dụng như một công cụ toán học để trợ giúp việc mô tả các khía cạnh về mặt

11

lý thuyết cũng như ứng dụng trong một số lĩnh vực thuộc công nghệ thông tin như
cơ sở dữ liệu, các hệ suy dẫn, khai phá dữ liệu, ….
Trong lý thuyết cơ sở dữ liệu quan hệ, có thể tìm thấy rất nhiều các ánh xạ
đóng như phép tính bao đóng tập thuộc tính, phép tính bao đóng tập phụ thuộc hàm,
phép kết nối trong đại số quan hệ, …. Kết nối Galois [40] được sử dụng rất phổ
biến khi xác định tập phổ biến trong khai phá dữ liệu cũng là một ánh xạ đóng. Việc
biểu diễn, tính toán các đối tượng theo ngôn ngữ ánh xạ đóng nhằm nâng cao hiệu
quả tính toán đã được nhiều tác giả công bố trong nhiều công trình [5], [6], [15].
Bên cạnh đó, từ đầu những năm 2000, các nhóm nghiên cứu gồm nhiều đơn vị
tham gia như Viện Công nghệ Thông tin, Trường Đại học Khoa học Tự nhiên thuộc
Đại học Quốc gia Hà Nội, Trường Đại học Bách khoa Đà Nẵng và các tác giả
khác, trong các công trình [6], [7], [15] đã phát triển, vận dụng lý thuyết ánh xạ
đóng vào việc giải quyết một số bài toán và thu được một số kết quả khả quan bước
đầu như chứng minh sự tương đương giữa cấu trúc phụ thuộc hàm và ánh xạ đóng,
thiết lập sự tương quan giữa khóa của lược đồ quan hệ và cơ sở của ánh xạ đóng, …
Các kết quả nghiên cứu này cho thấy có thể vận dụng khái niệm ánh xạ đóng để tiếp
tục nghiên cứu các vấn đề thuộc về ngữ nghĩa dữ liệu.
Ngoài ra, lý thuyết giàn cũng được nhiều nhà khoa học, chẳng hạn như G.
Birkhoff công bố trong nhiều công trình và xuất bản thành sách [25] bắt đầu từ
những năm 1940. Cho đến cuối những năm 90 trở lại đây, trong các công trình [6],
[40], các tác giả đã vận dụng lý thuyết giàn giao để chứng minh một số bài toán
biểu diễn các đối tượng của một hệ suy dẫn cũng như ứng dụng lý thuyết giàn vào
lĩnh vực khai phá dữ liệu, cụ thể là khai thác tập phổ biến, tập phổ biến đóng, khai

thác luật kết hợp, …. Việc tiếp tục nghiên cứu lý thuyết giàn để phát triển, biểu diễn
các đối tượng của hệ suy dẫn cũng như ứng dụng vào một số lĩnh vực trong công
nghệ thông tin cũng là một vấn đề rất đáng quan tâm.
Trong lĩnh vực khai phá dữ liệu, một trong những bài toán cơ bản nhận được
nhiều sự quan tâm cho đến nay là làm sao khai thác được luật kết hợp một cách hiệu

12

quả. Khai thác luật kết hợp là bài toán phát hiện mối quan hệ giữa các mục dữ liệu
với nhau trong một cơ sở dữ liệu giao tác. Từ năm 1993, trong [44] nhóm các nhà
nghiên cứu đứng đầu là Agrawal đã đề xuất bài toán khai thác luật kết hợp và cho
đến nay đã có rất nhiều thuật toán được công bố nhằm nâng cao hiệu quả khai thác.
Hầu hết các thuật toán này đều được thực hiện theo hai giai đoạn: giai đoạn đầu tiên
khai thác các tập phổ biến, sau đó sinh luật kết hợp từ các tập phổ biến tìm được
trong giai đoạn thứ nhất.
Khai thác tập phổ biến là giai đoạn cơ bản và mất nhiều thời gian nhất trong
quá trình khai thác luật kết hợp. Nhìn chung, có hai nhóm phương pháp cơ bản để
khai thác tập phổ biến: Phương pháp sinh ứng viên mà đại diện là Apriori [45] và
phương pháp không sinh ứng viên dựa vào cây FP-tree do nhóm nghiên cứu của J.
Han đề xuất [32], dựa vào cây IT-tree do các nhóm nghiên cứu trong [17], [39] đề
xuất và cải tiến.
Mặc dù có nhiều kết quả đáng kể trong việc đề xuất và cải tiến các thuật toán
khai thác tập phổ biến, tuy nhiên trong thực tế có rất nhiều cơ sở dữ liệu mà số
lượng tập phổ biến khai thác được khá lớn dẫn đến việc quản lý không gian lưu trữ
không hiệu quả cũng như sinh ra nhiều luật dư thừa cần loại bỏ trong quá trình khai
thác luật kết hợp. Để giải quyết vấn đề này, khái niệm tập phổ biến đóng là tập phổ
biến thỏa tính chất không tồn tại tập phổ biến cha có cùng độ phổ biến với nó được
đề xuất lần đầu tiên vào năm 1999 trong [43]. Tính chất này giúp cho việc quản lý
các tập phổ biến giảm đi khá nhiều nhưng vẫn đảm bảo việc sinh luật kết hợp đầy
đủ. Tuy nhiên, nếu các cơ sở dữ liệu quá lớn thì số lượng tập phổ biến đóng cần

quản lý vẫn khá lớn, khái niệm tập phổ biến tối đại được sử dụng để giải quyết vấn
đề này. Tập phổ biến tối đại là tập phổ biến thỏa tính chất không tồn tại tập phổ biến
là tập cha của tập này. Khái niệm tập phổ biến tối đại được trình bày trong [18] vào
năm 1997 và đến 2005 thì nhóm nghiên cứu của Zaki trong [34] cũng đề xuất một
thuật toán để khai thác một cách hiệu quả tập phổ biến tối đại. Phương pháp chính
mà nhóm của Zaki đề xuất trong thuật toán này là sử dụng chiến lược tìm kiếm quay
lui và sử dụng một số kỹ thuật tối ưu trong việc xén không gian tìm kiếm. Thuật

13

toán này đã cải thiện hiệu quả tính toán khá tốt. Từ năm 2007 đến nay, nhiều thuật
toán khai thác tập phổ biến liên tục được đề xuất và cải tiến trên các cơ sở dữ liệu
lớn được công bố, chẳng hạn như trong [33], [51] sử dụng các kỹ thuật như
BitTableFI, trong [37] sử dụng kỹ thuật khai thác song song, trong [30] sử dụng kỹ
thuật phân hoạch thứ cấp, … Bài toán khai thác tập phổ biến tối đại có sử dụng lại
các thuật toán trên nhằm mục tiêu cải tiến hiệu quả tính toán là vấn đề cần tiếp tục
nghiên cứu, bổ sung.
Song song đó, một vấn đề thường gặp khi cung cấp dữ liệu khai thác cho các
trung tâm khai thác dữ liệu, một số cơ sở không muốn công bố các luật vi phạm đến
tính riêng tư của cơ sở mình. Thí dụ, X là tập mục thể hiện các thông tin về các máy
bay xuất xưởng, Y là tập mục chứa các thông tin về các sự cố và tai nạn hàng không
của loại máy bay đó. Việc công bố mối tương quan giữa X và Y là điều bất lợi cho
hãng sản xuất. Các tập mục X, Y như thế được gọi là các tập mục nhạy cảm. Để ẩn
các tập mục nhạy cảm này và không vi phạm các nguyên tắc trao đổi dữ liệu, đã có
các thuật toán đề xuất của nhóm nghiên cứu của Xingzhi và cộng sự trong [50] vào
năm 2007, sau đó được cải tiến bởi nhóm nghiên cứu của George V. Moustakides
và các cộng sự trong [28] công bố vào năm 2008 với thuật toán MaxMin khảo sát
các tập mục nằm sát trên và sát dưới các tập mục nhạy cảm với chức năng xác định
các mục dữ liệu cần sửa nhằm giảm độ phổ biến của các tập mục nhạy cảm. Các
thuật toán trên đã góp phần giải quyết được yêu cầu đề ra của bài toán. Tuy nhiên,

cơ sở toán học để tiếp cận bài toán trên chưa được các tác giả đề cập đến. Việc tìm
kiếm một cơ sở toán học để tiếp cận, giải quyết bài toán được rõ ràng và trong sáng
cũng là vấn đề cần tiếp tục nghiên cứu.
Mặt khác, trong khoảng những năm 2000 trở lại đây, việc khảo sát về một hệ
suy dẫn gọi là hệ sinh AXĐ cũng nhận được nhiều sự quan tâm của các nhà nghiên
cứu. Hệ sinh AXĐ là một cặp

= (U,F), trong đó, U là tập nền (hay còn gọi là tập
các sự kiện), F là tập các luật dẫn dạng L  R; L, R  U. Cơ chế lập luận trong các
hệ sinh được xây dựng dựa trên hệ tiên đề Armstrong bao gồm các tiên đề phản xạ,
gia tăng và bắc cầu. Điểm đặc biệt ở đây mà trong các công trình [5], [6] các tác giả

14

đã chỉ ra là mỗi hệ sinh xác định duy nhất một ánh xạ đóng và ngược lại mỗi ánh xạ
đóng thì được đặc trưng bởi một hệ sinh. Một trong những hệ sinh AXĐ thường gặp
trong lý thuyết cơ sở dữ liệu là lược đồ quan hệ (LĐQH), trong dó U là tập các
thuộc tính, F là tập các phụ thuộc hàm, các luật suy dẫn làm việc dựa trên hệ tiên đề
Armstrong. Tuy nhiên, để quản lý các hệ suy dẫn lớn và phức tạp thì cần phải có
nhiều thuật toán hiệu quả để tính toán các đối tượng như tập bao, cơ sở, phản cơ
sở, . Một nhận xét hiển nhiên là nếu kích thước của các hệ suy dẫn càng nhỏ thì
có thể giảm được không gian lưu trữ và tăng hiệu quả các thuật toán xử lý chúng.
Trong các công trình được công bố [5], [6], các tác giả đã vận dụng kỹ thuật thu gọn
hệ sinh để giải quyết vấn đề này. Bản chất của kỹ thuật thu gọn hệ sinh là loại bỏ đi
một số phần tử trong hệ sinh ban đầu để thu được một hệ sinh mới đơn giản hơn
theo nghĩa có ít phần tử hơn, tập luật sinh mới sau khi thu gọn cũng có thể giảm đi
về số lượng và kích thước của các vế trái và vế phải của các luật. Điểm đặc biệt ở
đây là mặc dù hệ sinh mới nhận được sau khi thực hiện phép thu gọn không tương
đương với hệ sinh ban đầu, nhưng lại hoàn toàn có thể biểu diễn được các đối tượng
như ảnh, cơ sở, phản cơ sở, … của hệ sinh ban đầu thông qua các đối tượng cơ sở,

phản cơ sở, … của hệ sinh sau khi thu gọn bằng một số các phép toán đơn giản. Từ
đó, các tác giả trong nhiều công trình [5], [6] đã phát biểu nhiều định lý, bổ đề với
mục tiêu biểu diễn và tính toán các đối tượng như cơ sở, phản cơ sở, … của một hệ
sinh trở nên đơn giản hơn và hiệu năng tính toán được cải thiện. Tuy nhiên, việc
chọn lựa các phần tử để loại bỏ trong hệ sinh, hay nói cách khác, việc chọn lựa một
tập con như thế nào để đạt hiệu quả khi thực hiện phép thu gọn là vấn đề cần tiếp
tục nghiên cứu.
Bên cạnh kỹ thuật thu gọn hệ sinh, trong thời gian gần đây, một hệ sinh đặc
biệt gọi là hệ sinh cân bằng được đề xuất trong [V], [VI] và được trình bày trong
luận án của tác giả Lương Nguyễn Hoàng Hoa [2]. Hệ sinh AXĐ α = (U, F) gọi là
cân bằng nếu α thỏa các tính chất: Hợp các vế trái, vế phải của các luật sinh trong F
đúng bằng tập U; F không chứa các luật sinh tầm thường, tức là các luật sinh có vế
trái chứa vế phải; Hai vế trái và phải của mọi luật sinh trong F rời nhau (không giao

15

nhau); Các vế trái của mọi luật sinh trong F khác nhau đôi một.
Các tác giả đã chỉ ra sau khi thu gọn một hệ sinh về hệ sinh cân bằng thi tập cơ
sở của hệ sinh ban đầu được dễ dàng xác định thông qua phép hợp tập cơ sở của hệ
sinh cân bằng sau khi thu gọn với tập U
I
(U
I
là giao các cơ sở của hệ sinh ban đầu).
Thuật toán xác định U
I
được thực hiện với độ phức tạp tính toán đa thức. Vấn đề
cần tiếp tục nghiên cứu là xây dựng một thuật toán để thu gọn một hệ sinh bất kỳ về
dạng hệ sinh cân bằng.
2. Mục đích của luận án

Mục đích chủ yếu của luận án là tìm kiếm, phát triển các công cụ và phương
pháp biểu diễn các đối tượng của một hệ suy dẫn nhằm rút gọn không gian lưu trữ
và nâng cao hiệu quả tính toán. Trên cơ sở đó, vận dụng các kết quả thu được về
mặt lý thuyết vào các ứng dụng cụ thể trong một số lĩnh vực cơ sở dữ liệu và khai
phá dữ liệu. Cụ thể, mục tiêu đề ra của luận án là:
1. Tiếp tục nghiên cứu, biểu diễn các đối tượng của một hệ suy dẫn về mặt ngữ
nghĩa theo ngôn ngữ của ánh xạ đóng.
2. Nghiên cứu lý thuyết giàn để tiếp tục phát triển, biểu diễn các đối tượng của
hệ suy dẫn cũng như ứng dụng vào một số lĩnh vực trong công nghệ thông tin.
3. Nghiên cứu, xây dựng một thuật toán để thu gọn một hệ sinh AXĐ về dạng
hệ sinh cân bằng.
3. Phương pháp nghiên cứu
- Vận dụng các phương pháp và cấu trúc của toán học rời rạc (bao gồm cả logic
hình thức) để chứng minh một số kết quả trong luận án.
- Đối sánh các kết quả thu được về mặt lý thuyết và thuật toán với các kết quả
đã công bố nhằm đánh giá ý nghĩa và hiệu quả của các kết quả trong khuôn
khổ luận án.

16

- Tổng hợp tài liệu và các kết quả nghiên cứu đã được công bố có liên quan đến
đề tài.
- Trao đổi, học hỏi với các chuyên gia đang làm việc cùng lĩnh vực đang nghiên
cứu và các lĩnh vực có liên quan.
4. Bố cục luận án
Luận án gồm 115 trang được trình bày trong ba chương, phần mở đầu, phần
kết luận, danh mục các công trình và tài liệu tham khảo với cấu trúc như sau:
Chương 1. Một số khái niệm cơ bản trong cơ sở dữ liệu quan hệ và khai
phá dữ liệu
Chương này đề cập đến một số khái niệm chung và cơ bản nhất về lý thuyết cơ

sở dữ liệu quan hệ, cụ thể như khái niệm về quan hệ, bộ, thuộc tính, LĐQH, khái
niệm phụ thuộc hàm, bao đóng của tập phụ thuộc hàm, bao đóng tập thuộc tính, bài
toán thành viên, khóa và phản khóa, …. Ngoài ra, trong chương cũng trình bày
thêm một số khái niệm cơ bản được sử dụng khi khai phá dữ liệu như khái niệm về
cơ sở dữ liệu giao tác, tập phổ biến, luật kết hợp, … , kết nối Galois và một số tính
chất cơ bản.
Chương 2. Ánh xạ đóng & Lý thuyết giàn giao và ứng dụng
Chương này giới thiệu một số khái niệm, tính chất của ánh xạ đóng và lý
thuyết giản giao. Kết quả mới trong chương gồm có phát biểu về một điều kiện đủ
để phép hợp thành các AXĐ là một AXĐ và điều kiện để một họ con các AXĐ
đóng với phép hợp thành. Ngoài ra, một số kết quả đạt được khi xây dựng các ứng
dụng của AXĐ, lý thuyết giàn giao trong các bài toán khai phá dữ liệu và lý thuyết
cơ sở dữ liệu cũng được trình bày ở đây.
Chương 3. Hệ sinh ánh xạ đóng và một số kết quả nghiên cứu
Trong chương chủ yếu trình bày các định nghĩa, tính chất quan trọng của hệ
sinh AXĐ và các định lý, bổ đề biểu diễn cơ sở, phản cơ sở của hệ sinh AXĐ thông

17

qua kỹ thuật thu gọn hệ sinh. Kết quả mới và chủ yếu trong chương này là đề xuất
một dạng biểu diễn phản cơ sở của hệ sinh theo vế phải tối đại của tập luật sinh
cùng với thuật toán thu gọn một hệ sinh bất kỳ về một hệ sinh đơn giản gọi là hệ
sinh cân bằng và định lý về tính đúng của thuật toán. Bên cạnh đó, trong chương
cũng trình bày một số kết quả nghiên cứu thu được khi xây dựng các dạng giản lược
của tập luật sinh, sự tương quan giữa các đối tượng trong hệ sinh AXĐ, ….
Các ký hiệu và quy ước sau cũng được sử dụng xuyên suốt trong các chương.
Các phần tử của tập hợp được ký hiệu bằng các ký tự đầu bảng chử cái A, B, C,…
Các tập được ký hiệu bằng các ký tự cuối bảng chữ cái X, Y, Z, Các phần tử trong
một tập được liệt kê như một xâu ký tự, không sử dụng các ký hiệu biểu diễn tập
hợp truyền thống, chẳng hạn ta viết X = ABC thay vì viết X = {A, B, C}, XY là biểu

diễn hợp của hai tập X và Y, thay vì X  Y. Phép trừ hai tập X và Y được ký hiệu là
X\Y. Tập vũ trụ hay tập nền U được cho trước luôn luôn là hữu hạn và khác trống.
|M| cho biết lực lượng của tập M. Ký hiệu PoSet(U) là họ toàn thể các tập con của U
với thứ tự bộ phận bao hàm (). Với mỗi họ các tập con

của U ta kí hiệu 


giao của các tập con trong họ

.


18

CHƯƠNG 1
MỘT SỐ KHÁI NIỆM CƠ BẢN VỀ CƠ SỞ
DỮ LIỆU QUAN HỆ VÀ KHAI PHÁ DỮ LIỆU

Mô hình quan hệ là mô hình dữ liệu được sử dụng rộng rãi và phổ biến nhất
hiện nay trong cơ sở dữ liệu do tính trực quan, kiến trúc đơn giản và có một cơ sở
toán học chặt chẽ.
Chương này sẽ tóm lược và trình bày lại một số nội dung và tính chất cơ bản
trong lý thuyết cơ sở dữ liệu cùng với các khái niệm được sử dụng trong lĩnh vực
khai phá dữ liệu. Những nội dung này có liên quan đến việc trình bày một số ứng
dụng từ các kết quả nghiên cứu thu được trong luận án. Phần thứ nhất của chương
trình bày các khái niệm mở đầu về cơ sở dữ liệu quan hệ. Phần thứ hai của chương
mô tả các khái niệm và một số tính chất của phụ thuộc hàm cùng các hệ tiên đề cho
phụ thuộc hàm với nền tảng là hệ tiên đề Armstrong. Trong phần này cũng trình bày
khái niệm về lược đồ quan hệ, khái niệm bao đóng của tập phụ thuộc hàm, định lý

phát biểu về sự tương đương giữa các loại suy dẫn theo tiên đề, suy dẫn theo quan
hệ và suy dẫn theo quan hệ có không quá p bộ. Một trong những khái niệm cơ bản
của phụ thuộc hàm là bao đóng của tập thuộc tính, các tính chất cơ bản của phép
toán lấy bao đóng cùng với thuật toán tìm bao đóng của tập thuộc tính cũng được
trình bày ở đây. Cuối cùng trong phần này là phát biểu bài toán thành viên về điều
kiện cần và đủ để một phụ thuộc hàm được suy dẫn từ một tập phụ thuộc hàm cho
trước. Các khái niệm cơ bản có liên quan đến phụ thuộc hàm như khóa, phản khóa
cùng với đặc trưng của các thuộc tính khóa, công thức tính giao các khóa và điều
kiện để một LĐQH có khóa duy nhất được trình bày trong phần thứ ba của chương.
Phần cuối cùng trong chương sẽ trình bày một số khái niệm cơ bản trong lĩnh vực
khai phá dữ liệu như khái niệm về cơ sở dữ liệu giao tác, khái niệm tập phổ biến,
khái niệm luật kết hợp và một vài tính chất quan trọng trong kết nối Galois.

19

1.1. Khái niệm về cơ sở dữ liệu quan hệ
Cơ sở dữ liệu quan hệ và các khái niệm cơ bản đã được trình bày đầu tiên
trong các công trình của Codd [16]. Trong [9], [10] đã trình bày khá đầy đủ các khái
niệm liên quan đến các hệ cơ sở dữ liệu và tri thức. Riêng về cơ sở dữ liệu quan hệ,
các tác giả trong các công trình [1], [6], [9], [10], [11], [23], [26], [28], [35], [49] đã
giới thiệu khá đầy đủ những khái niệm và các bài toán cơ bản liên quan đến các vấn
đề lý thuyết cũng như thực hành. Ở đây, chỉ trình bày tóm tắt lại các khái niệm về
quan hệ, thuộc tính, bộ cùng một vài ký hiệu và quy ước.
Định nghĩa 1.1
Cho tập hữu hạn và khác rỗng U = {A
1
, A
2
, , A
n

} với n 0. Các phần tử
thuộc U gọi là thuộc tính. Với mỗi thuộc tính A
i
U, i = 1, 2, , n là một tập tương
ứng dom(A
i
) với dom(A
i
) 2 được gọi là miền giá trị của thuộc tính A
i
. Gọi
D =








. Ta ký hiệu quan hệ R với các thuộc tính trên U là R(U), với R
là một tập các ánh xạ t: U D với t(A
i
) dom(A
i
), A
i
U. Mỗi ánh xạ gọi là một
bộ của quan hệ R.
Mỗi quan hệ R(U) là hình ảnh của một bảng hai chiều, mỗi cột tương ứng với

một thuộc tính, mỗi dòng tương ứng với một bộ, ký hiệu là t(U). Nếu một quan hệ
không chứa bộ nào thì ta gọi đó là quan hệ rỗng, ký hiệu là 
1.2. Phụ thuộc hàm
Một trong những lớp phụ thuộc logic được Codd đề xuất đầu tiên [16] là phụ
thuộc hàm đóng một vai trò quan trọng trong việc thiết kế và xử lý các cơ sở dữ
liệu. Các khái niệm cơ bản về phụ thuộc hàm, bao đóng tập phụ thuộc hàm, các loại
suy dẫn theo tiên đề, suy dẫn theo quan hệ, định lý tương đương giữa các loại suy
dẫn và lược đồ quan hệ sẽ được trình bày trong phần này. Ngoài ra, khái niệm bao
đóng của tập thuộc tính và bài toán thành viên cùng với thuật toán tìm bao đóng tập
thuộc tính cũng được trình bày ở đây. Các khái niệm này cũng được nhiều tác giả
công bố đầy đủ trong các công trình [1], [6], [9], [10], [11], [16], [23], [35].

×