Tải bản đầy đủ (.pdf) (105 trang)

Các phụ thuộc logic trong mô hình dữ liệu dạng khối

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.75 MB, 105 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

BỘ QUỐC PHÒNG

HỌC VIỆN KỸ THUẬT QUÂN SỰ

TRẦN MINH TUYẾN

CÁC PHỤ THUỘC LOGIC
TRONG MÔ HÌNH DỮ LIỆU DẠNG KHỐI

LUẬN ÁN TIẾN SĨ TOÁN HỌC

HÀ NỘI - 2015


1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

BỘ QUỐC PHÒNG

HỌC VIỆN KỸ THUẬT QUÂN SỰ

TRẦN MINH TUYẾN

CÁC PHỤ THUỘC LOGIC
TRONG MÔ HÌNH DỮ LIỆU DẠNG KHỐI
Chuyên ngành: Cơ sở toán học cho tin học
Mã số: 62 46 01 10


LUẬN ÁN TIẾN SĨ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS. TSKH. NGUYỄN XUÂN HUY

HÀ NỘI - 2015


2

LỜI CẢM ƠN
Để hoàn thành luận án này, tôi đã nhận được sự giúp đỡ rất nhiệt tình
của các thày, cô giáo trong khoa Công nghệ Thông tin, Học viện Kỹ thuật
Quân sự và trường Đại học Công đoàn. Tôi xin gửi lời cảm ơn tới các thày, cô
giáo trong khoa Công nghệ Thông tin, Học viện kỹ thuật Quân sự và trường
Đại học Công đoàn đã tạo điều kiện học tập, nghiên cứu và giúp đỡ tôi rất
nhiều trong quá trình viết luận án. Đặc biệt tôi xin trân trọng cảm ơn
PGS.TSKH. Nguyễn Xuân Huy, người đã tận tình hướng dẫn, chỉ bảo cho tôi
trong toàn bộ quá trình học tập, nghiên cứu đề tài và giúp tôi hoàn thành bản
luận án này.
Hà Nội, ngày 10 tháng 10 năm 2015
Tác giả luận án

Trần Minh Tuyến


3

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của tôi dưới sự hướng

dẫn khoa học của PGS.TSKH. Nguyễn Xuân Huy. Các kết quả được viết
chung với các đồng tác giả đã được sự chấp thuận của các tác giả trước khi
đưa vào luận án.
Các kết quả nêu trong luận án là trung thực và chưa từng được ai công
bố trong bất kỳ công trình nào khác.
Tác giả luận án

Trần Minh Tuyến


4

MỤC LỤC
Trang
MỞ ĐẦU

10

Chương 1: Mô hình dữ liệu dạng khối

20

1.1 Mô hình dữ liệu

20

1.1.1 Khái niệm

20


1.1.2 Phân loại

21

1.2 Mô hình dữ liệu dạng khối

23

1.2.1 Khối, lát cắt của khối

23

1.2.2 Đại số khối

26

1.2.3 Phụ thuộc hàm

31

1.2.4 Bao đóng của tập thuộc tính chỉ số

33

1.2.5 Khóa của lược đồ khối  = (R,F)

34

1.3 Ánh xạ đóng


36

1.3.1 Khái niệm

36

1.3.2 Khóa của ánh xạ đóng

38

1.4 Các công thức Boolean

39

1.4.1 Khái niệm

39

1.4.2 Bảng trị và bảng chân lý

40

1.4.3 Suy dẫn logic

41

1.4.4 Công thức Boolean dương

41


Chương 2:
Phép dịch chuyển lược đồ khối và lược đồ khối cân bằng

43

2.1 Phép dịch chuyển lược đồ khối

43

2.2 Thuật toán dịch chuyển lược đồ khối

45


5

2.3 Biểu diễn bao đóng và khóa qua phép dịch chuyển

47

2.3.1 Biểu diễn bao đóng

47

2.3.2 Biểu diễn khóa

49

2.4 Khóa và các tập thuộc tính nguyên thủy, phi nguyên thủy


54

2.5 Lược đồ khối cân bằng

61

2.6 Thuật toán dịch chuyển lược đồ khối về dạng cân bằng

65

2.7 Tập các vế trái cực tiểu

69

Chương 3:

Phụ thuộc Boolean dương và phụ thuộc
Boolean dương tổng quát trên khối

72

3.1 Lược đồ khối và ánh xạ đóng

72

3.2 Phụ thuộc Boolean dương trên khối

76

3.2.1 Khối chân lý


76

3.2.2 Phụ thuộc Boolean dương

77

3.3 Mối quan hệ giữa các kiểu phụ thuộc hàm và các công thức
Boolean dương trên khối

84

3.4 Phụ thuộc Boolean dương tổng quát trên khối

86

3.5 Thể hiện phụ thuộc Boolean dương tổng quát trên khối

92

KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO

95

DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ

97

TÀI LIỆU THAM KHẢO


99


6

DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT
Kí hiệu
XY
REL(U)
RELp(U)
t*v
t*S
t[X], t.X
id  id’
M P
M 


AXĐ
f*g
SubSet(U)

2

CTB
CTBD
PTBD
PTBDTQ
Fix(f)
Gen(G)

Coatom(G)
MAX(M)

Ý nghĩa của kí hiệu
Biểu diễn hợp của hai tập X và Y
Tập toàn thể các quan hệ trên tập thuộc tính U
Tập toàn thể các quan hệ có không quá p bộ trên tập thuộc
tính U, p 1.
Phép kết nối hai bộ t và v.
Phép kết nối bộ t với quan hệ S.
hạn chế của bộ (ánh xạ) t trên tập thuộc tính X.
Kí hiệu tích rời rạc của id và id’
Hợp của 2 tập con M và P
{MX| X   }.
{XY | X   , Y   }.
Ánh xạ đóng
Hội của hai ánh xạ đóng f và g.
Tập tất cả các tập con của U.
Suy dẫn logic.
Suy dẫn theo quan hệ.
Suy dẫn theo quan hệ có không quá 2 phần tử.
Công thức Boolean.
Công thức Boolean dương.
Phụ thuộc Boolean dương.
Phụ thuộc Boolean dương tổng quát.
Tập toàn bộ các điểm bất động của f.
Tập sinh của giàn giao G.
Đối nguyên tử của giàn giao G
Tập các phần tử cực đại của M.



7

PTH
Uo
UK
UI
LS(f)
RS(f)
LS(F)
RS(F)

Phụ thuộc hàm.
Tập tất cả các thuộc tính không khoá.
Tập tất cả các thuộc tính khoá.
Tập tất cả các thuộc tính nằm trong mọi khoá.
Vế trái của phụ thuộc hàm f.
Vế phải của phụ thuộc hàm f.
Hợp các vế trái của tất cả các phụ thuộc hàm f  F.
Hợp các vế phải của tất cả các phụ thuộc hàm f  F.


8

DANH SÁCH BẢNG
Trang
Bảng 1: Biểu diễn quan hệ CAN_BO_1.

10


Bảng 1.1: Biểu diễn lát cắt của khối KH_HANG.

25


9

DANH SÁCH HÌNH VẼ
Trang
Hình 1: Biểu diễn khối CAN_BO_2.

11

Hình 2: Biểu diễn khối dữ liệu đa chiều.

12

Hình 1.1: Biểu diễn khối KH_HANG.

24

Hình 3.1: Biểu diễn khối KH_HANG và phụ thuộc Boolean dương f.

77

Hình 3.2: Biểu diễn khối chân lý r1 của khối KH_HANG.

78

Hình 3.3: Biểu diễn khối KH_HANG và PTBDTQ g.


88

Hình 3.4: Biểu diễn khối chân lý r2 của khối KH_HANG.

88


10

MỞ ĐẦU
1. Lý do lựa chọn đề tài
Để có thể xây dựng được một hệ thống cơ sở dữ liệu tốt, người ta
thường sử dụng các mô hình dữ liệu thích hợp.
Đã có một số loại mô hình được sử dụng trong các hệ thống cơ sở dữ
liệu như: mô hình thực thể - liên kết, mô hình mạng, mô hình phân cấp, mô
hình hướng đối tượng, mô hình dữ liệu datalog [53], [54], và mô hình quan hệ
[33], [52], [53], [54]. Trong số các mô hình này, có ba mô hình dữ liệu
thường được sử dụng: mô hình phân cấp, mô hình mạng và mô hình quan hệ.
Đối với ba mô hình này thì mô hình quan hệ được quan tâm hơn cả. Mô hình
này do E. Codd đề xuất ra năm 1970. Sở dĩ mô hình quan hệ được quan tâm
như vậy là vì nó được xây dựng trên một cơ sở toán học chặt chẽ - đó là lý
thuyết toán học về các quan hệ có áp dụng rộng rãi các công cụ đại số và
logic. Tuy nhiên, do các quan hệ có cấu trúc phẳng (tuyến tính) nên mô hình
này chưa đủ đáp ứng đối với các ứng dụng phức tạp, các cơ sở dữ liệu có cấu
trúc phi tuyến,...
Ví dụ: Khi cần theo dõi hồ sơ cán bộ trong một cơ quan, ta lập bảng sau:
CAN_BO_1:

ma


ten

luong trinh_do

A01

A

350

ThS

A02

B

300

DH

A03

C

250

CD

Bảng 1: Biểu diễn quan hệ CAN_BO_1.



11

Bảng này gồm các trường: ma (mã cán bộ), ten (tên cán bộ), luong
(lương hàng tháng), trinh_do (trình độ cán bộ). Bảng này chính là một quan
hệ trong mô hình dữ liệu quan hệ. Mỗi khi lương của một cán bộ thay đổi thì
người quản lý cập nhật lương mới cho cán bộ đó, như vậy giá trị của lương cũ
mất đi mà thay bằng giá trị lương mới. Tình trạng tương tự với thuộc tính:
trinh_do (trình độ cán bộ) khi mà trình độ của một cán bộ thay đổi. Do đó, với
cách quản lý nhân sự theo bảng trên thì người quản lý không thể theo dõi
được quá trình tăng lương hoặc quá trình nâng cao trình độ của những cán bộ
mình quản lý. Đối với họ thì trong cách quản lý này, việc theo dõi quá trình
phát triển của mỗi người theo thời gian là một công việc khó khăn.
Tuy nhiên, trong mô hình dữ liệu dạng khối thì việc này lại trở nên đơn
giản hơn. Ta có thể thấy điều đó qua cách quản lý cán bộ theo mô hình khối
dữ liệu, cụ thể như hình ảnh của khối CAN_BO_2 dưới đây:
CAN_BO_2:

ma

ten

A01
A01
t1

A01

A


A
A

200

A02
A02

B

A03
t3

A03

Ths
DH

DH
C

C
C

400
300

250


C01

TS
ThS

DH
B

B

trinh_do

550
350

B02
t2

luong

350
250

200

DH

2015
2010


CD
CD

2007

Hình 1: Biểu diễn khối CAN_BO_2.
Với khối CAN_BO_2 thì mỗi khi có một cán bộ nào trong cơ quan
được tăng lương hoặc thay đổi trình độ, thậm chí cả đổi tên thì ta bổ sung năm
đó vào trục thời gian và khối sinh tương ứng một lát cắt mới, ứng với năm
vừa bổ sung để người quản lý cập nhật thông tin (trục thời gian có thể tính


12

theo năm, tháng hoặc ngày,... tùy theo yêu cầu quản lý của từng cơ quan).
Như vậy, ta có thể quản lý cán bộ trong cơ quan suốt cả quá trình công tác.
Nhìn vào khối: CAN_BO_2, ta dễ dàng thấy quá trình tăng lương cũng
như quá trình nâng cao trình độ của 3 cán bộ ứng với các bản ghi t1, t2, t3, ở
đây các năm 2007, 2010, 2015 cũng chỉ là minh họa; ta có thể bổ sung thêm
các năm tùy ý trên trục thời gian này của khối mỗi khi cần cập nhật thông tin
cho các cán bộ trong cơ quan.
Trong những năm gần đây, việc nghiên cứu nhằm mở rộng mô hình dữ
liệu quan hệ đã được nhiều nhà khoa học quan tâm. Một số tác giả đã mở rộng
mô hình dữ liệu quan hệ thành mô hình dữ liệu đa chiều và kho dữ liệu,...[14],
[15], [16], [18], [19], [20], [21], [26], [32]. Một kỹ thuật thường được dùng
trong các hệ thống kho dữ liệu để xử lý phân tích trực tuyến - OLAP (OnLine Analytical Processing) là kỹ thuật sử dụng cách thể hiện dữ liệu đa
chiều gọi là các khối (cube) nhằm cung cấp khả năng truy xuất nhanh đến dữ
liệu của kho dữ liệu.
Với cấu trúc của khối dữ liệu đa chiều thì mỗi chiều tương ứng với một
thuộc tính, nó cung cấp cho người quản lý một khung nhìn đa chiều về dữ

liệu. Khối dữ liệu dưới đây là một ví dụ:

Hình 2: Biểu diễn khối dữ liệu đa chiều.


13

Với khối dữ liệu đa chiều như ở hình 2 ta thấy đây là khối dữ liệu 3
chiều. Một là chiều Thời gian gồm 4 mốc: Jan-01, Feb-01, Mar-01 và Apr-01,
hai là chiều Địa điểm gồm 2 nơi: Tokyo và Rome, ba là chiều Sản phẩm gồm
3 loại máy tính: Standard PC, Executive PC và Ambassador PC.
Cũng theo hướng nghiên cứu này một mô hình dữ liệu mới đã được đề
xuất, đó là mô hình dữ liệu dạng khối [4], [5], [7],... Mô hình dữ liệu này có
thể xem là một mở rộng của mô hình dữ liệu quan hệ.
Trong mô hình dữ liệu dạng khối, các khái niệm như: khối, lược đồ
khối, lát cắt, đại số khối, phụ thuộc hàm, bao đóng của tập thuộc tính chỉ số,...
đã được nghiên cứu [4], [5], [7], [8], [9], [10], [11], [12], [13].
Trong mô hình dữ liệu dạng khối, các lược đồ khối, khối nói chung là
lớn và phức tạp. Chính vì vậy mà mô hình này đòi hỏi phải có các thuật toán
tốt theo nghĩa, độ phức tạp tính toán chấp nhận được, chẳng hạn là hàm tuyến
tính hoặc đa thức theo chiều dài của dữ liệu vào. Các thuật toán này giúp ta
tìm bao đóng, khóa của lược đồ khối, khối, giải bài toán thành viên,...
Một cách tự nhiên, nếu kích thước của lược đồ khối càng nhỏ thì các
thuật toán đó càng phát huy hiệu quả hơn. Từ đó, một số hướng nghiên cứu
nhằm tinh giản các lược đồ khối được thực hiện thông qua các phép biến đổi
tương đương, chẳng hạn đưa tập phụ thuộc hàm về dạng thu gọn, thu gọn tự
nhiên, dạng không dư, dạng tối ưu,... cũng được quan tâm.
Đi theo hướng này, phép dịch chuyển lược đồ khối nhằm thu gọn, loại
bỏ khỏi lược đồ ban đầu những thuộc tính không quan trọng theo nghĩa chúng
không làm ảnh hưởng tới kết quả tính toán các đối tượng đang quan tâm như

bao đóng, khóa,...
Mặc dù lược đồ khối thu được qua phép thu gọn nhìn chung không
tương đương với lược đồ khối ban đầu, nhưng ta lại thu được các đối tượng
cần tìm bằng những phép toán đơn giản hơn.


14

Cũng như trong mô hình dữ liệu quan hệ, các phụ thuộc dữ liệu trong
mô hình khối đóng vai trò quan trọng đối với việc phản ánh ngữ nghĩa của dữ
liệu. Phụ thuộc đầu tiên là phụ thuộc hàm, được E. Codd - tác giả của mô hình
dữ liệu quan hệ đề xuất. Phụ thuộc này cũng đã được phát triển thành phụ
thuộc hàm trong mô hình dữ liệu dạng khối. Khi khối suy biến thành quan hệ
thì khái niệm phụ thuộc hàm trong mô hình dữ liệu dạng khối lại trở thành
khái niệm phụ thuộc hàm trong mô hình dữ liệu quan hệ.
Với mô hình dữ liệu quan hệ, sau phụ thuộc hàm thì một trong các lớp
phụ thuộc quan trọng được phát triển là phụ thuộc Boolean dương, phụ thuộc
Boolean dương tổng quát, phụ thuộc Boolean dương đa trị,… Ở đây, khái
quát hóa các lớp phụ thuộc này vào một khái niệm chung là phụ thuộc logic.
Việc nghiên cứu phụ thuộc logic trong mô hình dữ liệu quan hệ được nhiều
tác giả quan tâm và các kết quả tìm thấy đã được sử dụng hữu ích trong quá
trình thiết kế các cơ sở dữ liệu.
Tuy nhiên, trong mô hình dữ liệu dạng khối, cho đến hiện nay thì các
phụ thuộc logic còn chưa được quan tâm nhiều, ví dụ như: các khái niệm về
phụ thuộc Boolean dương, phụ thuộc Boolean dương tổng quát trên khối,...
vẫn chưa có. Chính vì vậy, đề tài muốn đi sâu tìm hiểu xem trong mô hình dữ
liệu dạng khối thì các phụ thuộc logic này sẽ được định nghĩa như thế nào?
Chúng có những tính chất, đặc trưng gì? Mối quan hệ của chúng với các khái
niệm tương ứng trong mô hình dữ liệu quan hệ như thế nào?,... và chắc rằng
với các phụ thuộc logic mới được đề xuất trong mô hình dữ liệu dạng khối thì

việc sử dụng chúng sẽ có hiệu quả trong việc thiết kế các cơ sở dữ liệu dạng
khối trên thực tế.
2. Mục tiêu, đối tượng và phương pháp nghiên cứu
Mục tiêu của luận án là đề xuất các khái niệm và tìm hiểu tính chất các
loại phụ thuộc logic trong mô hình dữ liệu dạng khối như: phụ thuộc Boolean


15

dương, phụ thuộc Boolean dương tổng quát, ánh xạ đóng và mối quan hệ với
phép dịch chuyển lược đồ khối,… Mối quan hệ giữa phụ thuộc logic trong mô
hình dữ liệu dạng khối với các phụ thuộc tương ứng trong mô hình dữ liệu
quan hệ,... Bên cạnh đó, đề tài cũng tìm hiểu về quan hệ giữa phụ thuộc logic
trên lược đồ khối và phụ thuộc tương ứng trên lược đồ lát cắt, từ đó xem xét
về cấu trúc của các phụ thuộc logic trong mô hình dữ liệu dạng khối.
Đối tượng nghiên cứu của luận án chính là các phụ thuộc logic, ánh xạ
đóng, lược đồ cân bằng,… trong mô hình dữ liệu dạng khối với phép dịch
chuyển lược đồ khối. Mối quan hệ của chúng trên lược đồ khối và trên lược
đồ lát cắt, trên cơ sở đó xác định rõ các cấu trúc cụ thể của các phụ thuộc
logic trong mô hình dữ liệu dạng khối.
Phương pháp nghiên cứu của luận án: Hướng nghiên cứu của luận án là
nghiên cứu lý thuyết, do đó luận án sử dụng các công cụ của toán học, logic
(các phương pháp suy luận, chứng minh, lập bảng chân lý,…) để nghiên cứu
tìm ra các kết quả mới về các phụ thuộc logic trên lược đồ khối, phép dịch
chuyển lược đồ khối, ánh xạ đóng trên khối,…
3. Tổng quan tình hình nghiên cứu liên quan đến luận án
3.1 Các nghiên cứu trên thế giới
Hiện nay, trên thế giới việc mở rộng mô hình dữ liệu quan hệ của
E. Codd đề xuất năm 1970 cũng đã được nhiều nhà nghiên cứu
quan tâm.

- Năm 1996 tác giả C. Dyreson đã đề xuất một mở rộng của mô hình
dữ liệu quan hệ, đó là các khối dữ liệu (data cube) [17].
- Năm 1997, các tác giả R. Agrawal, A. Gupta, and S. Sarawagi đã
đề xuất một mở rộng của mô hình dữ liệu quan hệ, đó là mô hình
dữ liệu đa chiều (Modeling Multidimensional Databases) [41].


16

- Năm 1997 các tác giả S. Chaudhuri and U. Dayal đã đề xuất khái
niệm nhà kho dữ liệu (Data Warehousing) [49].
- Năm 2001 Paulraj Ponniah đã bàn về nhà kho dữ liệu trong bài báo
“Data warehousing fundamentals” [38].
- Năm 2002 Inmon W.H. đã trình bày về việc xây dựng nhà kho dữ
liệu trong bài báo “Building the Data Warehouse “ [26].
- Năm

2003

các

tác

giả

Maurizio

Rafanelli, M.Rafanelli,

M.Rafanelli(Ed.), Qiang Yang, Joshua Zhexue Huang, Michaeng

Ng,… trong các bài báo của mình đã bàn về nhà kho dữ liệu, cơ sở
dữ liệu đa chiều và mô hình khối dữ liệu [18], [34], [35], [40].
- Năm 2009 John Paredes đã bàn về các công cụ của mô hình dữ liệu
đa chiều [28].
- Năm 2010 các tác giả Apostolos Benisis, Christian S.Jensen, Torben
Bach Pedersen, Christian Thomsen, & 1 mo-re trong các bài báo
của mình cũng đã nói tới khối dữ liệu, cơ sở dữ liệu đa chiều và
nhà kho dữ liệu [15], [19].
- Năm 2013 các tác giả Ralph Kimball, Margy Ross, Haiping
Lu, Konstantinos N. Plataniotis, Anastasios Venetsanopoulos đã
trình bày về bộ công cụ của nhà kho dữ liệu, dữ liệu đa
chiều,…[23], [44].
- Năm 2014 các tác giả Ladjel Bellatreche, Mukesh K. Mohania,
Ralph Kimball trong các bài báo của mình đã bàn về nhà kho dữ
liệu và các công cụ của nó [32], [45].
3.2 Các nghiên cứu tại Việt Nam
- Tại Việt Nam, năm 1998 các tác giả Nguyễn Xuân Huy, Trịnh Đình
Thắng đã đề xuất ra một mở rộng của mô hình quan hệ, đó là mô


17

hình dữ liệu dạng khối [4], mô hình này khác với các mô hình mà
các nhà khoa học nước ngoài đã đề xuất.
- Trong mô hình dữ liệu dạng khối, các tác giả đã đưa ra các khái
niệm như: khối, lược đồ khối, lát cắt, đại số quan hệ trên khối, các
thuộc tính chỉ số, phụ thuộc hàm,… đồng thời chứng minh nhiều
tính chất trên các khái niệm này [4], [5], [7], [8].
- Năm 2008 các tác giả Trịnh Đình Thắng và Trịnh Đình Vinh đã đề
xuất khái niệm phụ thuộc đa trị trong lược đồ khối và chứng minh

một số tính chất của nó [9].
- Năm 2009 các tác giả Vũ Đức Thi và Trịnh Đình Vinh đã đưa ra
các khái niệm phụ thuộc đa trị xấp xỉ, phụ thuộc hàm xấp xỉ và bao
đóng xấp xỉ mức α trong mô hình dữ liệu dạng khối [11].
- Năm 2010 các tác giả Vũ Đức Thi và Trịnh Đình Vinh đề xuất các
khái niệm α-phụ thuộc hàm và α-bao đóng, phủ của tập phụ thuộc
hàm và vấn đề tựa chuẩn hóa trong mô hình dữ liệu dạng khối [12],
[13].
4. Các vấn đề nghiên cứu chính của luận án
Trước khi nghiên cứu các phụ thuộc logic trong mô hình dữ liệu
dạng khối, luận án tập trung nghiên cứu các vấn đề sau:
- Đề xuất ra khái niệm mới: đó là phép dịch chuyển lược đồ khối, từ
đó nghiên cứu vấn đề biểu diễn khóa và bao đóng, khóa, các tập
thuộc tính nguyên thủy, phi nguyên thủy với phép dịch chuyển lược
đồ khối trong mô hình dữ liệu dạng khối.
- Đưa ra khái niệm về lược đồ cân bằng trong mô hình dữ liệu dạng
khối, từ đó tìm ra mối quan hệ của nó với vế trái cực tiểu và khóa
trong lược đồ khối.


18

- Tìm và chứng minh các tính chất của ánh xạ đóng với phép dịch
chuyển lược đồ khối trong mô hình dữ liệu dạng khối.
- Đề xuất khái niệm phụ thuộc Boolean dương trên lược đồ khối, phát
biểu và chứng minh các tính chất của nó trong mô hình dữ liệu dạng
khối,…
- Đề xuất khái niệm phụ thuộc Boolean dương tổng quát trên lược đồ
khối, phát biểu và chứng minh các tính chất của nó trong mô hình
dữ liệu dạng khối,…

5. Một số kết quả nghiên cứu của luận án
Các kết quả nghiên cứu của luận án được đưa ra ở toàn bộ các
chương 2 và 3. Cụ thể như sau:
- Đề xuất khái niệm về phép dịch chuyển lược đồ khối và chứng minh
các kết quả về biểu diễn bao đóng và khóa qua phép dịch chyển lược
đồ khối.
- Mối quan hệ giữa khóa và các tập thuộc tính nguyên thủy, phi
nguyên thủy với phép dịch chuyển lược đồ khối.
- Đề xuất khái niệm lược đồ khối cân bằng và chứng minh các kết quả
về lược đồ khối cân bằng, vế trái cực tiểu và khóa với phép dịch
chuyển lược đồ khối.
- Chứng minh các tính chất của ánh xạ đóng trong mô hình dữ liệu
dạng khối với phép dịch chuyển lược đồ khối.
- Đề xuất khái niệm phụ thuộc Boolean dương trên lược đồ khối và
chứng minh các tính chất của nó trong mô hình dữ liệu dạng khối.
- Đề xuất khái niệm phụ thuộc Boolean dương tổng quát trên lược đồ
khối, chứng minh các tính chất và thể hiện của nó trong mô hình dữ
liệu dạng khối.


19

6. Bố cục của luận án
Luận án gồm phần mở đầu, 3 chương tiếp theo và cuối cùng là phần
kết luận.
Chương 1 trình bày một vài nét cơ bản nhất về mô hình dữ liệu và
giới thiệu một mô hình dữ liệu cụ thể: đó là mô hình dữ liệu dạng khối một mở rộng của mô hình dữ liệu quan hệ. Ánh xạ đóng và các tính chất
của nó cùng với các khái niệm về công thức Boolean, công thức Boolean
dương, ... cũng đã được giới thiệu ở đây.
Chương 2 đưa ra các kết quả nghiên cứu đầu tiên của luận án: đề

xuất các khái niệm mới về phép dịch chuyển lược đồ khối, lược đồ khối
cân bằng,... Từ đó, các kết quả về biểu diễn của bao đóng, khóa qua phép
dịch chuyển, thuật toán dịch chuyển lược đồ khối,… cùng các tính chất
của lược đồ khối cân bằng, thuật toán dịch chuyển,... đã được phát biểu và
chứng minh.
Chương 3 giới thiệu các khái niệm mới như: phụ thuộc Boolean
dương, phụ thuộc Boolean dương tổng quát trong mô hình dữ liệu dạng
khối,... trình bày khái niệm ánh xạ đóng trên khối. Chứng minh các tính
chất của ánh xạ đóng trên khối, điều kiện cần và đủ của tập thuộc tính chỉ
số bất động, tập sinh, tập các đối nguyên tử,... Các tính chất, định lý tương
đương,... của phụ thuộc Boolean dương, phụ thuộc Boolean dương tổng
quát trên khối, thể hiện của phụ thuộc Boolean dương tổng quát,... cũng
đã được phát biểu và chứng minh ở đây.


20

CHƯƠNG 1:

MÔ HÌNH DỮ LIỆU DẠNG KHỐI

Các mô hình dữ liệu là sự trừu tượng đơn giản của các sự kiện trong thế
giới thực. Hiện đã có nhiều mô hình dữ liệu được quan tâm nghiên cứu, trong
số đó thì mô hình dữ liệu quan hệ do E. Codd đề xuất được quan tâm nhiều
hơn cả. Mặc dù vậy, đối với các bài toán thực tế với dữ liệu động thì mô hình
này vẫn còn hạn chế. Đã có nhiều hướng nghiên cứu nhằm mở rộng mô hình
dữ liệu quan hệ, trong số đó có mô hình dữ liệu dạng khối.
1.1 Mô hình dữ liệu
1.1.1 Khái niệm
Ngày nay, công nghệ thông tin và truyền thông đóng một vai trò quan

trọng trong khoa học kỹ thuật, giáo dục, kinh doanh,... cũng như trong mọi
hoạt động khác của xã hội dưới mọi quy mô, từ xí nghiệp, công ty,... cho đến
cấp quốc gia, quốc tế. Việc nắm bắt thông tin nhanh, nhiều, chính xác và kịp
thời ngày càng đóng vai trò quan trọng trong việc quản lý, điều hành công
việc. Mọi thông tin quản lý trên máy tính điện tử theo bất cứ quy trình cụ thể
nào cũng đều phải được thể hiện bằng các dữ liệu lưu trữ trên các thiết bị
mang tin, trên cơ sở đó tổ chức quản lý và khai thác dữ liệu. Dữ liệu là những
sự kiện có thể ghi lại được và có ý nghĩa.
Một tập hợp các dữ liệu có liên quan với nhau, mô hình hóa các đối tượng
của một phần thế giới thực (công ty, trường học, ngân hàng...), gọi là một cơ
sở dữ liệu. Các cơ sở dữ liệu phải được tổ chức quản lý sao cho những người
sử dụng có thể tìm kiếm dữ liệu, cập nhật dữ liệu và lấy dữ liệu ra khi cần
thiết.


21

Một hệ quản trị cơ sở dữ liệu là một tập hợp chương trình giúp cho người
sử dụng tạo ra, bảo trì và khai thác một cơ sở dữ liệu. Nó là một hệ thống
phần mềm phổ dụng, thuận tiện cho quá trình định nghĩa, xây dựng và thao
tác cơ sở dữ liệu với các ứng dụng khác nhau.
Các loại cấu trúc cơ sở dữ liệu và mối liên hệ giữa chúng đóng vai trò
quan trọng trong việc xác định tính hiệu quả của hệ quản trị cơ sở dữ liệu. Do
đó, việc thiết kế cơ sở dữ liệu là một hoạt động chủ yếu trong môi trường cơ
sở dữ liệu.
Quá trình thiết kế cơ sở dữ liệu được thực hiện đơn giản hơn nhiều khi ta
sử dụng các mô hình. Các mô hình là sự trừu tượng đơn giản của các sự kiện
trong thế giới thực. Nó cho phép khảo sát đặc điểm của các thực thể và các
mối liên hệ được tạo ra giữa các thực thể đó. Một mô hình cơ sở dữ liệu là
một tập hợp các khái niệm dùng để biểu diễn các cấu trúc của cơ sở dữ liệu.

Cấu trúc của một cơ sở dữ liệu là các kiểu dữ liệu, các mối liên kết và các
ràng buộc phải tuân theo trên các dữ liệu. Nhiều mô hình còn có thêm một tập
hợp các phép toán cơ bản để đặc tả các thao tác trên cơ sở dữ liệu.
Với các mô hình được thiết kế tốt sẽ tạo ra các cơ sở dữ liệu tốt và từ đó
sẽ cho các ứng dụng hiệu quả. Ngược lại, nếu thiết kế mô hình không tốt sẽ
tạo ra các cơ sở dữ liệu tồi và dẫn đến các ứng dụng kém hiệu quả.
Như vậy, mỗi mô hình dữ liệu là một hệ hình thức toán học gồm có hai
phần [53]:
- Một hệ thống kí hiệu để mô tả dữ liệu.
- Một tập hợp các phép toán thao tác trên dữ liệu đó.
1.1.2 Phân loại
Các mô hình dữ liệu có thể phân loại theo các kiểu khái niệm mà chúng
dùng để mô tả cấu trúc cơ sở dữ liệu [54].


22

- Các mô hình dữ liệu bậc cao hoặc mô hình dữ liệu mức khái niệm, cung
cấp các khái niệm gắn liền với cách cảm nhận dữ liệu của nhiều người
sử dụng. Các mô hình này tập trung vào bản chất logic của biểu diễn dữ
liệu, nó quan tâm đến cái được biểu diễn trong cơ sở dữ liệu chứ không
phải cách mà nó được biểu diễn.
- Các mô hình dữ liệu bậc thấp hoặc các mô hình dữ liệu vật lý, cung cấp
các khái niệm mô tả chi tiết về việc các dữ liệu được lưu trữ trong máy
tính như thế nào. Các khái niệm do mô hình dữ liệu vật lý cung cấp, nói
chung có ý nghĩa đối với các chuyên gia máy tính chứ không có ý nghĩa
mấy đối với những người sử dụng thông thường.
Giữa hai loại mô hình này là một lớp các mô hình dữ liệu thể hiện,
chúng cung cấp những khái niệm mà người sử dụng có thể hiểu được và gần
gũi với cách tổ chức dữ liệu bên trong máy tính. Mô hình dữ liệu loại này còn

được gọi là mô hình dữ liệu mức logic. Các mô hình dữ liệu thể hiện che dấu
một số chi tiết về việc lưu trữ dữ liệu nhưng có thể được cài đặt trực tiếp trên
hệ thống máy tính.
Các mô hình dữ liệu thể hiện là các mô hình được sử dụng thường xuyên
nhất trong các hệ cơ sở dữ liệu thương mại. Ba mô hình được quan tâm nhiều
thuộc loại này là: mô hình mạng, mô hình phân cấp và mô hình quan hệ.
Trong ba mô hình này thì mô hình quan hệ được quan tâm nhiều hơn cả. Đã
có nhiều tài liệu, bài báo trình bày các kết quả nghiên cứu về mô hình quan hệ
[1], [2], [3], [24], [29], [33], [52], [53], [54]. Sở dĩ mô hình quan hệ được
quan tâm như vậy vì nó được xây dựng trên một cơ sở toán học chặt chẽ - đó
là lí thuyết toán học về các quan hệ có áp dụng rộng rãi các công cụ đại số và
logic. Mô hình dữ liệu quan hệ có tính độc lập dữ liệu cao, dễ dàng sử dụng
và mô phỏng các hệ thống thông tin đa dạng trong thực tiễn.


23

Bên cạnh ưu điểm, mô hình dữ liệu quan hệ cũng còn có một số nhược
điểm. Trong mô hình này, cơ sở dữ liệu được xem như là một tập hợp các
quan hệ. Mỗi quan hệ có thể xem như một bảng gồm có các hàng và các cột,
mỗi cột ứng với một thuộc tính, mỗi hàng gọi là một bộ. Do các quan hệ có
cấu trúc phẳng (tuyến tính) nên mô hình này chưa đủ đáp ứng đối với các ứng
dụng phức tạp, các cơ sở dữ liệu có cấu trúc phi tuyến,...
Để khắc phục những nhược điểm trên, việc nghiên cứu nhằm mở rộng
mô hình dữ liệu quan hệ đã được nhiều nhà khoa học quan tâm. Một số tác giả
đã mở rộng mô hình dữ liệu quan hệ thành mô hình dữ liệu đa chiều và kho
dữ liệu,…[17], [41], [49], [51]. Sau đó nhiều tác giả khác trên thế giới đã
quan tâm nghiên cứu đến các mô hình dữ liệu này [38], [26], [34], [35], [18],
[40], [28], [15], [19], [14], [23], [44], [16], [32], [45],... Cũng theo hướng
nghiên cứu này, một mô hình dữ liệu mới đã được đề xuất và nghiên cứu, đó

là mô hình dữ liệu dạng khối [4], [5], [7], [8], [9], [10], [11], [12],... Mô hình
dữ liệu này có thể xem là một mở rộng của mô hình dữ liệu quan hệ.
1.2 Mô hình dữ liệu dạng khối
1.2.1 Khối, lát cắt của khối
Định nghĩa 1.1 [4]
Gọi R = (id; A1, A2,..., An ) là một bộ hữu hạn các phần tử, trong đó id
là tập chỉ số hữu hạn khác rỗng, Ai (i=1..n) là các thuộc tính. Mỗi thuộc tính
Ai (i=1..n) có miền giá trị tương ứng là dom(Ai). Một khối r trên R, kí hiệu
r(R) gồm một số hữu hạn phần tử mà mỗi phần tử là một họ các ánh xạ từ
tập chỉ số id đến dom(Ai ), (i=1..n).
Nói một cách khác:

.

Đôi khi, nếu không sợ nhầm lẫn ta kí hiệu khối này đơn giản là r.
Ví dụ 1.1: Ta xây dựng khối Khách hàng (ký hiệu KH_HANG) để theo dõi
khả năng mua của khách hàng trong siêu thị như sau: R = (id; A1, A2, A3, A4),


24

trong đó: id = {1/1/2015, 2/1/2015, 3/1/2015} và các thuộc tính là A1 = maKH
(mã khách hàng), A2 = Bmỳ (bánh mỳ, đơn vị: cái), A3 = Bơ (đơn vị: gam),
A4 = Sữa (đơn vị: lít). Minh họa cho khối này như ở hình dưới đây:
maKH Bmỳ Bơ
A01
A01
t1

A01


11

12
10

200

A02
t2

A02
A03
A03

3

9
8

350
0

250

5
5

4
9


8
6

0
4

10

C03
t3

500
350

B02

Sữa

300
250

0

5

3/1/2015

0
6


2/1/2015
1/1/2015

Hình 1.1: Biểu diễn khối KH_HANG
Với khối KH_HANG như ở hình 3, ta có:
 Mã của khách hàng t1 vào ngày 1/1/2015 là: t1(1/1/2015,maKH) = A01.
 Số lượng bánh mỳ khách hàng t2 mua ngày 2/1/2015 là:
t2(2/1/2015,Bmỳ) = 9.
 Số lượng sữa khách hàng t3 mua ngày 3/1/2015 là: t3(3/1/2015,Sữa) = 5.
Định nghĩa 1.2 [4]
Cho R = (id; A1, A2,..., An ), r(R) là một khối trên R. Với mỗi x id ta kí
hiệu r(Rx) là một khối với Rx = ({x}; A1, A2,..., An ) sao cho:

tx  (t1x , tx2 ,..., txn )  r( Rx )  txi  t i | x, i  1..n ,
ở đây

.

Khi đó r(Rx) được gọi là một lát cắt trên khối r(R) tại điểm x.


×