Mô hình dữ liệu dạng khối theo cách tiếp cận tập thô (LV01173)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (983.29 KB, 61 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2

NGUYỄN NĂNG AN

MÔ HÌNH DỮ LIỆU DẠNG KHỐI THEO
CÁCH TIẾP CẬN TẬP THÔ

Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60 48 01 01

LUẬN VĂN THẠC SỸ MÁY TÍNH

Người hướng dẫn khoa học:
TS. TRỊNH ĐÌNH VINH

HÀ NỘI, 2013

1

LỜI CẢM ƠN
Em sẽ không hoàn thành luận văn này nếu không có sự hướng dẫn và chỉ bảo của
thầy giáo, TS. Trịnh Đình Vinh. Em xin bày tỏ lòng biết ơn sâu sắc tới thầy.
Em xin trân thành cảm ơn Ban giám hiệu, phòng sau đại học trường Đại học Sư
phạm Hà Nội 2 đã giúp tôi hoàn thành khóa học.
Em xin trân thành cám ơn thầy giáo, PGS.TS Trịnh Đình Thắng đã giúp đỡ, quan
tâm và động viên em trong quá trình nghiên cứu để hoàn thành luận văn này.
Em xin gửi lời cảm ơn đến những người thân, các thầy cô giáo, bạn bè, đồng
nghiệp của khoa công nghệ thông tin trường Đại học Sư phạm Hà Nội 2 đã quan tâm, động
viên tôi trong thời gian học tập và nghiên cứu để hoàn thành luận văn.

Hà Nội,ngày 16 tháng 12 năm 2013
Tác giả

Nguyễn Năng An

2

LỜI CAM ĐOAN
Tôi xin cam đoan: đây là công trình nghiên cứu của riêng tôi. Các kết quả nghiên
cứu trong luận văn chưa từng được công bố trên bất cứ tài liệu hay công trình khoa học
nào!
Tác giả

Nguyễn Năng An

3

MỤC LỤC
LỜI CÁM ƠN
LỜI CAM ĐOAN
MỞ ĐẦU ............................................................................................................................... 1
Chương 1: LÝ THUYẾT TẬP THÔ VÀ CÁCH TIẾP CẬN TẬP THÔ THEO MÔ
HÌNH QUAN HỆ ................................................................................................................. 3
1.1. Giới thiệu ................................................................................................................. 3
1.2. Hệ thông tin ............................................................................................................. 4
1.3. Quan hệ bất khả phân biệt ....................................................................................... 4
1.3.1. Sự dư thừa thông tin ...................................................................................... 4
1.3.2. Quan hệ tương đương – Lớp tương đương .................................................... 4

1.4. Xấp xỉ tập hợp.......................................................................................................... 5
1.5. Sự không chắc chắn và hàm thuộc .......................................................................... 8
1.6. Sự phụ thuộc giữa các tập thuộc tính ....................................................................... 9
1.7. Rút gọn thuộc tính ................................................................................................. 10
1.7.1. Khái niệm .................................................................................................... 10
1.7.2. Ma trận phân biệt và hàm phân biệt ............................................................ 12
1.8. Cơ sở dữ liệu quan hệ theo cách tiếp cận tập thô .................................................. 12
Chương 2: MÔ HÌNH DỮ LIỆU DẠNG KHỐI ............................................................. 21
2.1. Khối, lược đồ khối ................................................................................................. 21
2.2. Lát cắt .................................................................................................................... 22
2.3. Khóa của khối ........................................................................................................ 24
2.4. Đại số quan hệ trên khối ....................................................................................... 27
2.4.1. Phép hợp ...................................................................................................... 27
2.4.2. Phép giao ..................................................................................................... 27
2.4.3. Phép trừ........................................................................................................ 27
2.4.4. Tích Đề các .................................................................................................. 28
2.4.5. Tích Đề các theo tập chỉ số ......................................................................... 28
2.4.6. Phép chiếu ................................................................................................... 29
2.4.7. Phép chọn ................................................................................................... 29
2.4.8. Phép kết nối ................................................................................................ 30
2.4.9. Phép chia ..................................................................................................... 31

4

2.5 Phụ thuộc hàm ........................................................................................................ 31
2.6 Bao đóng của tập thuộc tính chỉ số ......................................................................... 33
2.7 Khóa của lược đồ khối r với các tập phụ thuộc hàm F trên R ................................ 36
2.8 Dạng chuẩn của khối .............................................................................................. 39
Chương 3: MÔ HÌNH DỮ LIỆU DẠNG KHỐI THEO CÁCH TIẾP CẬN TẬP THÔ42

3.1 Định nghĩa mô hình dữ liệu dạng khối theo cách tiếp cận tập thô ......................... 42
3.2 Các phép toán đại số quan hệ ở dạng tập thô.......................................................... 43
3.2.1. Định nghĩa 3.2 ............................................................................................. 43
3.2.2. Định nghĩa 3.3 ............................................................................................. 44
3.2.3. Định nghĩa 3.4 ............................................................................................. 44
3.2.4. Định nghĩa 3.5 ............................................................................................. 45
3.2.5. Hiệu của hai khối thô ................................................................................... 45
3.2.6. Hợp của hai khối thô.................................................................................... 46
3.2.7. Giao của hai khối thô ................................................................................... 47
3.2.8. Phép chọn trên một khối thô ........................................................................ 47
3.2.9. Phép chiếu.................................................................................................... 47
3.2.10. Phép kết nối bằng trên các thuộc tính giống nhau ..................................... 48
3.3. Một số tính chất của toán tử khối thô .................................................................... 49
3.3.1. Tính chất đóng của các toán tử khối thô ...................................................... 49
3.3.2. Tính chất của một dãy liên tiếp các phép chiếu một khối thô trên các thuộc
tính lồng nhau ...................................................................................................................... 49
3.3.3. Tính chất của phép chọn theo một điều kiện hội ......................................... 50
3.3.4. Phép chọn trên một số kết nối bằng của hai khối thô .................................. 50
KẾT LUẬN ......................................................................................................................... 52
TÀI LIỆU THAM KHẢO ................................................................................................. 54

1

MỞ ĐẦU
1. Lý do chọn đề tài
Để xây dựng được một hệ thống cở sở dữ liệu tốt, người ta thường sử
dụng các mô hình dữ liệu thích hợp đã có một số mô hình được sử dụng trong
các hệ thống cở sở dữ liệu như: mô hình thực thể - liên kết, mô hình mạng,
mô hình phân cấp, mô hình hướng đối tượng, mô hình dữ liệu datalog và mô

hình quan hệ. Trong số các mô hình này thì có ba mô hình dữ liệu thường
được sử dụng là mô hình phân cấp, mô hình mạng và mô hình quan hệ. Đối
với ba mô hình này thì mô hình quan hệ được quan tâm hơn cả. Mô hình này
được E. Codd đề xuất năm 1970. Tuy nhiên do các quan hệ có cấu trúc phẳng
(tuyến tính) nên mô hình này chưa đủ đáp ứng đối với các ứng dụng phức tạp,
các cơ sở dữ liệu có cấu trúc phi tuyến tính,…
Trong những năm gần đây, việc nghiên cứu nhằm mở rộng mô hình dữ
liệu quan hệ đã được nhiều nhà khoa học quan tâm. Theo hướng nghiên cứu
này một mô hình dữ liệu mới đã được đề xuất đó là mô hình dữ liệu dạng
khối. Mô hình dữ liệu này được xem là một mở rộng của mô hình dữ liệu
quan hệ.
Để hoàn thiện cho lý thuyết về mô hình dữ liệu dạng khối em đã chọn
đề tài “Mô hình dữ liệu dạng khối theo cách tiếp cận tập thô”. Nhằm trình
bày các Mô hình dạng khối theo cách tiếp cận tập thô, các phép tính trên khối,
đại số quan hệ trên khối và phụ thuộc hàm trên khối cũng theo cách tiếp cận
tập thô.
2. Mục đích nghiên cứu
Nghiên cứu một số cách tiếp cận tập thô, cụ thể là tập trung nghiên cứu
vào mô hình dữ liệu dạng khối theo cách tiếp cận tập thô để hoàn chỉnh lý
thuyết mô hình dữ liệu dạng khối.

2

3. Nhiệm vụ nghiên cứu
Tìm hiểu về tập thô và mô hình quan hệ theo cách tiếp cận tập thô
Tìm hiểu về mô hình dữ liệu dang khối
Nghiên cứu về mô hình dữ liệu dạng khối theo cách tiếp cận tập thô
4. Đối tượng và phạm vi nghiên cứu
Đối tượng, phạm vi nghiên cứu về tập thô, mô hình dữ liệu dạng khối,

và mô hình dữ liệu dạng khối theo cách tiếp cận tập thô.
5. Những đóng góp mới của đề tài
Luận văn bước đầu hoàn thiện về các vấn đề của cơ sở dữ liệu dạng
khối ở dạng tập thô như định nghĩa mô hình dạng khối theo cách tiếp cận tập
thô, các phép toán đại số ở dạng tập thô là đóng góp cho hoàn thiện về mô
hình cơ sở dữ liệu dạng khối
6. Phương pháp nghiên cứu
Luận văn được thực hiện bằng phương pháp nghiên cứu lý thuyết: thu
thập tài liệu, phân tích các tài liệu và những thông tin liên quan đến đề tài, kết
hợp các nghiên cứu đã có trước đây của tác giả trong nước cùng với sự chỉ
bảo, góp ý của thầy hướng dẫn để hoàn thành nội dung nghiên cứu.

3

CHƯƠNG 1: LÝ THUYẾT TẬP THÔ
VÀ MÔ HÌNH QUAN HỆ THEO CÁCH TIẾP CẬN TẬP THÔ
1.1 Giới thiệu
Lý thuyết tập thô (rough set theory) lần đầu tiên được đề xuất bởi Z.
Pawlak và nhanh chóng được xem như một công cụ xử lý các thông tin mơ hồ
và không chắc chắn. Phương pháp này đóng vai trò hết sức quan trọng trong
lĩnh vực trí tuệ nhận tạo và các ngành khoa học khác liên quan đến nhận thức,
đặc biệt là lĩnh vực máy học, thu nhận tri thức, phân tích quyết định, phát hiện
và khám phá tri thức từ cơ sở dữ liệu, các hệ chuyên gia, các hệ hỗ trợ quyết
định, lập luận dựa trên quy nạp và nhận dạng .
Lý thuyết tập thô dựa trên giả thiết rằng để định nghĩa một tập hợp,
chúng ta cần phải có thông tin về mọi đối tượng trong tập vũ trụ. Ví dụ, nếu
các đối tượng là những bệnh nhân bị một bệnh nhất định thì các triệu chứng
của bệnh tạo thành thông tin về bệnh nhân. Như vậy tập thô có quan điểm
hoàn toàn khác với quan điểm truyền thống của tập hợp, trong đó mọi tập hợp

đều được định nghĩa duy nhất bởi các phần tử của nó mà không cần biết bất
kỳ thông tin nào về các phần tử của tập hợp. Rõ ràng, có thể tồn tại một số đối
tượng giống nhau ở một số thông tin nào đó, và ta nói chúng có quan hệ bất
khả phân biệt với nhau. Đây chính là quan hệ mấu chốt và là điểm xuất phát
của lý thuyết tập thô: biên giới của tập thô là không rõ ràng, và để xác định nó
chúng ta phải đi xấp xỉ nó bằng các tập hợp khác nhằm mục đích cuối cùng là
trả lời được(tất nhiên càng chính xác càng tốt) rằng một đối tượng nào đó có
thuộc tập hợp hay không. Lý thuyết tập thô với cách tiếp cận như vậy đã được
ứng dụng trong rất nhiều lĩnh vực của đời sống xã hội Trong chương này
chúng ta sẽ nghiên cứu các khái niệm và ý nghĩa cơ bản của lý thuyết tập thô.
Đây là những kiến thức quan trọng cho việc áp dụng tập thô vào mô hình dữ
liệu dạng khối.

4

1.2. Hệ thông tin
Một tập dữ liệu thể hiện dưới dạng bảng, trong đó mỗi dòng thể hiện
cho một trường hợp, một sự kiện, một bệnh nhân hay đơn giản là một đối
tượng. Mỗi cột của bảng thể hiện một thuộc tính(là một giá trị, một quan sát,
một đặc điểm,…) được “đo lường” cho từng đối tượng. Ngoài ra giá trị của
thuộc tính cũng có thể được cung cấp bởi chuyên gia hay bởi người sử dụng.
Một bảng như vậy được gọi là một hệ thông tin(information system)
Một cách hình thức, hệ thông tin là một cặp S = (U, A) trong đó U là
tập hữu hạn không rỗng các đối tượng và được gọi là tập vũ trụ, A là tập hữu
hạn không rỗng các thuộc tính sao cho a: U → Va với mọi a ∈ A. Tập Va
được gọi là tập giá trị của thuộc tính a.
1.3. Quan hệ bất khả phân biệt
1.3.1. Sự dư thừa thông tin
Một hệ quyết định (hay một bảng quyết định) thể hiện tri thức về các

đối tượng trong thế giới thực. Tuy nhiên trong nhiều trường hợp bảng này có
thể được tinh giảm do tồn tại ít nhất hai khả năng dư thừa thông tin sau đây:
• Nhiều đối tượng giống nhau, hay không thể phân biệt với nhau lại
được thể hiện lặp lại nhiều lần.
• Một số thuộc tính có thể là dư thừa, theo nghĩa khi bỏ đi các thuộc
tính này thì thông tin do bảng quyết định cung cấp mà chúng ta quan tâm sẽ
không bị mất mát.
1.3.2. Quan hệ tương đương - Lớp tương đương
Chúng ta bắt đầu xem xét vấn đề dư thừa thông tin nói trên qua khái
niệm quan hệ tương đương. Một quan hệ hai ngôi R ⊆ XxX được gọi là quan
hệ tương đương khi và chỉ khi:
• R là quan hệ phản xạ: xRx, ∀x ∈ X.
• R là quan hệ đối xứng: xRy ⇒ yRx, ∀x, y ∈ X.

5

• R là quan hệ bắc cầu: xRy và yRz ⇒ xRz, ∀x, y, z ∈ X.
Một quan hệ tương đương R sẽ phân hoạch tập đối tượng thành các lớp
tương đương, trong đó lớp tương đương của một đối tượng x là tập tất cả các
đối tượng có quan hệ R với x.
Tiếp theo, xét hệ thông tin A = (U , A). Khi đó mỗi tập thuộc tính B ⊆
A đều tạo ra tương ứng một quan hệ tương đương INDA:
INDA(B)= {( x, x' ) ∈ U2 | ∀a ∈ B, a(x) = a(x')}
INDA(B) được gọi là quan hệ B - bất khả phân biệt. Nếu (x, x' ) ∈
INDA(B) thì các đối tượng x và x' là không thể phân biệt được với nhau xét
trên tập thuộc tính B. Với mọi đối tượng x ∈ U, lớp tương đương của x trong
quan hệ INDA(B) được kí hiệu bởi [x]B. Nếu không bị nhầm lẫn ta viết
IND(B) thay cho INDA(B). Cuối cùng, quan hệ B - bất khả phân biệt phân
hoạch tập đối tượng U thành các lớp tương đương mà ta kí hiệu là U | IND(B)

1.4. Xấp xỉ tập hợp
Như trên đã nói, một quan hệ tương đương cho ta một sự phân hoạch
các đối tượng của tập vũ trụ. Các lớp tương đương này có thể được sử dụng
để tạo nên các tập con của tập vũ trụ. Các tập con này thường chứa các đối
tượng có cùng giá trị tại tập các thuộc tính quyết định. Trong trường hợp này
ta nói rằng các khái niệm, hay tập các giá trị tại tập các thuộc tính quyết định,
có thể được mô tả một cách rõ ràng thông qua tập các giá trị tại tập các thuộc
tính điều kiện.
Những khái niệm trên được thể hiện một cách hình thức như sau:
Cho hệ thông tin S = (U, A) , tập thuộc tính B ⊆ A, tập đối tượng X ⊆ U.
Chúng ta có thể xấp xỉ tập hợp X bằng cách chỉ sử dụng các thuộc tính trong
B từ việc xây dựng các tập hợp B - xấp xỉ dưới và B - xấp xỉ trên được định
nghĩa như sau :

6

• B - xấp xỉ dưới của tập X : B X = {x | [x]B ⊆ X }
• B - xấp xỉ trên của tập X : B X = {x | [x] B ∩ X ≠ ∅ }
Tập hợp BX là tập các đối tượng trong U mà sử dụng các thuộc tính
trong B ta có thể biết chắc chắn được chúng là các phần tử của X.
Tập hợp BX là tập các đối tượng trong U mà sử dụng các thuộc tính
trong B ta chỉ có thể nói rằng chúng có thể là các phần tử của X.
Tập hợp BNB(X) = B X \ BX được gọi là B - biên của tập X và chứa
những đối tượng mà sử dụng các thuộc tính của B ta không thể xác định được
chúng có thuộc tập X hay không.
Tập hợp U \ B X được gọi là B - ngoài của tập X, gồm những đối tượng
mà sử dụng tập thuộc tính B ta biết chắc chắn chúng không thuộc tập X.
Một tập hợp được gọi là thô nếu đường biên của nó là không rỗng,
ngược lại ta nói tập này là rõ. Lưu ý rằng do khái niệm biên của một tập đối

tượng gắn liền với một tập thuộc tính nào đó nên khái niệm thô hay rõ ở đây
cũng gắn liền với tập thuộc tính đó. Trong đa số trường hợp, người ta luôn muốn
hình thành các định nghĩa của các lớp quyết định từ các thuộc tính điều kiện.

Một số tính chất của các tập hợp xấp xỉ
1. B(X ) ⊆ X ⊆ B ( X)
2. B(∅) = B(∅) = ∅, B (U ) = B(U ) = U

3. B ( X ∪ Y ) = B ( X ) ∪ B ( Y )
4. B( X ∩ Y ) = B( X ) ∩ Β(Y )
5. Nếu X ⊆ Y thì B(X) ⊆ B(Y),B(X) ⊆ B(Y)
6. B( X ∪ Y ) ⊇ B( X ) ∪ B (Y)

7. B( X ∪ Y ) ⊆ B( X ) ∪ B(Y)
8. B(U \ X ) = U \ B(X)

7

9. B(U \ X ) = U \ B (X)
10. B ( B( X )) = B( B ( X )) = B( X )
11. B ( B( X )) = B ( B( X )) = B ( X )
Dựa vào ý nghĩa của các xấp xỉ trên và xấp xỉ dưới, người ta định nghĩa
bốn lớp cơ bản của các tập thô, hay bốn hình thức của sự mơ hồ (vagueness) :
(a) X được gọi là B - định nghĩa được một cách thô (roughly B definable) nếu và chỉ nếu B( X ) ≠ ∅ và B(X) ≠ U.
(b) X được gọi là B - không định nghĩa được một cách nội vi (internally
B - undefinable) nếu và chỉ nếu B( X ) = ∅ và B (X) ≠ U.
(c) X được gọi là B - không định nghĩa được một cách ngoại vi
(externally B - undefinable) nếu và chỉ nếu B (X) ≠ ∅ và B( X ) = U.
(d) X được gọi là B -không định nghĩa được một cách hoàn toàn

(totally B - undefinable) nếu và chỉ nếu B( X ) = ∅ và B( X ) = U
Các khái niệm trên có thể diễn tả như sau :
• X là B - định nghĩa được một cách thô nghĩa là: với sự giúp đỡ của

tập thuộc tính B ta có thể chỉ ra một số đối tượng của U thuộc về tập X và một
số đối tượng của U thuộc về U \ X.
• X là B - không định nghĩa được một cách nội vi nghĩa là: sử dụng tập

thuộc tính B ta có thể chỉ ra một số đối tượng của U thuộc về U \ X, nhưng lại
không thể chỉ ra được các đối tượng thuộc về X.
• X là B - không được định nghĩa một cách ngoại vi nghĩa là: sử dụng

tập thuộc tính B ta có thể chỉ ra một số đối tượng thuộc về X, nhưng không
chỉ ra các đối tượng thuộc về U \ X.
• X là B - không định nghĩa được một cách hoàn toàn nghĩa là: sử

dụng tập thuộc tính B ta không thể chỉ ra bất kỳ đối tượng nào của U thuộc về

8

X hay thuộc về U \ X.
Cuối cùng, một tập thô có thể được định lượng bởi hệ số
αB ( X ) =

B( X )
B( X )

được gọi là độ chính xác của xấp xỉ, trong đó |X| chỉ số phần tử của tập X. Rõ
ràng 0 < α B ( X ) < 1 . Nếu α B ( X ) = 1 thì X là rõ(chính xác) đối với tập thuộc

tính B. Ngược lại, nếu α B ( X ) < 1 thì X là thô (mơ hồ) đối với tập thuộc tính B.
Chúng ta kết thúc mục này với thuật toán xác định các xấp xỉ trên và
xấp xỉ dưới của một tập đối tượng theo một tập thuộc tính cho trước.
1.5. Sự không chắc chắn và hàm thuộc

Chúng ta đã biết BNB(X) là tập các đối tượng trong tập vũ trụ U mà
bằng cách sử dụng tập thuộc tính B ta không thể xác định được chắc chắn
chúng có thuộc tập đối tượng X hay không. Do đó, sự không chắc chắn trong
ngữ cảnh này gắn với một câu hỏi về độ thuộc (membership) của các phần tử
vào một tập hợp.
Trong lý thuyết tập hợp cổ điển, một phần tử hoặc là thuộc vào tập hợp
hoặc không. Như vậy hàm thuộc tương ứng là một hàm đặc trưng cho tập
hợp, nghĩa là hàm sẽ nhận giá trị 0 và 1 tương ứng.
Trong lý thuyết tập thô, hàm thuộc thô µ BX là khái niệm dùng để đo
mức độ thuộc của đối tượng x trong tập vũ trụ U vào tập các đối tượng
X ⊆ U , và được tính bởi mức độ giao nhau giữa tập X và lớp tương đương

[x]B mà đối tượng x thuộc về. Một cách hình thức, ta có:
µ BX : U → [0,1]
x

[x]B ∩ X
[x]B

Một số tính chất của hàm thuộc thô

9

1. µ BX (x) = 1 ⇔ x ∈ BX

2. µ BX (x) = 0 ⇔ x ∈ U − BX
3. 0 < µ BX (x) < 1 ⇔ x ∈ BN B ( X )
4. µ BX (x) = µ BX (y) Nếu (x,y)∈ IND(B)
5. µUB − X ( x) = 1 − µ BX ( x), ∀ x ∈ U
6. µ BX ∪Y ( x) = max(µ BX (x), µYB (x)), ∀ x ∈ U
7. µ BX ∩Y ( x) = min (µ BX (x), µYB (x)), ∀ x ∈ U
1.6. Sự phụ thuộc giữa các tập thuộc tính

Một vấn đề quan trọng trong phân tích dữ liệu là khám phá sự phụ
thuộc giữa các thuộc tính. Một cách trực giác, một tập thuộc tính D được cho
là phụ thuộc hoàn toàn vào tập thuộc tính C, ký hiệu C ⇒ D , nếu tất cả các
giá trị của các thuộc tính trong D có thể được xác định duy nhất bởi các giá trị
của các thuộc tính trong C. Nói cách khác, D phụ thuộc hoàn toàn vào C nếu
tồn tại một ánh xạ từ các giá trị của tập C tới các giá trị của tập D . Khái niệm
phụ thuộc thuộc tính được thể hiện dưới dạng hình thức như sau:
Cho C và D là các tập con của tập thuộc tính A. Ta nói D phụ thuộc C với độ
phụ thuộc k (0 ≤ k ≤ 1), kí hiệu C ⇒ k D nếu :
k = γ (C,D) =

POSc (D)
U

trong đó
POSC (D) =

∪

C( X )

X ∈U \ IND(D)

được gọi là C - vùng dương của D. Đây là tập các đối tượng của U mà bằng
cách sử dụng tập thuộc tính C ta có thể phân chúng một cách duy nhất vào các
phân hoạch của U theo tập thuộc tính D.

10

Dễ dàng thấy rằng :

γ (C,D) =

∑

X ∈U \ IND ( D )

CX
U

Nếu k = 1 thì ta nói D phụ thuộc hoàn toàn vào C, ngược lại nếu k < 1
thì ta nói D phụ thuộc một phần vào C với độ phụ thuộc k.
Có thể nhận thấy rằng nếu D phụ thuộc hoàn toàn vào C thì
IND(C) ⊆ IN D( D) Điều này có nghĩa là các phân hoạch tạo ra bởi tập thuộc

tính C mịn hơn các phân hoạch tạo ra bởi D .
1.7. Rút gọn thuộc tính
1.7.1. Khái niệm

Trong phần 1.3 chúng đã đề cập đến hai khả năng dư thừa trong một hệ

thông tin, đó là :
Các đối tượng giống nhau theo một tập thuộc tính đang quan tâm

được lặp lại nhiều lần.
Một số thuộc tính có thể được bỏ đi mà thông tin chúng ta đang quan

tâm do bảng quyết định cung cấp vẫn không bị mất mát.
Với trường hợp thứ nhất, khái niệm lớp tương đương hiển nhiên cho ta
một tiếp cận tự nhiên trong việc tinh giảm thông tin cần lưu trữ trong một hệ
thông tin: chỉ cần sử dụng một đối tượng để đại diện cho mỗi lớp tương
đương. Trong phần này chúng ta nghiên cứu tiếp cận cho loại dư thừa thông
tin thứ hai, đó là chỉ giữ lại những thuộc tính bảo toàn quan hệ bất khả phân
biệt, và do đó bảo toàn khả năng xấp xỉ tập hợp trong một hệ thống thông tin.
Xét hệ thông tin S = (U, A) và hai tập thuộc tính P, Q ⊆ A . Thuộc tính a ∈ P
được gọi là có thể bỏ được (dispensible) trong P nếu IND(P) = IND(P - {a}),
ngược lại ta nói a là không thể bỏ được(indispensible) trong P. Rõ ràng thuộc
tính có thể bỏ được không làm tăng / giảm khả năng phân loại khi có/ không
có mặt thuộc tính đó trong P. Tập tất cả các thuộc tính không thể bỏ được

11

trong P được gọi là lõi(core) của P, ký hiệu CORE(P). Lưu ý rằng lõi có thể là
tập rỗng, khi đó mọi tập con của P với lực lượng bằng card(P) - 1 đều giữ
nguyên khả năng phân loại của P.
Khi loại ra khỏi P một số thuộc tính có thể bỏ được thì ta được một tập
rút gọn của P. Nói cách khác, rút gọn của một tập thuộc tính P là tập thuộc

tính B ⊆ P giữ nguyên khả năng phân loại của P, hay IND(B) = IND(P). Dễ
dàng thấy rằng, vì lõi của P là tập các thuộc tính không thể bỏ được của P nên

tất cả các rút gọn của P đều chứa tập thuộc tính lõi.
Một rút gọn B của tập thuộc tính P được gọi là rút gọn hoàn toàn nếu
với mọi tập thuộc tính B ' ⊂ B , B' không là rút gọn của P. Như vậy rút gọn
hoàn toàn là tập thuộc tính nhỏ nhất trong tất cả các rút gọn có thể có của P và
được ký hiệu là RED(P) .
Tính chất: Tập thuộc tính lõi của P là giao của tất cả các rút gọn hoàn
toàn của P, tức là: CORE(P)=

∩ RED(P)

Thuộc tính a được gọi là Q - có thể bỏ được (Q – dispensible) trong P
nếu POSP(Q) = POSP−{a}(Q), ngược lại là Q - không thể bỏ được (Q
indispensible). Tập tất cả các thuộc tính Q - không thể bỏ được trong P được
gọi là Q - lõi tương đối (Q – relative core) của P hay Q - lõi (Q – core) của P
và được ký hiệu là COREQ(P).
Tập thuộc tính B ⊆ P được gọi là Q - rút gọn (Q – reduct) của P khi và
chỉ khi POSB(Q) = POSP(Q). Một tập Q - rút gọn B của P là Q - rút gọn hoàn
toàn nếu với mọi tập thuộc tính B ' ⊂ B , B' không là Q - rút gọn của P . Như
vậy, Q - rút gọn hoàn toàn của P là tập thuộc tính nhỏ nhất trong tất cả các Q rút gọn của P và được ký hiệu là REDQ(P).
Tính chất: Tập thuộc tính Q - lõi của P là giao của tất cả các tập thuộc tính Q rút gọn tương đối của P, tức là : COREQ(P) = ∩ REDQ(P).

12

1.7.2. Ma trận phân biệt và hàm phân biệt

Phần trên cung cấp các khái niệm về rút gọn thuộc tính trong một hệ
thông tin, tuy nhiên chúng chưa thật sự rõ nét và trực quan. Trong phần này
chúng ta sẽ thấy được bản chất của một rút gọn của tập thuộc tính.
Xét hệ thông tin A = (U, A) có n đối tượng. Ma trận phân biệt của A là

ma trận đối xứng kích thước nxn có các phần tử cij được cho như sau:
cij = {a ∈ A| a( xi) ≠ a( xj)} với i, j = 1,2,..., n
Như vậy mỗi phần tử cij của ma trận phân biệt là tập hợp các thuộc tính để
phân biệt hai đối tượng xi và xj.
1.8 Cơ sở dữ liệu quan hệ theo cách tiếp cận của lý thuyết tập thô

Mô hình cơ sở dữ liệu quan hệ thô là một mở rộng của mô hình cơ sở
dữ liệu quan hệ kinh điển của codd. Lý thuyết tập thô ngày càng chứng tỏ là
một công cụ tốt cho việc quản lý tính không chắc chắn trong rất nhiều ứng
dụng rộng rãi, trong đó có các cơ sở dữ liệu thô. Vậy cơ sở dữ liệu quan hệ
thô khác cơ sở dữ liệu thông thường ở những điểm nào, các phép toán của đại
số quan hệ (các toán tử quan hệ) được mở rộng như thế nào trong cơ sở dữ
liệu quan hệ thô, dưới đây là một số giới thiệu ngắn gọn về mô hình cơ sở dữ
liệu quan hệ thô. Nó giữ được tất cả các tính chất thiết yếu của lý thuyết tập
thô bao gồm tính không phân biệt được của các phần tử, được ký hiệu bởi các
lớp tương đương và các miền xấp xỉ trên và dưới đối với tập định nghĩa,
không định nghĩa được theo tính không phân biệt được.
Năm 1994 Beaubouef, T. Và Petry, F. E trên cơ sở sử dụng các khái
niệm quan hệ không phân biệt được(quan hệ tương đương) và không gian xấp
xỉ của lý thuyết tập thô đã mở rộng cơ sở dữ liệu quan hệ kinh điển thành cơ
sở dữ liệu quan hệ thô.
Cơ sở dữ liệu quan hệ thô có nhiều đặc điểm chung với cơ sở dữ liệu
quan hệ thông thường: cả hai mô hình đều biểu diễn dữ liệu dưới dạng môt
tập các quan hệ chứa các bộ. Các bộ trong một quan hệ là không có thứ tự và
không được giống nhau:

13

Trong cơ sở dữ liệu quan hệ thô, một bộ thô Ti ∈ R(A1,A2, A3…An) có

dạng Ti= (di1,di2,di3,…din) với dij ⊆ Dom(Aj), dịj ≠ ∅ ∀ j= 1,2,3..n
Gọi Dj là Dom(Aj), và ký hiệu P(Dj)= 2

D j −∅

trong đó 2

Dj

là tập lũy thừa của

Dj( là họ tất cả các tập con của Dj).
Từ đó ta có thể định nghĩa các khái niệm: quan hệ thô, một thể hiện của một
bộ thô, các bộ dư thừa của nhau và các phép toán của đại số quan hệ thô.
1.8.1 Các phép toán đại số trên quan hệ thô
Định nghĩa 1

Một quan hệ thô r (A1, A2, ...An) là một tập con của tích Đề các P(D1) x
P(D2)x...xP(Dn).
Từ đó, nếu ti là một bộ của r, thì ta có thể viết dưới dạng ti =(di1, di2,
...din), trong đó dij ⊆ D j , ∀ j = 1,2,...n.
Định nghĩa 2

Một thể hiện α = (a1 ,..., an ) của một bộ thô Ti = (di1 , di 2 ,...din ) là một
phép gán giá trị bất kỳ sao cho a j ∈ dij với mọi j=1,2...n.
Trên miền giá tri của mỗi thuộc tính Aj xác định một quan hệ tương
đương (được chỉ định bởi người thiết kế cơ sở dữ liệu hay người dùng). Như
vậy, trong mỗi miền trị, các giá trị thuộc cùng một lớp tương đương là không
phân biệt được và trong tìm kiếm cơ chế hỏi sẽ sử dụng lớp tương đương thay
cho sự bằng nhau của các giá trị như đã dùng trong cơ sở dữ liệu quan hệ

thông thường.
Gọi [dij] là lớp tương đương chứa dij. Nếu dij = {b1 ,..., bm } thì
⎡⎣ dij ⎤⎦ = [b1 ] ∪ [b2 ] ∪ ... ∪ [bm ] , là hợp của các lớp tương đương của các phần tử

thuộc tập dij. Trường hợp nếu b1, b2, ..., bm cùng thuộc một lớp tương đương
(được xác định bởi một quan hệ tương đương nào đó trên Dj) thì [dij]=[bl] với
l ∈ {1,2,..., m} .

14

Định nghĩa 3

Hai bộ Ti=(di1, di2,...,din) và Tk=(dk1, dk2,...,dkn) được gọi là dư thừa của
nhau nếu [dij]=[dkj] và với mọi j = 1, 2, 3...n.
Trong một quan hệ thô không có các bộ dư thừa của nhau. Quá trình trộn các
bộ dư thừa của nhau thành một bộ sẽ tiến hành xóa các bộ dư thừa vì các bộ
dư thừa không được phép tồn tại trong tập. Tuy nhiên, cũng có thể có nhiều
hơn một bộ cùng một thể hiện.
Hiệu của hai quan hệ thô

Cho X và Y là hai quan hệ khả hợp được hiểu theo nghĩa của mô hình
dữ liệu. Hiệu giữa X và Y, ký hiệu X – Y là một quan hệ T, trong đó
RT = {t | (t ∈ RX ) và ( t ∉ RY )} , trong đó RT là xấp xỉ dưới của T

{

(

RT = t | (t ∈ RX ) và t ∉ RY

)} , trong đó RT

là xấp xỉ trên của T

Như vậy, RT chứa các bộ thuộc xấp xỉ dưới của X, không dư thừa với một bộ
nào xấp xỉ dưới của Y.
Tương tự như vậy đối với RT
Ví dụ : cho các quan hệ X và Y chứa các bộ thuộc tính ngày tháng, thời tiết và
lượng mây, trong đó ký hiệu các bộ của miền xấp xỉ dưới bằng dấu *.
X= ( Nắng, ít mây)*

Y= (Nắng, ít mây)*

( mưa, nhiều mây)*

(mưa, ít mây)*

( Nắng, nhiều mây)

(Nắng, nhiều mây)

( âm u, nhiều mây)

(âm u, ít mây)

Hiệu của X - Y chứa các bộ (6/9, mưa, nhiều mây)* và (8/9, âm u,
nhiều mây). Các phép toán khác tương tự.
Hợp của hai quan hệ thô

Cho X và Y là hai quan hệ thô khả hợp.
Hợp của X và Y, ký hiệu là X ∪ Y là một quan hệ thô T trong đó

15

RT = {t | (t ∈ RX ) hoặc t ∈ RY )},
và RT = {t| (t ∈ RX) hoặc t ∈ RY )}.
Giao của hai quan hệ thô

Cho X và Y là hai quan hệ thô khả hợp.
Giao của X và Y, ký hiệu là X ∩ Y là một quan hệ thô T trong đó

RT = {t | (t ∈ RX ) hoặc t ∈ RY )},
và RT = {t| (t ∈ RX) hoặc t ∈ RY )}.
Phép chọn trên một quan hệ thô

Cho X là một quan hệ xác định trên một tập thuộc tính có chứa A,
a={ai} trong đó ai ∈ Dom( A)
Phép chọn khối thô trên X, ký hiệu σ A=a (X) là một quan hệ thô T có
cùng lược đồ như X, trong đó:

RT = {t | (t ∈ RX ) và (∪ [a i ]= ∪ [b j ])} , ở đây ai ∈ a, b j ∈ t[A]
i

j

Và RT = {t | (t ∈ RX ) và (∪ [a i ]= ∪ [b j ])} , ở đây ai ∈ a, b j ∈ t[A]
i

j

Phép chiếu

Cho X là một quan hệ xác định trên tập thuộc tính {A1,A2,A3...An} và

B ⊆ {id,A1 ,A 2 ,...A n }
Phép chiếu của X lên B, ký hiệu là

∏

B

X là một quan hệ T với lược

đồ T(B) trong đó: T ( B ) = { t [ B ] | t ∈ X }
Trong trường hợp, sau khi chiếu nếu có hai bộ dư thừa trong đó một bộ
thuộc xấp xỉ dưới và một bộ thuộc xấp xỉ trên thì bộ thuộc xấp xỉ dưới được
giữ lại.
Phép kết nối bằng trên các thuộc tính giống nhau

Cho X(A1, A2, A3...,Am) và Y(B1, B2, ...,Bn) là hai quan hệ, với A={A1,
A2, A3...,Am} và B={B1, B2, ...,Bn}

16

Kết nối bằng của hai quan hệ X và Y, ký hiệu là X

Y là quan hệ

T (A1 ,A 2 ,...A m ,B1 ,B2 ...Bn ) trong đó
RT = {t = (u, v) | u ∈ R X, v ∈ RY , u[A ∩ B]=v[A ∩ B],
RT = {t=(u,v)|u ∈ RX,v ∈ RY,(u[A ∩ B] ⊆ V [A ∩ B] ∨ (v[A ∩ B]) ⊆ u[A ∩ B])}.
Chú ý:

1. Tính không phân biệt được trong cơ sở dữ liệu quan hệ có thể được
biểu diễn bởi một quan hệ phụ trợ theo nghĩa thông thường. Mỗi bộ của quan
hệ này tương ứng với một giá trị dij có thể có cho mỗi miền trị Dj và được
ghép cặp với một định danh tùy ý của tính không phân biệt được và là duy
nhất với mọi lớp tương đương.
2. Với mỗi quan hệ, cần có một cơ chế đánh dấu để phân biệt các bộ
thuộc xấp xỉ dưới với các bộ thuộc xấp xỉ trên.
3. Trong phép chọn σ A=a (X) trên quan hệ X được định nghĩa là

σ A=a (X) =T
Với RT = {t | (t ∈ RX ) và (∪ [a i ]= ∪ [b j ])} , ở đây ai ∈ a, b j ∈ t[A]
i

j

Và RT = {t | (t ∈ RX ) và (∪ [a i ]= ∪ [b j ])} , ở đây ai ∈ a, b j ∈ t[A]
i

j

1.8.2 Một số tính chất của các toán tử quan hệ thô
Tính chất đóng của các toán tử quan hệ thô

Theo định nghĩa của các toán tử quan hệ thô (các toán tử một ngôi và

các toán tử hai ngôi) đều cho kết quả là một quan hệ.
Tính chất phân bố của phép chọn đối với các phép hợp, giao và
hiệu

Định lý:
Cho r (A1, A2, A3...,An) và s(A1, A2, A3...,An) thì

σ A = a (rθ s ) = σ A
j0

j 0 =a

(r )θσ Aj 0 =a ( s )

17

Với θ ∈{∪, ∩, −};A j 0 ∈{A1 ,...A n }
Chứng minh: trường hợp θ = ∪

σ A =a (r ∪ s) = σ A
j0

j 0 =a

(T) với T = r ∪ s

Theo định nghĩa phép hợp ta có

RT = {t | (t ∈ R r ∪ R s} và RT = {t | (t ∈ R r ∪ R s}

Từ đó theo định nghĩa phép chọn:

σA

j 0 =a

(T) = Q trong đó

R Q = {t | (t ∈ R r ∪ R s) ∧ (∪ [a i ]= ∪ [b j ])},a i ∈ a, b j ∈ t[A j 0 ]
i

j

Và

R Q = {t | (t ∈ R r ∪ R s) ∧ (∪[a i ] ⊆ ∪[b j ])},a i ∈ a, b j ∈ t[A j 0 ]
i

j

Dễ thấy là:

R Q = {t | (t ∈ R r) ∧ (∪ [a i ]= ∪[b j ])} ∪ {t | (t ∈ Rr) ∧ (∪ [a i ]= ∪ [b j ])}
i

j

i

j

Và

R Q = {t | (t ∈ R r) ∧ (∪ [a i ] ⊆ ∪ [b j ]) ∪ {t | (t ∈ R s) ∧ (∪ [a i ] ⊆ ∪[b j ]}
i

j

i

j

Suy ra

σA

j 0 @= @a

(r ∪ s ) = Q = σ Aj 0 =a ({t|t ∈ r}) ∪ σ Aj 0 =a ({t | t ∈ s}) = σ Aj 0 =a (r) ∪ σ Aj 0 =a ( s )
Trường hợp θ = −
Ta có: σ Aj 0 @=@a (r ∪ s ) = σ Aj 0 @= @a (T) với T = r-s
Theo định nghĩa của phép – ,ta có:

RT = {t | (t ∈ R r) ∧ (t ∉ Rs)} và RT = {t | (t ∈ R r) ∧ (t ∉ Rs)}
Từ đó theo định nghĩa của phép chọn:

σA

j 0 @= @a

(T) = Q, trong đó

R Q = {t | (t ∈ R r − R s) ∧ (∪ [a i ]= ∪ [b j ])} , ai∈ a, bj∈ t[Aj0]}
i

j

18

Và

R Q = {t | (t ∈ R r − R s) ∧ (∪ [a i ]= ∪ [b j ])} , ai∈ a, bj∈ t[Aj0]}
i

j

Dễ thấy là

R Q = {t | (t ∈ R r) ∧ (∪[a i ]= ∪[b j ])}-{t | (t ∈ R s) ∧ (∪[a i ]= ∪[b j ])}
i

j

i

j

và

R Q = {t | (t ∈ R r) ∧ (∪[a i ]= ∪[b j ])}-{t | (t ∈ R s) ∧ (∪[a i ]= ∪[b j ])}
i

j

i

j

Suy ra:

σA

j 0 @= @a

(r − s ) = Q = σ Aj 0@= @a {t|t ∈ r})-σ Aj 0 @= @a ({t|t ∈ r})=σ Aj 0 @= @a (r ) − σ Aj 0 @= @a ( s )
Tính chất của một dãy liên tiếp các phép chiếu một quan hệ trên

các tập thuộc tính lồng nhau

Định lý: cho Cho r (A1, A2, A3...,An) là một quan hệ
Và X 1 ⊆ X 2 ⊆ X 3 ⊆ ... ⊆ X m là một dãy các tập con của {A1, A2,
A3...,An}. Khi đó:

∏ (∏
X1

X2

(...(∏ X m (r))...)) = ∏ X1 (r )

Chứng minh: ta chứng minh theo quy nạp
Trước hết ta chứng minh cho trường hợp m=2
Cụ thể ta cần chứng minh

∏ (∏ (r )) = ∏
Đặt ∏ (r ) = S
X1

X2

X1

(r ) với X 1 ⊆ X 2 ⊆ {A1 ,A 2 ...A n }.

X2

Theo định nghĩa của phép chiếu, s có lược đồ s(X2) và s(X2)={t[X2]|t∈
r}. Đồng thời, sau khi loại bỏ khỏi r các thuộc tính(cột) không thuộc s, nếu có
hai bộ t1 ∈ Rr , t2 ∈ Rr sao cho t1[X2] và t2[X2] là các bộ dư thừa của nhau thì
bộ t1[X2] được giữ lại trong hình chiếu.
Với các thao tác như vậy, rõ ràng vế trái và vế phải của

19

∏ (∏
X1

X2

(r )) = ∏ X1 (r ) với X 1 ⊆ X 2 ⊆ {A1 ,A 2 ...A n }.

Là hai quan hệ sao cho mỗi bộ của vế trái là dư thừa với một và chỉ một
bộ của vế phải và ngược lại. Ngoài ra, vết của các bộ thuộc xấp xỉ dưới của r
vẫn được bảo toàn. Như vậy đẳng thức trên được chứng minh. Việc mở rộng
đẳng thức trên với m=3...m để có định lý là khá hiển nhiên.
Tính chất của phép chọn theo một điều kiện hội

Định lý: Cho r (A1, A2, A3...,An) là một quan hệ . Khi đó:

σ(A

j 0 @= @a

(0) ∧ A

jt = a

(1) )

(r ) = σ(A

j 0 @= @a

(0)

(σ ( A

j 1@= @a

(1)

(r )) = σ ( A

j 1@= @a

(1)

(σ ( A

j 0 @= @a

(0)

(r )),

Trong đó Aj 0 , Aji ∈{A1 , A2 , A3 ..., An } và Aj 0 ≠ Aji
Chứng minh:
Gọi σ ( A j 0 @= @a (0) ∧ A jt = a (1 ) ) ( r ) = T
Theo định nghĩa của phép chọn,

RT = {t | (t ∈ R r) ∧ (∪ [a i (0) ] = ∪ [b j (0) ]) ∧ (∪ [a i (1) ] = ∪ [b j (1) ])}.
i

j

i

j

a i (0) ∈ a(0), a i (1) ∈ a(1), b j (0)∈ t[A j0 ], b j (1)∈ t[A j1 ].
RT = {t | (t ∈ R r) ∧ (∪ [a i (0) ] ⊆ ∪ [b j (0) ]) ∧ (∪ [a i (1) ] ⊆ ∪ [b j (1) ])}.
i

j

i

j

a i (0) ∈ a(0), a i (1) ∈ a(1), b j (0)∈ t[A j0 ], b j (1)∈ t[A j1 ].
Từ đó,
T = σ(A

j 0 @= @a

(0)

(σ ( A

j 1@= @a

(1)

(r )) = σ ( A

j 1@= @a

(1)

(σ ( A

j 0 @= @a

(0)

(r ))

Định lý được chứng minh
Phép chọn trên một số kết nối bằng của hai quan hệ

Định lý: Cho r (A1, A2, A3...,An) và s(B1, B2, B3...,Bn) là các quan hệ
với A={A1, A2, A3...,Am} và B= {B1, B2, B3...,Bm}. Khi đó

σ(A

j 0 @= @a

( 0 ) ∧ B = (1) )
k1 a

(r

s) = σ(A

j 0 @= @a

(0)

(r)

σB

k1 = a

(1)

( s ),

20

Trong đó Aj0 ∈ A − A ∩ B,Bk1 ∈ B − A ∩ B, Còn

là phép kết nối bằng trên

A∩ B ≠ ∅
Chứng minh:
Gọi vế trái của định lý trên là T ta có:

RT = {t | (t ∈ R r) ∧ (u ∈ Rr ) ∧ (v ∈ Rs ) ∧ (u[A ∩ B]) = v[A ∩ B])
∧(∪[a i (0) ] = ∪[b j (0) ]) ∧ (∪ [a i (1) ] = ∪[b j (1) ])}.
i

j

i

j

Với a i (0) ∈ a(0) , b j (0)∈ t[A j0 ], a i (1) ∈ a(1), b j (1)∈ t[Bk1 ]. và
RT = {t | (t = (u , v) ∧ (u ∈ Rr ) ∧ (v ∈ Rs) ∧ (u[A ∩ B ]) ⊆ v[A ∩ B])
∨ (v[A ∩ B] ⊆ u[A ∩ B])) ∧ (∪[a i (0) ] ⊆ ∪[b j (0) ]) ∧ (∪ [a i (1) ] ⊆ ∪[b j (1) ])}.
i

j

i

j

Với a i (0) ∈ a(0) , b j (0)∈ t[A j0 ], a i (1) ∈ a(1), b j (1)∈ t[Bk1 ].
Gọi vế phải của định lý trên là Z ta dễ thấy RZ = RT và RZ = RT
Ở đây sự bằng nhau của hai quan hệ thô được hiểu theo nghĩa mỗi bộ
của quan hệ thứ nhất dư thừa với một và chỉ một bộ của quan hệ thứ hai và
ngược lại.
Định lý được chứng minh.

Mô hình dữ liệu dạng khối theo cách tiếp cận tập thô (LV01173)

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về