Tải bản đầy đủ (.pdf) (116 trang)

Thiết kế cơ sở dữ liệu theo mô hình anchor modeling cho hệ thống quản lý thảm thực vật

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (7.4 MB, 116 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƢỜNG ĐẠI HỌC SƢ PHẠM

DƢƠNG THỊ MINH ÁNH

THIẾT KẾ CƠ SỞ DỮ LIỆU
THEO MƠ HÌNH ANCHOR MODELING
CHO HỆ THỐNG QUẢN LÝ THẢM THỰC VẬT

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Đà Nẵng – Năm 2017


ĐẠI HỌC ĐÀ NẴNG
TRƢỜNG ĐẠI HỌC SƢ PHẠM

DƢƠNG THỊ MINH ÁNH

THIẾT KẾ CƠ SỞ DỮ LIỆU
THEO MƠ HÌNH ANCHOR MODELING
CHO HỆ THỐNG QUẢN LÝ THẢM THỰC VẬT

Chuyên ngành: HỆ THỐNG THÔNG TIN
Mã số: 61.49.01.04

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Ngƣời hƣớng dẫn khoa học: TS. NGUYỄN TRẦN QUỐC VINH

Đà Nẵng – Năm 2017




i

LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu của riêng tôi dưới sự
hướng dẫn trực tiếp của TS. Nguyễn Trần Quốc Vinh.
Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác
giả, tên cơng trình, thời gian, địa điểm cơng bố.
Tơi xin chịu hồn tồn trách nhiệm về mọi sao chép khơng hợp lệ, vi
phạm quy chế đào tạo hay gian trá nếu có.
Tác giả

Dƣơng Thị Minh Ánh


ii

MỤC LỤC

DANH MỤC CÁC CHỮ VIẾT TẮT ............................................................iv
DANH MỤC CÁC BẢNG BIỂU .................................................................... v
DANH MỤC CÁC HÌNH VẼ....................................................................... vii
MỞ ĐẦU ........................................................................................................... 1
1. Lý do chọn đề tài ................................................................................. 1
2. Mục tiêu và nhiệm vụ đề tài ................................................................ 3
3. Đối tƣợng và phạm vi nghiên cứu ....................................................... 3
4. Phƣơng pháp nghiên cứu ..................................................................... 4
5. Mục đích và ý nghĩa của đề tài ............................................................ 4
6. Bố cục luận văn.................................................................................... 5

CHƢƠNG 1. TỔNG QUAN VỀ MƠ HÌNH ANCHOR ............................... 6
1.1. GIỚI THIỆU ............................................................................................... 6
1.2. CƠ SỞ DỮ LIỆU THỜI GIAN .................................................................. 7
1.2.1. Khái niệm cơ sở dữ liệu có yếu tố thời gian .................................. 7
1.2.2. Thời gian thay đổi .......................................................................... 9
1.2.3. Thời gian ghi .................................................................................. 9
1.2.4. Thời gian diễn ra .......................................................................... 10
1.3. CƠ SỞ DỮ LIỆU CHUẨN HÓA Ở MỨC THẤP ................................... 10
1.4. DỮ LIỆU TIẾN HĨA ............................................................................... 11
1.5. MƠ HÌNH HĨA DỮ LIỆU VỚI ANCHOR MODELING ...................... 12
1.6. NHỮNG KHÁI NIỆM CƠ BẢN VỀ MƠ HÌNH HĨA AM .................... 14
1.6.1. Tập thực thể (Anchor).................................................................. 16
1.6.2. Giới hạn (Knot) ............................................................................ 16
1.6.3. Thuộc tính (Attribute) .................................................................. 17
1.6.4. Mối quan hệ (Tie) ........................................................................ 19
1.6.5. Qui ƣớc đặt tên............................................................................. 24
1.7. TRUY CẬP DỮ LIỆU .............................................................................. 26


iii

1.8. KẾT CHƢƠNG 1 ...................................................................................... 28
CHƢƠNG 2. ĐA DẠNG THỰC VẬT .......................................................... 29
2.1. TỔNG QUAN VỀ ĐA DẠNG THỰC VẬT ............................................ 29
2.2. QUẢN LÝ THÔNG TIN ĐA DẠNG THỰC VẬT ................................. 29
2.2.1. Yêu cầu ........................................................................................ 29
2.2.2. Thực trạng .................................................................................... 30
2.2.3. Đề xuất giải pháp ......................................................................... 30
2.3. PHÂN TÍCH VÀ THIẾT KẾ CƠ SỞ DỮ LIỆU THEO MƠ HÌNH
THỰC THỂ KẾT HỢP .................................................................................... 31

2.3.1. Phân tích....................................................................................... 31
2.3.2. Mơ hình thực thể kết hợp ............................................................. 32
2.3.3. Mơ hình dữ liệu quan hệ .............................................................. 35
2.4. KẾT CHƢƠNG 2 ...................................................................................... 41
CHƢƠNG 3. CSDL THEO MƠ HÌNH ANCHOR CHO HỆ THỐNG
QUẢN LÝ THẢM THỰC VẬT TRÊN NỀN GIS ...................................... 43
3.1. THIẾT KẾ CƠ SỞ DỮ LIỆU THEO MƠ HÌNH ANCHOR ................... 43
3.1.1. Xác định các thuộc tính và mối quan hệ ...................................... 43
3.1.2. Thiết kế CSDL theo mơ hình Anchor .......................................... 49
3.2. XÂY DỰNG KỊCH BẢN CHUYỂN ĐỔI CƠ SỞ DỮ LIỆU ................. 49
3.3. MÔ HÌNH HỆ THỐNG QUẢN LÍ ĐA DẠNG THỰC VẬT .................. 53
3.3.1. Ngun lý hoạt động .................................................................... 54
3.3.2. Mơ hình hoạt động của hệ thống ................................................. 54
3.3.3. Sơ đồ phân cấp chức năng của hệ thống ...................................... 55
3.4. THỬ NGHIỆM VÀ ĐÁNH GIÁ .............................................................. 57
3.5. KẾT CHƢƠNG 3 ...................................................................................... 60
TÀI LIỆU THAM KHẢO ............................................................................. 63
PHỤ LỤC
QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (BẢN SAO)


iv

DANH MỤC CÁC TỪ VIẾT TẮT
STT

Viết tắt

Diễn giải


1.

AM

Anchor Modeling

2.

CSDL

Cơ sở dữ liệu

3.

VQG

Vƣờn quốc gia

4.

KBT

Khu bảo tồn


v

DANH MỤC CÁC BẢNG BIỂU
Số


Tên bảng

hiệu

Trang

3.1

Danh mục các tập thực thể

37

3.2

Mơ tả thuộc tính của Ngành

38

3.3

Mơ tả thuộc tính của Lớp

38

3.4

Mơ tả thuộc tính của Bộ

38


3.5

Mơ tả thuộc tính của Họ

38

3.6

Mơ tả thuộc tính của Giống

38

3.7

Mơ tả thuộc tính của Khu-Bảo-Tồn

39

3.8

Mơ tả thuộc tính của Lồi

39

3.9

Mơ tả thuộc tính của Thơng-tin-phân-bố-thực-vật

40


3.10 Mơ tả thuộc tính của Quận-Huyện

40

3.11 Mơ tả thuộc tính của Phƣờng-Xã

40

3.12 Mơ tả thuộc tính của Nhóm

41

3.13 Mơ tả thuộc tính của Tài-Khoản

41

3.14 Mơ tả thuộc tính của Quyền

41

3.1

Mơ tả thuộc tính của Ngành

43

3.2

Mơ tả thuộc tính của Lớp


43

3.3

Mơ tả thuộc tính của Bộ

44

3.4

Mơ tả thuộc tính của Họ

44

3.5

Mơ tả thuộc tính của Giống

44

3.6

Mơ tả thuộc tính của Lồi

45

3.7

Mơ tả thuộc tính của Thơng-tin-phân-bố-thực-vật


46

3.8

Mơ tả thuộc tính của Nhóm

46

3.9

Mơ tả thuộc tính của Khu-Bảo-Tồn

47


vi

Số
hiệu

Tên bảng

Trang

3.10 Mơ tả thuộc tính của Quận-Huyện

47

3.11 Mơ tả thuộc tính của Phƣờng-Xã


47

3.12 Mơ tả thuộc tính của Tài-Khoản

48

3.13 Mơ tả thuộc tính của Quyền

48

3.14 Các mối quan hệ

49

3.15 Một số trƣờng hợp tiêu biểu cho kịch bản chuyển đổi CSDL

51

3.16 Sự thay đổi dữ liệu phân bố thực vật theo thời gian

59


vii

DANH MỤC CÁC HÌNH VẼ
Số

Tên hình


hiệu

Trang

1.1

Mơ hình hóa tập thực thể

15

1.2

Kí hiệu tập thực thể

17

1.3

Các mối quan hệ

20

1.4

Qui ƣớc đặt tên thực thể

25

1.5


Khung nhìn cuối

27

1.6

Hàm theo thời điểm

27

2.1

Mơ hình thực thể kết hợp

34

2.2

Mơ hình dữ liệu quan hệ

36

3.1

Mơ hình Anchor

50

3.2


Mơ hình hệ thống trên nền GIS

53

3.3

Mơ hình hoạt động của hệ thống

55

3.4

Biểu đồ chức năng của hệ thống

56

3.5

Kết quả tìm kiếm trong bối cảnh 8:25 ngày 9/9/2000

57

3.6

Kết quả tìm kiếm trong bối cảnh 4:50 ngày 5/4/2013

58


1


MỞ ĐẦU
1. Lý do chọn đề tài
Vấn đề xây dựng cơ sở dữ liệu ứng dụng cho mơ hình quản lý thảm thực
vật đóng một vai trị rất quan trọng. Bởi theo quan điểm sinh thái học, thảm
thực vật là tấm gƣơng phản ánh khách quan các điều kiện tự nhiên, nhân tố
môi trƣờng. Đồng thời là thành phần quan trọng của sinh quyển. Thực vật
khơng những là một nhóm yếu tố tự nhiên quan trọng của lớp vỏ địa lý mà
cịn là nguồn tài ngun có giá trị, cung cấp nguyên vật liệu đáp ứng nhu cầu
sống của con ngƣời.
Đặc biệt xây dựng cơ sở dữ liệu (CSDL) có sự tham gia về yếu tố thời
gian để phản ánh quá trình sinh trƣởng và phát triển, đảm bảo cho bảo tồn
sinh học đã và đang là vấn đề đƣợc nhiều nhà nghiên cứu hiện nay quan tâm.
Có nhiều mơ hình phân tích và thiết kế CSDL truyền thống đã đƣợc giới
thiệu. Tuy nhiên, khi đặt vấn đề CSDL có yếu tố thời gian đã nảy sinh ra
nhiều hƣớng nghiên cứu ứng dụng nhằm đề xuất các hƣớng sử dụng hợp lý,
bền vững thảm thực vật, bảo tồn đa dạng sinh học và quy hoạch môi trƣờng.
Sự phát triển hƣớng nghiên cứu này đặc biệt đƣợc quan tâm trong các KBT
(KBT) và các vƣờn quốc gia (VQG), nơi nguồn gen tự nhiên cịn phong phú,
đa dạng.
Dựa trên các cơng trình nghiên cứu về thảm thực vật [26],[1],[2]. Các
CSDL này đã đƣợc tiến hành qua nhiều giai đoạn và diễn biến theo thời gian,
số liệu ngày càng đƣợc bổ sung theo thời gian nhƣng chƣa có một cơng trình
nghiên cứu tổng thể và thống nhất với các cơng trình trƣớc đó nên số liệu về
thảm thực vật khác nhau theo các công bố khác nhau. Các CSDL này phải
đƣợc tổ chức và sắp xếp lại sao cho hợp lý hơn.
Hơn nữa, các thao tác dữ liệu truyền thống chỉ cho phép truy cập dữ liệu
ở thời điểm hiện tại, không thể truy cập đến các phiên bản dữ liệu trong quá



2
khứ [17].Đặc biệt, các thao tác cập nhật (update) dữ liệu xóa giá trị cũ và thay
vào đó bằng giá trị mới, thao tác xóa (delete) dữ liệu thực hiện xóa hồn tồn
bản ghi từ CSDL. Trong khi đó CSDL thời gian lại lƣu dữ liệu trong q trình
tiến hóa và cho phép tìm kiếm lịch sử trên đó. Cụ thể, CSDL thời gian cho
phép truy cập đến dữ liệu ở thời điểm cuối cùng hoặc tại một thời điểm bất kỳ
trong quá khứ hoặc truy cập đến lịch sử thay đổi dữ liệu trong một khoảng
thời gian nào đó. Dữ liệu phụ thuộc vào thời gian và thời điểm thay đổi dữ
liệu phải đƣợc ghi lại.
Ngày nay, phƣơng pháp mơ hình hố hệ thống Anchor [14] cho phép mơ
hình hố các hệ thống lớn cần lƣu lại tính lịch sử của dữ liệu. Phƣơng pháp
này ra đời nhằm giải quyết đƣợc các hạn chế về việc lƣu trữ các dữ liệu lịch
sử của các phƣơng pháp mơ hình hố hệ thống khác nhƣ UML, ERM, FCOIM... Bộ công cụ Anchor Modeler tự động sinh CSDL thời gian Anchor cho
các hệ quản trị CSDL quan hệ đảm bảo tính tồn vẹn của CSDL. Ứng dụng
của bộ công cụ này rất lớn khi nó đƣợc áp dụng vào các hệ thơng thông tin
lớn, nơi dữ liệu lịch sử rất quan trọng, nhƣ đa dạng hệ sinh học, ngân hàng,
bảo hiểm, hàng khơng, chứng khốn….
Trên quan điểm xây dựng một bộ số liệu cập nhật chính xác, thống nhất
làm cơ sở cho việc đánh giá, rà sốt tính đa dạng của thảm thực vật về mặt đa
dạng loài, đa dạng giá trị sử dụng, dạng sống và tình trạng bảo tồn của các
lồi thực vật nhằm phục vụ cơng tác quản lý bảo tồn hệ sinh thái rừng có hiệu
quả hơn.
Nhƣ vậy, thiết kế CSDL thời gian theo mơ hình Anchor (Anchor
Modeling - AM) cho phép truy cập đến dữ liệu toàn cảnh ở bất kỳ thời điểm
nào trong quá khứ, cung cấp cơ chế mở rộng khơng hủy, theo đó cho phép
khả năng quản trị thay đổi dữ liệu rất mạnh và mềm dẻo là cần thiết cho hệ
thống quản lý thảm thực vật hiện nay là cấp thiết.


3

Xuất phát từ những lý do trên đƣợc sự đồng ý và hƣớng dẫn của TS.
Nguyễn Trần Quốc Vinh, tôi chọn đề tài “Thiết kế cơ sở dữ liệu theo mơ
hình Anchor Modeling cho hệ thống quản lý thảm thực vật” để làm luận
văn thạc sỹ.
2. Mục tiêu và nhiệm vụ đề tài
 Mục tiêu
- Nghiên cứu về AM.
- Thiết kế đƣợc CSDL thời gian cho hệ thống quản lý thảm thực vật.
- Xây dựng đƣợc hệ thống quản lí thảm thực vật minh hoạ.
 Nhiệm vụ
- Tìm và đọc tài liệu về AM.
- Khai thác các công cụ hỗ trợ xây dựng CSDL theo AM.
- Xây dựng CSDLcho hệ thống quản lý thảm thực vật theo AM.
- Xây dựng hệ thống thông tin quản lý thảm thực vật sử dụng CSDL theo
thời gian cho phép tìm kiếm dữ liệu về thảm thực vật theo bối cảnh thời gian.
3. Đối tƣợng và phạm vi nghiên cứu
 Đối tƣợng nghiên cứu
- Mơ hình AM.
- Thảm thực vật.
- Hệ thống thơng tin quản lý.
- GIS.
 Phạm vi nghiên cứu
- Xây dựng CSDL phục vụ quản lý thảm thực vật, thử nghiệm cho một
số loài trong sách đỏ khu vực Đà Nẵng.
- Sử dụng hệ quản trị CSDL SQL Server để quản lý CSDL đƣợc thiết kế
theo AM.
- Dữ liệu GIS đƣợc quản lý trên nền geoServer.
- Hệ thống thông tin quản lý thảm thực vật trên nền GIS cho phép tìm



4

kiếm và hiển thị kết quả theo bối cảnh thời gian.
4. Phƣơng pháp nghiên cứu
Sử dụng hai phƣơng pháp chính là nghiên cứu lý thuyết và nghiên cứu
thực nghiệm.
 Phƣơng pháp nghiên cứu tài liệu
- Tìm hiểu về CSDL và hệ quản trị CSDL, AM.
- Nghiên cứu từ các bài báo, phân tích và thiết kế CSDL, các CSDL liên
quan về thảm thực vật, các KBT thiên nhiên…
- Đề xuất các chức năng cho ứng dụng dựa trên các kỹ thuật đã nghiên
cứu.
 Phƣơng pháp thực nghiệm
- Áp dụng mô hình phát triển phần mềm thác nƣớc để xây dựng hệ thống
thông tin quản lý thảm thực vật sử dụng CSDL theo thời gian cho phép tìm
kiếm dữ liệu về thảm thực vật theo bối cảnh thời gian trên nền GIS.
- Thực nghiệm trên dữ liệu đầu vào là thảm thực vật của các KBT.
5. Mục đích và ý nghĩa của đề tài
 Mục đích
Nghiên cứu đề xuất giải pháp thiết kế CSDL theo AM vào quản lý dữ
liệu thảm thực vật.
 Ý nghĩa khoa học và thực tiễn
Về khoa học: Góp phần phát triển hệ thống thơng tin địa lý về sự đa
dạng sinh học ở nƣớc ta.
Từ kết quả nghiên cứu của đề tài tìm hiểu sâu hơn về kỹ thuật thiết kế
CSDL theo chuẩn AM.
Nghiên cứu sâu hơn về thuật toán lƣu trữ và quay lại dữ liệu tại thời
điểm nào đó trong quá khứ.
Về thực tiễn: Kết quả nghiên cứu của đề tài thúc đẩy việc áp dụng công
nghệ thông tin vào việc hỗ trợ quản lý đa dạng sinh học, cũng phần nào đáp



5
ứng đƣợc các nhu cầu cần thiết về thông tin trong công tác bảo vệ môi trƣờng,
bảo tồn đa dạng sinh học của nƣớc nhà.
6. Bố cục luận văn
Nội dung của luận văn đƣợc trình bày bao gồm các phần chính nhƣ sau:

Chƣơng 1 – TỔNG QUAN VỀ MƠ HÌNH ANCHOR
Chƣơng này, luận văn trình bày các cơ sở lí thuyết về dữ liệu có yếu tố
thời gian, dữ liệu tiến hóa, mơ hình hóa dữ liệu với AM, các khái niệm cơ bản
và truy cập dữ liệu trong AM.
Chƣơng 2 – ĐA DẠNG THỰC VẬT
Trong chƣơng 2, luận văn trình bày tổng quan về đa dạng thực vật, các
phân tích, thiết kế CSDL thảm thực vật, xây dựng đƣợc các mơ hình thực thể,
mơ hình dữ liệu làm tiền đề giải quyết bài toán thiết kế CSDL theo AM cho
hệ thống quản lí thảm thực vật.
Chƣơng 3 – THIẾT KẾ CƠ SỞ DỮ LIỆU ANCHOR MODELING CHO HỆ
THỐNG QUẢN LÝ THẢM THỰC VẬT

Chƣơng 3, tập trung vào thiết kế CSDL theo AM cho hệ thống quản lí
thảm thực vật, cài đặt và thực nghiệm chƣơng trình.
Cuối cùng là những đánh giá, kết luận và hƣớng phát triển của đề tài
trong tƣơng lai.


6
CHƢƠNG 1

TỔNG QUAN VỀ MƠ HÌNH ANCHOR

1.1. GIỚI THIỆU
Duy trì và phát triển kho dữ liệu là một hoạt động phức tạp, dễ bị lỗi,
và tốn thời gian. Lý do chính của tình trạng này đó là mơi trƣờng của một kho
dữ liệu thay đổi liên tục trong khi chính kho dữ liệu đó cần cung cấp một giao
diện ổn định và nhất quán với thông tin kéo dài trong thời gian dài. Các nguồn
cung cấp dữ liệu cho kho thay đổi liên tục theo thời gian và đôi khi cịn có sự
thay đổi lớn. Các nhu cầu tìm kiếm thơng tin, chẳng hạn nhƣ các nhu cầu
phân tích và báo cáo cũng thay đổi theo.
Để giải quyết những khó khăn này, các mơ hình dữ liệu của kho phải
mơđun hóa, linh hoạt, và theo dõi những thay đổi trong các thông tin đƣợc xử
lý [23]. Tuy nhiên, nhiều kho dữ liệu hiện tại đều có một mơ hình khơng đáp
ứng đƣợc những yêu cầu này. Tại một thời điểm, thƣờng là trong vòng bốn
năm đầu, một phần ba kho đƣợc thực hiện đã thay đổi kiến trúc của chúng và
dƣới một phần ba khẳng định kho của họ là một thành cơng [11].
Ngồi ra, kỹ thuật mơ hình hóa AM cũng cho phép biểu diễn mạnh mẽ
và linh hoạt những thay đổi. Tất cả các thay đổi đều đƣợc thực hiện dƣới hình
thức các phần mở rộng, làm cho các phiên bản khác nhau của một mơ hình
liên tục có sẵn nhƣ là tập con của mơ hình mới nhất [7]. Điều này cho phép
truy vấn phiên bản chéo một cách dễ dàng [17]. Đây cũng là một lợi ích quan
trọng trong các môi trƣờng kho dữ liệu bởi vì các ứng dụng khơng bị ảnh
hƣởng bởi sự phát triển của mơ hình dữ liệu [14]. Hơn thế nữa, kết quả của sự
phát triển thông qua các phần mở rộng (thay vì sửa đổi) là tính mơđun, làm
cho nó có thể phân tách các mơ hình dữ liệu thành các thành phần nhỏ, ổn
định và dễ quản lý. Tính mơ đun này có giá trị lớn trong việc phát triển linh


7
hoạt khi những lặp ngắn là cần thiết. Khá đơn giản để lần đầu xây dựng một
mơ hình bộ phận với một số lƣợng nhỏ các điều khoản kinh doanh đã thỏa
thuận và sau đó liên tục mở rộng nó thành một mơ hình hồn chỉnh. Cách

thức làm việc này có thể cải thiện tình trạng hiện tại trong việc thiết kế kho dữ
liệu, nơi gần một nửa trong số các dự án hiện tại hoặc là chậm tiến độ hoặc là
vƣợt quá ngân sách [11] một phần là do phạm vi dự án ban đầu quá lớn. Bên
cạnh đó, kết quả của việc sử dụng kỹ thuật mơ hình hóa AM là các mơ hình
dữ liệu chỉ cần những thay đổi nhỏ khi có thay đổi lớn trong mơi trƣờng. Do
đó, những thay đổi nhƣ thêm hoặc chuyển sang một hệ thống nguồn hoặc
cơng cụ phân tích - là những kịch bản kho dữ liệu điển hình dễ dàng đƣợc
phản ánh trong một mơ hình AM. Việc giảm thiết kế lại làm tăng thêm tuổi
thọ của một kho dữ liệu, rút ngắn thời gian thực hiện và đơn giản hóa việc bảo
trì [10].
AM [19], [20] kết hợp chuẩn hố lƣợc đồ quan hệ và tính cạnh tranh
(emulation) để cung cấp kỹ thuật mơ hình hố CSDL linh hoạt (agile) cho dữ
liệu tiến hoá. AM cung cấp hệ thống các ngun tắc [21], theo đó, mơ hình
thu đƣợc có thể đƣợc triển khai theo mơ hình dữ liệu quan hệ một cách đơn
giản. Kết quả trực tiếp là CSDL thời gian đạt chuẩn 6NF.
1.2. CƠ SỞ DỮ LIỆU THỜI GIAN
1.2.1. Khái niệm cơ sở dữ liệu có yếu tố thời gian
Yếu tố thời gian làm cho CSDL rõ ràng hơn, hữu ích hơn nhƣng đồng
thời cũng làm cho nó trở nên phức tạp hơn. Do đó ngƣời ta thƣờng bỏ qua yếu
tố thời gian, khơng quan tâm đến nó khi thiết kế CSDL. Song, phần lớn các
ứng dụng CSDL hiện nay đều lƣu giữ, quản lý các dữ liệu có liên quan đến
thời gian và có sự thay đổi theo thời gian. Vậy nhƣ thế nào là một CSDL có
yếu tố thời gian?
CSDL có yếu tố thời gian theo nghĩa rộng bao gồm tất cả các ứng dụng


8
CSDL có liên quan đến yếu tố thời gian trong việc tổ chức thông tin. Chẳng
hạn nhƣ: việc theo dõi sức khỏe bệnh nhân; các hệ thống đặt chỗ trƣớc (nhƣ ở
khách sạn, sân bay, nơi cho thuê xe, ga tàu,…) hằng ngày luôn nhận đƣợc các

yêu cầu đặt chỗ trƣớc; CSDL từ các dữ liệu đã đo đƣợc của các thí nghiệm
theo từng thời điểm khác nhau; hay trong CSDL của một công ty, chúng ta
lƣu giữ các thông tin về lƣơng, công việc và các dự án của mỗi nhân viên;
trong trƣờng đại học, yếu tố thời gian cần đƣợc chú ý bao gồm các học kỳ và
các năm của mỗi khóa học cùng với xếp loại của sinh viên và các thông tin về
học bổng,...
Một CSDL thời gian (temporal database) là một CSDL có các khía
cạnh đƣợc xây dựng dựa theo thời gian. Ví dụ, một mơ hình dữ liệu tạm thời
và một phiên bản tạm thời của một ngơn ngữ truy vấn có cấu trúc [27]. Các
phƣơng pháp tiếp cận mơ hình hóa CSDL, chẳng hạn nhƣ mơ hình ER ban
đầu, khơng bao gồm các yếu tố ngôn ngữ cụ thể mà hỗ trợ một cách rõ ràng
cho các khái niệm thời gian. Phần mở rộng [12] của lƣợc đồ ER bao gồm các
cấu trúc thời gian nhƣ thời gian hợp lệ, thời gian (khoảng thời gian) trong đó
một yếu tố là sự thật trong thế giới thực và thời gian giao dịch, thời gian trong
đó một yếu tố đƣợc lƣu trữ trong một CSDL [6], [8], [9]. Mơ hình hóa AM
cung cấp các yếu tố cú pháp để biểu diễn các thuộc tính (thuộc tính đƣợc biến
thiên) và các liên kết (liên kêt biến thiên), ví dụ: thời gian hợp lệ. Ngồi ra,
nếu siêu dữ liệu đƣợc sử dụng, thời gian giao dịch cũng có thể đƣợc biểu diễn,
một phân tích chi tiết hơn về khái niệm thời gian trong mơ hình hóa AM đƣợc
thảo luận trong phần tiếp theo. Mơ hình hóa AM khơng cung cấp một ngôn
ngữ truy vấn cho các nhà khai thác chuyên dụng để truy vấn các yếu tố thời
gian của mơ hình, tuy nhiên, nó cung cấp các khung nhìn và các hàm để đơn
giản hóa và tối ƣu hóa truy vấn thời gian.
AM phân biệt ba quan điểm về thời gian. Thời gian thay đổi


9
(changingtime) dữ liệu đối với các thuộc tính biến thiên hoặc mối quan hệ
biến thiên là khoảng thời gian các giá trị của chúng hoặc mối quan hệ là hợp
lệ trong lĩnh vực ứng dụng đang đƣợc mơ hình hố. Trong AM, thời gian thay

đổi đƣợc mô tả thông qua một cột trong bảng, có tên gọi ValidTime và có
kiểu dữ liệu ngày/giờ. Thứ hai, thời điểm xảy ra (happening time) đại diện
cho thời điểm một sự kiện xảy ra trên thực tế trong lĩnh vực ứng dụng. Thời
điểm này tự thân nó sẽ là một thuộc tính trong AM. Thứ ba, thời gian ghi
nhận (recording time) là dữ liệu về thời điểm thông tin đƣợc ghi nhận.Các tên
này cố gắng nắm bắt điều mà thời gian biểu đạt: ―khi một giá trị đƣợc thay
đổi‖, ―khi thông tin đƣợc ghi‖, và ―khi một sự kiện xảy ra‖. Nghiên cứu này
quan tâm hơn đến hai loại thời gian đầu tiên.
1.2.2. Thời gian thay đổi
Thời gian thay đổi cho một thuộc tính đƣợc lịch sử hóa hoặc liên kết là
khoảng thời gian mà giá trị hoặc quan hệ của nó có giá trị trong miền thảo
luận đang đƣợc mơ hình hóa, tức là nó tƣơng ứng với khái niệm thời gian hợp
lệ [6], [8], [9] nhƣ đã thảo luận trong phần trƣớc. Trong mơ hình hóa AM,
khoảng thời gian này đƣợc xác định bằng cách sử dụng thời điểm duy nhất.
Đó là thời điểm đƣợc sử dụng nhƣ là một thời gian bắt đầu rõ ràng cho
khoảng thời gian mà tại đó một trƣờng hợp có thể đƣợc cho là có một giá trị
hoặc mối quan hệ nhất định. Nếu các thuộc tính từng phần khơng có mặt
trong một mơ hình AM và do đó khơng có giá trị rỗng trong một CSDL AM,
thay vì xóa hoặc cập nhật chúng, bằng cách mơ phỏng một giới hạn duy trì
trạng thái của giá trị cho các thuộc tính hoặc liên kết.
1.2.3. Thời gian ghi
Đối với mục đích bảo trì và phân tích, một loại thời gian khác thƣờng là
cần thiết, thời gian ghi. Thời gian ghi trong mơ hình hóa AM tƣơng ứng với
khái niệm về thời gian giao dịch [6], [8], [9] đã thảo luận ở trên. Nói một cách


10
khái qt thì nó có thể đƣợc xem là thời gian khi một mẩu thông tin đƣợc
nhập vào miền thảo luận hoặc ―thời gian (khoảng thời gian) trong đó một thực
tế đƣợc lƣu trữ trong CSDL‖. Trong nhiều kịch bản một thời gian ghi đơn cho

mỗi mẩu thông tin là đủ, tƣơng ứng với thời gian khi các dữ liệu đƣợc nạp
vào CSDL. Tuy nhiên, có thể trong một số trƣờng hợp cần phải lƣu trữ một
mảng thời gian ghi nếu dữ liệu đã vƣợt qua một số hệ thống trƣớc khi đến mơ
hình. Trong một CSDL AM, siêu dữ liệu này đƣợc thể hiện thông qua tài liệu
tham khảo cho một cấu trúc siêu dữ liệu,mà cũng nên đƣợc mơ hình hóa AM.
1.2.4. Thời gian diễn ra
Thời gian diễn ra đƣợc sử dụng để thể hiện cho thời điểm hoặc khoảng
thời gian mà một sự kiện diễn ra trong miền thảo luận. Điều này tƣơng tự nhƣ
thời gian xảy ra sự kiện [12], tức là ngay lập tức tại đó sự kiện xảy ra trong
thế giới thực. Trong Mơ hình hóa AM loại thời gian này đƣợc coi nhƣ là một
thuộc tính của chính sự kiện. Do đó cần phải đƣợc mơ hình hóa thành một
hoặc hai thuộc tính tùy thuộc vào sự kiện này là nhất thời ("đã xảy ra tại")
hoặc cần một khoảng thời gian ("đã xảy ra giữa"). Thời gian diễn ra là thuộc
tính/tính chất của sự vật trong miền thảo luận mà phải xét đến các giá trị của
các loại thời gian. Một số ví dụ về những thứ này nhƣ là: một ngƣời, một
phiếu mua hàng và mua hàng, có thời gian xảy ra nhƣ: ngày sinh của một
ngƣời, ngày mất của một ngƣời, phiếu giảm giá có giá trị từ, phiếu giảm giá
có giá trị đến, ngày mua và thời gian mua hàng. Là thuộc tính, chúng có thể
có cả thời gian thay đổi và thời gian ghi. Lý do là để nhập "thời gian xảy ra"
là một khái niệm riêng của chính nó và để tránh nó bị nhầm lẫn với thời gian
hợp lệ hoặc thời gian giao dịch cho mỗi giao dịch.
1.3. CƠ SỞ DỮ LIỆU CHUẨN HÓA Ở MỨC THẤP
Một tính năng quan trọng của CSDL AM là chúng đƣợc chuẩn hóa rất
cao. Điều này bắt nguồn chủ yếu từ thực tế rằng mọi yếu tố riêng biệt (thuộc


11
tính) trong một mơ hình AM đƣợc dịch sang một bảng quan hệ riêng của
mình, trong các hình thức khóa-tập thực thể, giá trị trị thuộc tính và thơng tin
lịch sử tùy chọn. Ngƣợc lại, trong một lƣợc đồ 3NF bình thƣờng một số thuộc

tính có trong cùng một bảng. Một bảng là trong hình thức bình thƣờng thứ sáu
nếu nó thỏa mãn điều kiện là khơng có tính phụ thuộc liên kết khơng bình
thƣờng, tức là một bảng 6NF không thể đƣợc phân tách sâu hơn vào các lƣợc
đồ quan hệ với ít thuộc tính [8]. Tất cả tập thực thể, giới hạn và các thuộc tính
sẽ làm tăng các bảng 6NF; chỉ có các cấu trúc trong một mơ hình AM có thể
làm tăng các bảng 6NF là các liên kết. Đối với việc phân tích các mơ hình
AM và các hình thức chuẩn hóa, tham khảo [18] dựa vào định nghĩa của 6NF
theo [8].
1.4. DỮ LIỆU TIẾN HĨA
Dữ liệu tiến hố là dữ liệu thƣờng xun có sự thay đổi về nội dung,
cấu trúc, các ràng buộc, biểu diễn, nguồn gốc và tính xác thực. CSDL thơng
thƣờng lƣu trữ dữ liệu và cho phép tìm kiếm trên đó. CSDL thời gian là
CSDL lƣu trữ dữ liệu trong q trình tiến hố (under evolution) và cho phép
tìm kiếm lịch sử trên đó. Cụ thể, CSDL thời gian cho phép truy cập đến dữ
liệu ở thời điểm cuối cùng, một thời điểm bất kỳ trong quá khứ hoặc truy cập
đến lịch sử thay đổi dữ liệu trong một khoảng thời gian nào đó. Dữ liệu phụ
thuộc vào thời gian và thời điểm thay đổi dữ liệu phải đƣợc ghi lại.
AM cung cấp kỹ thuật mơ hình hố dữ liệu tiến hố, [4] cơng cụ mơ
hình hố trực quan trong chế độ tƣơng tác, khả năng sinh tự động các kịch
bản để chuyển từ sơ đồ thiết kế đƣợc sang CSDL vật lý trong mơ hình dữ liệu
quan hệ. AM hỗ trợ nhiều hệ quản trị CSDL khác nhau nhƣ Oracle,
SQLServer, PostgreSQL…AM cũng sinh tự động các khung nhìn và các hàm
giúp truy cập đến dữ liệu ở thời điểm cuối cùng, dữ liệu ở thời điểm bất kỳ
trong quá khứ hoặc truy vấn thông tin thay đổi dữ liệu trong một khoảng thời


12
gian hay tồn bộ q trình thay đổi của CSDL. Các đối tƣợng dữ liệu đặc biệt
này trên thực tế sử dụng phép nối ngoài, truy vấn lồng đồng bộ hoặc truy vấn
lồng bao gồm phép gộp nhóm và hàm MAX nhƣ là bảng ảo. Rõ ràng, các truy

vấn này có thể yêu cầu tài nguyên của hệ thống rất lớn.
Khung nhìn thực (materialized view) cho phép tăng đáng kể tốc độ thực
thi truy vấn [5], [24], có thể đƣợc sử dụng để giải quyết vấn đề này. Tuy
nhiên, khung nhìn thực cịn gọi là khung nhìn chỉ mục hố trong SQL Server
khơng cho phép phép nối ngồi, phép gộp nhóm và hàm gộp MAX [24].
1.5. MƠ HÌNH HĨA DỮ LIỆU VỚI ANCHOR MODELING
AM cung cấp cơ chế mở rộng khơng huỷ (non-destructive extensibility
mechanisms), theo đó cho phép khả năng quản trị thay đổi dữ liệu rất mạnh và
mềm dẻo [4]. Các thao tác dữ liệu thông thƣờng làm cho ngƣời dùng chỉ có
thể truy cập đến phiên bản dữ liệu cuối cùng, không thể truy cập đến các
phiên bản dữ liệu trong quá khứ.
Đặc biệt, các thao tác cập nhật (update) dữ liệu xoá giá trị cũ và thay
vào đó bằng giá trị mới, thao tác xố (delete) dữ liệu thực hiện xố hồn tồn
bản ghi từ CSDL. Với AM, lịch sử hoá đƣợc thực hiện bằng cách sử dụng
thời điểm thay đổi dữ liệu. Thời điểm này bắt đầu một khoảng thời gian kết
thúc bởi việc thêm mới một bản ghi một thể hiện của thực thể cùng định danh
với thời điểm thay đổi trễ hơn. Thay vì thay giá trị cũ bằng giá trị mới hay xoá
bản ghi, AM giữ nguyên bản ghi cũ, thêm mới một bản ghi và đánh dấu các
phiên bản bản ghi theo thời gian. Chẳng hạn, cho bản ghi có định danh ID nào
đó. Bản ghi này có 3 phiên bản theo các mốc thời gian t1, t2, t3. Sau này, khi
cần truy cập đến dữ liệu vào thời điểm t < t1, ta cần xác định tmax = MAX(ti)
với ti ≤ t theo ID và xác định bản ghi/giá trị ở thời điểm t theo ID và tmax.
Quan trọng hơn, các tác giả của AM đƣa ra phƣơng pháp mơ hình hố
dữ liệu chính quy và độc lập với cơng nghệ mới. Với cách tiếp cận linh hoạt,


13
AM cho phép tái cấu trúc các CSDL, đặc biệt kho dữ liệu, một cách dễ dàng.
AM cũng cung cấp hệ thống công cụ phát triển CSDL, từ mức khái niệm với
môi trƣờng trực quan, mềm dẻo linh hoạt cho đến khả năng sinh các kịch bản

để tạo CSDL vật lý trong nhiều HQT CSDL khác nhau nhƣ Oracle, SQL
Server, PostgreSQL...
Nhìn chung, AM mang lại đầy đủ các lợi ích [20] của CSDL đạt dạng
chuẩn 6NF:
 Quản lý và xử lý đƣợc dữ liệu tiến hố, đảm bảo tính tồn vẹn của dữ
liệu theo thời điểm bất kỳ.
 Tăng vòng đời của CSDL so với vịng đời trung bình 5 năm.
 Đơn giản hố các khái niệm mơ hình hố (modeling concepts), giảm
thiểu hố lỗi mơ hình hố.
 Cho phép phát triển theo mô-đun và tăng trƣởng từng bƣớc.
 Chuyển đổi sang CSDL vật lý đơn giản.
 Cho phép và hỗ trợ công cụ sinh tự động các kịch bản tạo CSDL vật lý
cũng nhƣ các khung nhìn, các hàm cần thiết.
 Đặc biệt, chỉ quét những dữ liệu cần thiết trong quá trình xử lý truy
vấn nhờ mỗi cột đƣợc lƣu trữ riêng lẻ trong từng bảng.
 Không chấp nhận NULL nên khắc phục đƣợc vấn đề dữ liệu thƣa thớt
trong CSDL thông thƣờng. Nếu dữ liệu đƣợc lƣu trữ theo từng thuộc tính
trong từng bảng riêng biệt, khi cần truy vấn dữ liệu từ nhiều bảng ta phải thực
hiện phép nối. Phép nối và phép gộp nhóm là hai phép toán đắt đỏ nhất của
truy vấn chọn dữ liệu trong mơ hình dữ liệu quan hệ. Tuy nhiên, theo các thử
nghiệm trên lƣợng dữ liệu lớn (hàng chục GB với hàng chục triệu bản ghi),
cho thấy việc phát triển CSDL quan hệ theo mơ hình AM khơng gây ra vấn
đề. Đạt đƣợc điều này khả năng là nhờ chi phí tài ngun tiết kiệm đƣợc nhờ
khơng phải qt qua dữ liệu liên quan các thuộc tính khơng cần thiết cho truy


14
vấn đủ bù đắp cho phần thực thi phép nối.
Ngoài ra, AM cho hiệu năng tốt nhờ khai thác các các đặc điểm hạn chế
của CSDL dữ liệu thông thƣờng [8].

 Trên thực tế nhiều thuộc tính chấp nhận giá trị NULL và nhiều trƣờng
thƣờng chứa giá trị NULL trong CSDL.
 Thƣờng số lƣợng giá trị khác biệt nhỏ hơn rất nhiều so với tổng số
lƣợng các giá trị dữ liệu.
 Các giá trị cho khoá hoặc từ định danh chỉ chiếm phần nhỏ so với tồn
bộ dữ liệu.
 Có nhiều khố, có nhiều thuộc tính.
 Truy vấn chọn lựa dữ liệu thƣờng chỉ sử dụng một vài trƣờng trong
toàn bộ bản ghi chứa nhiều giá trị.
1.6. NHỮNG KHÁI NIỆM CƠ BẢN VỀ MƠ HÌNH HĨA AM
Các khái niệm nền tảng trong AM bao gồm neo (anchor), giới hạn
(knot), thuộc tính (attribute), thuộc tính hằng (static attribute), thuộc tính biến
thiên (historized attribute), thuộc tính hằng giới hạn (knotted static attribute),
thuộc tính biến thiên giới hạn (knotted historized attribute). Các loại mối quan
hệ (tie) bao gồm quan hệ hằng (static tie), quan hệ biến thiên (historized tie),
quan hệ hằng giới hạn (knotted static tie), quan hệ biến thiên giới hạn (knotted
historized tie) [7]
Một mơ hình meta cho những khái niệm cơ bản về kỹ thuật mơ hình
hóa tập thực thể đƣợc thể hiện trong ký hiệu sơ đồ lớp UML (xem Hình 1.1).
Trong AM có các đối tƣợng sau:
Anchor: Lƣu trữ cácđịnh danh của các thực thể
Knot: Lƣu trữ miền giá trị của dữ liệu
Attributes: Lƣu trữ các giá trị của các thuộc tính
Ties: Lƣu trữ mối quan hệ giữa các thực thể


15

Ví dụ:


Định nghĩa 1 (Định danh, Identifier). Cho I là một tập vô hạn các biểu
tƣợng, đƣợc sử dụng là các định danh.
Định nghĩa 2 (Kiểu dữ liệu, Data Type). Cho D là một kiểu dữ liệu.
Miền của D là tập hợp các giá trị dữ liệu.
Định nghĩa 3 (Kiểu thời gian, Time Type). Cho T là một kiểu thời
gian. Miền của T là tập hợp các giá trị thời gian.

Hình 1.1 Mơ hình hóa tập thực thể


16
1.6.1. Tập thực thể (Anchor)
Trong mối tƣơng quan với mô hình thực thể - mối quan hệ rất phổ biến,
có thể hiểu, anchor là tập thực thể. Anchor biểu diễn ID của thực thể. Giới
hạn đại diện cho một tập lực lƣợng nhỏ các giá trị cố định theo thời gian,
thƣờng là những giá trị dùng chung cho nhiều thực thể khác nhau. Chẳng hạn,
giới hạn giới tính có các giá trị ―nam‖, ―nữ‖.
Một tập thực thể biểu diễn một tập hợp các thực thể, chẳng hạn nhƣ
một tập hợp các tác nhân và sự kiện. Một tập thực thể biểu diễn một tập hợp
các thực thể, chẳng hạn nhƣ một tập hợp các tác nhân và sự kiện. Hình 1.2a
thể hiện biểu diễn đồ họa của một tập thực thể.
Định nghĩa 4 (Tập thực thể). Một tập thực thể A là một chuỗi. Phần
mở rộng của một tập thực thể là tập con của I.
Ví dụ về một tập thực thể là AC_Actor với phần mở rộng điển hình
{#4711, #4712, #4713}.
1.6.2. Giới hạn (Knot)
Một giới hạn đƣợc sử dụng để biểu diễn một tập hợp các thực thể cố
định, thƣờng là nhỏ, không thay đổi theo thời gian. Trong khi các tập thực thể
đƣợc sử dụng để biểu diễn các thực thể tùy ý, thì các giới hạn đƣợc sử dụng
để quản lý các đặc tính chung trong nhiều thực thể của một số tập thực thể. Ví

dụ điển hình của một giới hạn là GEN_Gender, xem Error! Reference
source not found.Hình d, trong đó bao gồm hai giá trị, ‗Male‘ và ‗Female‘.
Đặc tính này (giới tính (Gender)) chung trong nhiều thực thể của tập thực thể
AC_Actor, do đó việc sử dụng một giới hạngiúp giảm thiểu sự dƣ thừa. Thay
vì lặp lại các chuỗi thì một bit duy nhất trên mỗi thực thể là đủ.
Định nghĩa 5 (Giới hạn - Knot). Một giới hạn K là một chuỗi. Một giới
hạn có một miền, đó là I. Một giới hạn có một dải, đó là kiểu dữ liệu D. Phần
mở rộng của một giới hạn K với dải D là một mối quan hệ song ánh trên I X D.


×