Tải bản đầy đủ (.pdf) (320 trang)

ràng buộc toàn vẹn và trích yếu thời gian trong cơ sở dữ liệu hướng thời gian và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.7 MB, 320 trang )


ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA TP. HCM
-----------------Phạm văn Chung
RÀNG BUỘC TOÀN VẸN VÀ TRÍCH YẾU
THỜI GIAN TRONG CƠ SỞ DỮ LIỆU
HƯỚNG THỜI GIAN VÀ ỨNG DỤNG
LUẬN ÁN TIẾN SĨ KỸ THUẬT
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01
TP.HCM - Năm 2008
ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA TP. HCM
-----------------Phạm văn Chung
RÀNG BUỘC TOÀN VẸN VÀ TRÍCH YẾU
THỜI GIAN TRONG CƠ SỞ DỮ LIỆU
HƯỚNG THỜI GIAN VÀ ỨNG DỤNG
LUẬN ÁN TIẾN SĨ KỸ THUẬT
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01
NGƯỜI HƯỚNG DẪN KHOA HỌC
1- PGS.TS. DƯƠNG TUẤN ANH


2- PGS. TS. TRẦN THÀNH TRAI
Phản biện 1: PGS.TS. Đồng thị Bích Thủy
Phản biện 2: PGS. TSKH. Nguyễn Xuân Huy
Phản biện 3: PGS. TS. Đỗ Phúc
Bảo vệ luận án cấp Nhà nước ngày 25/6/2008
tại ĐH. Bách khoa, ĐH. Quốc gia Tp. HCM
TP.HCM - Năm 2008


LỜI CAM ĐOAN
Tôi cam đoan rằng nội dung của luận án này là kết quả nghiên cứu của riêng
tôi. Tất cả những ý tưởng tham khảo từ kết quả nghiên cứu được công bố trong các
công trình khoa học đều được nêu rõ trong luận án. Những chương trình phần mềm
được cài đặt và những đóng góp trong luận án là do chính tôi thực hiện và chưa
được công bố trong bất cứ công trình nào khác.
Tác giả luận án
Phạm văn Chung
i
LỜI CẢM ƠN
Trân trọng cảm tạ quí thày trong Ban Lãnh đạo Khoa CNTT, và chủ nhiệm
bộ môn cơ sở dữ liệu trường ĐHBK-TP.HCM đã động viên, hướng dẫn cũng như
tạo mọi điều kiện thuận lợi cho quá trình nghiên cứu thực hiện luận án.
Xin tri ân PGS. TS. Dương Tuấn Anh, PGS. TS. Trần Thành Trai là những
người Thày đã tận tình dẫn dắt tôi suốt quá trình học hỏi, nghiên cứu khoa học, thực
hiện những chuyên đề. Đặc biệt Thày Dương Tuấn Anh đã truyền thụ cho tôi nhiều
kiến thức, phương pháp làm việc, nghiên cứu cho một nghiên cứu sinh để tìm ra


được những đóng góp của luận án.
Xin cảm ơn GS. TS. Yual Shahar, M.D., Ph.D, Professor of Medicine and
Computer Science Stanford Medical Informatics Medical School Office Building
X215, 251 Campus Drive Stanford University Standford, CA 94305-5479, và GS.
TS. Hồ Tú Bảo, School of Knowledge Science, Japan Advanced Institute of Science
and Technology, đã cung cấp tài liệu và cho nhiều ý kiến qúi báu giúp hoàn thiện
luận án.
Chân thành cảm ơn Ban Giám Đốc Bệnh viện Ung Bướu TP.HCM đã tiếp
nhận, tạo điều kiện cho phép tôi được tìm hiểu những dữ liệu của bệnh nhân về
bệnh ung thư, và được ThS. BS. Nguyễn Đức Bảo và quí Bác sĩ của Phòng Chỉ Đạo
tuyến của Bệnh viện đã hướng dẫn, giải thích cho tôi thu thập được những dữ liệu

trên những bệnh án, để thực hiện ứng dụng trong luận án.
Trân Trọng
NCS Phạm văn Chung
ii
DANH MỤC CHỮ VIẾT TẮT
CSDL : cơ sở dữ liệu
CSDLTG : cơ sở dữ liệu hướng thời gian
CEA : CarcinoEmbryonic Antigen: chất đánh dấu sinh học tốt nhất cho bệnh Ung
thư đại trực tràng.
Câu PS: câu-có-khuôn-mẫu
Hệ thống KBTA: hệ thống khung thức tổng quát KBTA
KBTA : Knowledge-based temporal abstraction
RBTV : ràng buộc toàn vẹn


RBTVTG : tính toàn vẹn của dữ liệu ràng buộc theo thời gian
TYTG : trích yếu thời gian
iii
MỤC LỤC
MỞ ĐẦU
1
Chương 1 TỔNG QUAN ………………………………………………… 3
1.1 Phân tích, đánh giá một số công trình đi trước ……………………. 3
1.1.1 Mô hình dữ liệu thời gian ………………………………………. 3
1.1.2 Ngôn ngữ truy vấn thời gian …………………………………… 6
1.1.3 Tính toàn vẹn của dữ liệu ràng buộc theo thời gian ……….. 8
1.1.4 Trích yếu thời gian trên cơ sở dữ liệu thời gian …………….. 12
1.2 Những vấn đề nghiên cứu của luận án ……………………………. 16
1.2.1 Mô hình dữ liệu thời gian và ngôn ngữ truy vấn thời gian ….. 16
1.2.2 Ràng buộc toàn vẹn thời gian ………………………………….

17
1.2.3 Trích yếu thời gian …………………………………………. …..
18
1.3 Tổ chức của luận án …………………………………………………. 19
Chương 2 CƠ SỞ LÝ THUYẾT ………………………………………. 20
2.1 Một số thuật ngữ ……………………………………………………… 20
2.2 Thời gian hợp lệ trong mô hình dữ liệu thời gian …………………. 22
2.3 Bảng dữ liệu trạng thái, bảng dữ liệu biến cố và khoảng thời gian 22
2.4 Những phép toán trên khoảng thời gian …………………………… 23


2.4.1 Phép so sánh khoảng ………………………………………….
24
2.4.2 Phép hội (UNION) ……………………………………………… 26
2.4.3 Phép giao (INTERSECT) ……………………………………… 26
2.4.4 Phép trừ (MINUS) ……………………………………………… 26
2.4.5 Phép toán fold …………………………………………………. 26
2.4.6 Phép toán unfold ……………………………………………….
28
2.5 Sự chuẩn hoá thời gian ………………………………………………. 28
2.5.1 Tính chất đồng bộ và phụ thuộc thời gian ……………………. 29
2.5.2 Sự chuẩn hoá thời gian ………………………………………… 31
2.6 Sự cần thiết chuẩn hoá thời gian ……………………………….. 32
2.7 Vấn đề thời gian bất định trong CSDLTG …………………………. 33
2.7.1 Tính bất định ……………………………………………………. 33
2.7.2 Mở rộng ngữ nghĩa …………………………………………….. 34
2.8 Ngôn ngữ truy vấn thời gian . ………………………………………… 36
2.8.1 Đại số quan hệ ………………………………………………….. 36
2.8.2 Đại số quan hệ thời gian ………………………………………. 36
2.8.3 Chuyển đại số quanhệ thời gian thành đại số quan hệ ……. 37

2.8.4 Tiểu ngôn ngữ truy vấn thời gian SubTSQL ………………… 37
2.9 Tóm tắt chương ………………………………………………………. 37
iv
Chương 3 TÍNH TOÀN VẸN CỦA DỮ LIỆU RÀNG BUỘC THEO
40


THỜI GIAN
3.1 Đồ thị chuyển trạng thái biểu thị RBTVTG ....…………………….. . 41
3.1.1 Định nghĩa 1 (Đồ thị chuyển trạng thái ) ……………………. 42
3.1.2 Định nghĩa 2 (Thoả mãn nhãn trên cạnh của đồ thị)……….
44
3.1.3 Định nghĩa 3 (Dãy chuyển trạng thái) ………………………..
45
3.1.4 Định nghĩa 4 (Ràng buộc theo thứ tự thời gian) …………… 45
3.1.5 Định nghĩa 5 (Ràng buộc trên qui luật nghiệp vụ) …………. 46
3.1.6 Định nghĩa 6 (Ràng buộc trên dãy chuyển trạng thái) ……. 47
3.2 Xây dựng những thủ tục kiểm tra RBTVTG ………………. ……… 47
3.2.1 Những trạng thái được lặp lại trong dãy chuyển trạng thái … 49
3.2.2 Kiểm tra RBTVTG trên đồ thị chuyển trạng thái ……………. 57
3.3 Xây dựng đồ thị chuyển trạng thái từ đặc tả ràng buộc toàn vẹn . 57
3.3.1 Cú pháp và ngữ nghĩa của PS ………………………….....
57
3.3.2 Đặc tả RBTVTG bằng PS ………………………………….
60
3.3.3 Kiểm tra PS hợp lệ …………………………………………
64
3.3.4 Chuyển đổi PS thành đồ thị chuyển trạng thái ………….
67
3.4 Cài đặt RBTVTG …………………………………………………

69


3.4.1 RBTVTG và qui luật nghiệp vụ ………………………………
69
3.4.2 Đặc tả ràng buộc RB bằng PS ………………………………
70
3.4.3 Chuyển đổi PS thành đồ thị chuyển trạng thái …………….
70
3.4.4 Lược đồ cơ sở dữ liệu và kiểm tra RBTVTG ………………
72
3.5 Tầm quan trọng của RBTVTG
72
3.6 Biện luận ……………………………………………………………..
74
3.6.1 So sánh hướng tiếp cận của luận án với hướng tiếp cận của 74
Gertz
3.6.2 Đánh giá chi phí bằng thực nghiệm ………………………….
76
3.7 Tóm tắt chương ……………………………………………………….
77
Chương 4 TRÍCH YẾU THỜI GIAN TRONG CƠ SỞ DỮ LIỆU THỜI 79
GIAN
4.1 Những phương pháp suy diễn và những tri thức cần thiết ………
80
4.1.1 Những phương pháp suy diễn và cơ chế…………………….
80


4.1.2 Những tri thức cần thiết cho trích yếu thời gian …………….. 84

4.2 Cơ sở tri thức cho trích yếu thời gian ………………………………. 84
4.2.1 Một số tính chất của luật suy diễn ……………………………. 84
4.2.2 Tính an toàn (safe) của luật …………………………………... 86
4.2.3 Luật suy diễn thời gian trên cơ sở dữ liệu thời gian ……….. 87
4.2.4 Ngôn ngữ trích yếu thời gian TAR (Temporal-Abstraction Rules)
88
4.2.5 Luật TYTG theo chiều ngang dùng cơ chế suy diễn thời
90
gian
4.2.6 Luật TYTG theo chiều dọc dùng cơ chế trích yếu đồng thời . 91
4.2.7 Luật TYTG theo nội suy thời gian dùng cơ chế nội suy thời
92
gian
v
4.2.8 Luật TYTG không có cơ chế trích yếu thời gian …………..
93
4.3 Trích yếu thời gian trên đồ thị suy diễn …………………………… 94
4.3.1 Đồ thị suy diễn ………………………………………………….
94
4.3.2 Hướng tiếp cận trích yếu thời gian trên đồ thị suy diễn ……
97
4.3.3 Xây dựng thủ tục trích yếu thời gian trên đồ thị suy diễn ….
99


4.4 Phân rã dữ liệu theo thời gian để chuẩn bị TYTG ………………..
103
4.4.1 Thủ tục phân rã dữ liệu ………………………………………… 104
4.4.2 Phân tích độ phức tạp của giải thuật phân rã dữ liệu ……… 104
4.4.3 Một ví dụ phân rã dữ liệu ……………………………………… 105

4.5 Ứng dụng trích yếu thời gian ………………………………………..
108
4.5.1 Xây dựng luật suy diễn trong ứng dụng ……………………..
109
4.5.2 Xây dựng đồ thị suy diễn trong ứng dụng …………………..
114
4.6 Cài đặt trích yếu thời gian …………………………………………..
114
4.6.1 Tổ chức cơ sở dữ liệu …………………………………………
114
4.6.2 Tích hợp TYTG với quản lý dữ liệu thời gian vào một kiến
115
trúc đơn
4.6.3 Kiến trúc của hệ thống TDM …………………………………
116
4.6.4 Ví dụ câu truy vấn TYTG …………………………………….
119
4.7 Phân tích TYTG dựa vào thực nghiệm ……………………….
122


4.7.1 Chi phí TYTG của luận án bằng thực nghiệm ……………..
122
4.7.2 Chi phí của hệ thống RÉSUMÉ của Shahar và IDAN của
124
Boaz
4.8 Tóm tắt chương …………………………………………………….
125
Chương 5 NHỮNG KẾT QUẢ VÀ BIỆN LUẬN
127

5.1 Kết quả của chương 3 ………………………………………………
127
5.2 Kết quả của chương 4 ………………………………………………
128
5.3 Kết quả của chương 5 ……………………………………………..
130
5.4 Hướng phát triển của luận án ………………………………….......
133
KẾT LUẬN …………………………………………………………………. 135
PHỤ LỤC A ……………………………………………………………….. -1PHỤ LỤC B ……………………………………………………………….. -14PHỤ LỤC C ……………………………………………………………….
-27PHỤ LỤC D ……………………………………………………………….
-31-


PHỤ LỤC E ……………………………………………………………….
-45CÔNG TRÌNH CỦA TÁC GIẢ ……………………………………………
A
TÀI LIỆU THAM KHẢO …………………………………………………..
B
vi
DANH MỤC BẢNG
Bảng 1.1.1a
: Những mô hình dữ liệu thời gian
4
Bảng 1.1.1b
: Bảng Phien_truc
5
Bảng 1.1.1c
: Bảng Luong
5

Bảng 1.1.3a
: Quan hệ rα
9
Bảng 1.1.3b
: Những quan hệ bổ trợ rα.
9
Bảng 2.4a: Định nghĩa những phép so sánh trên khoảng


24
Bảng 2.4b: Minh họa hình học của các phép so sánh khoảng 25
Bảng 2.5.1a: Quan hệ Employee
29
Bảng 2.5.1b: Quan hệ Maintenance
29
Bảng 2.5.1c: Quan hệ Sal-Mgr
30
Bảng 2.6a: kết quả câu truy vấn thừa thông tin
32
Bảng 2.6b: Kết quả đúng cho câu truy vấn
33
Bảng 4.4.3a : Bảng Vertices
71
Bảng 4.4.3b : Bảng Transition_state
71
Bảng 4.4.3c : Bảng Labels
72
Bảng 5.4.3a : Bảng dữ liệu thời gian E của những đối tượng 106
Bảng 5.4.3b : Bảng Temp ứng với đối tượng P005
106

Bảng 5.4.3c : Bảng Temp ứng với đối tượng P001
106
Bảng 5.6.3 : Màn hình giao diện cho trích yếu thời gian


137
Bảng 5.6.4a : Dữ liệu được truy xuất từ CSDL vào bảng retrieved121
table
Bảng 5.6.4b : Kết quả TYTG trên bảng 5.6.3a
121
Bảng 5.7.1 : Độ phức tạp của semi-naive
125
vii
DANH MỤC HÌNH
Hình 1.1.3: Đồ thị chuyển trạng thái ………………………………...
11
Hình 1.1.4a: Trình bày tổng quát phương pháp KBTA……………
12
Hình 1.1.4b: Những giá trị định tính cho TYTG trên độ đo khí trong
14
máu
Hình 1.1.4c: Khung thức khám phá tri thức trong CSDL viêm gan
15
Hình 2.3: Bảng trạng thái drug_treatment và bảng biến cố CEA_value 23
Hình 2.4.5a: Thực hiện phép fold trên thuộc tính Duration………..
27
Hình 2.4.5b: Thủ tục fold ……………………………………………..
28



Hình 2.5.2:Phân rã Sal-Mgr thành Tmanager và Tsalary ………...
31
Hình 3.1.1 :Đồ thị chuyển trạng thái T ……………………………..
42
Hình 3.1.2 : Nhãn trên cạnh của đồ thị …………………………….
44
Hình 3.1.4 : Ràng buộc theo thứ tự thời gian …………… ……….
44
Hình 3.1.5 : Đồ thị chuyển trạng thái , s1 là thái đầu ……………..
46
Hình 3.2.1a : Đồ thị chuyển trạng thái có s1: đỉnh khởi đầu, s4: đỉnh
48
kết thúc
Hình 3.2.1b : Ghi giá trị tần suất t vào bảng dữ liệu
49
Hình 3.2.2a : Minh họa thêm dữ liệu vào đỉnh j ở vị trí liền sau với
50
đỉnh i.
Hình 3.2.2b : Thủ tục Insertting(O, n, t) …………………………….
52
Hình 3.2.2c : Những thủ tục con của thủ tục Inserting ……………
52
Hình 3.2.2d : Những hàm cho thủ tục Inserting ……………………
53


Hình 3.2.2e : Xoá thể hiện của đối tượng tại s3 ………………….
53
Hình 3.2.2f : Xoá đối tượng O có giá trị x tại một đỉnh của đồ thị .
54

Hình 3.2.2g : Thủ tục Deleting(O, n, x) ……………………………..
55
Hình 3.2.2h : Thủ tục Updating (O, n, x )……………………………
56
Hình 3.3.2a : Đồ thị chuyển trạng thái có nhãn l3 mâu thuẫn …..
60
Hình 3.3.2b : Đồ thị chuyển trạng thái tương ứng với PS trong ví dụ
63
3.3.2b
Hình 3.3.3a : Thủ tục check_state_label (L, V) ……………………
65
Hình 3.3.3b : Thủ tục contradictory_label(TS)……………………..
65
Hình 3.3.3c : Thủ tục object_passed (V, TS) ……………………..
66
Hình 3.3.3d : Thủ tục double_label(TS) ……………………………
66
Hình 3.3.3e : Thủ tục non_transfer(TS) ……………………………
66
Hình 3.3.3f : Thủ tục check_ label (L, TS)…………………………


67
Hình 3.3.4a : Thủ tục chuyển PS thành đồ thị chuyển trạng thái..
68
Hình 3.3.4b : Những thủ tục con của thủ tục PS_to_TransGraph
68
Hình 3.3.4c : Những thủ tục con của thủ tục PS_to_TransGraph
69
(tiếp theo)

Hình 3.4.2: PS diễn tả ràng buộc RB …………………………………
70
Hình 3.4.3 : Đồ thị chuyển trạng thái mô tả RBTVTG trên chu kỳ sống 71
của đối tượng.
Hình 3.6 :Thời gian kiểm tra RBTVTG ứng với số mẩu tin trong CSDL
76
viii
Hình 4.1.1a : Phương pháp hạn chế ngữ cảnh dùng cơ chế hình
81
thành ngữ cảnh
Hình 4.1.1b : Suy diễn theo chiều dọc dùng cơ chế trích yếu đồng
81
thời
Hình 4.1.1c : Suy diễn theo chiều ngang bằng cơ chế suy diễn thời
82
gian


Hình 4.1.1d : Những giá trị điểm thời gian từ T1 đến T6 được trích
83
yếu theo nội suy thời gian
Hình 4.1.1e : Phương pháp suy diễn so trùng mẫu thời gian ……
84
Hình 4.2.1 : Đồ thị phụ thuộc của tập luật suy diễn……………….
86
Hình 4.2.5 : Luật TAR, TYTG theo chiều ngang ………………….
90
Hình 4.2.6 : Luật TAR, TYTG theo chiều dọc …………………….
91
Hình 4.2.7 : Luật TAR, TYTG theo phương pháp nội suy thời gian

93
Hình 4.2.8 : Luật chuyển đổi giá trị định lượng thành giá trị định tính
94
Hình 4.3.1 : Những luật suy diễn theo nội suy thời gian …………
96
Hình 4.3.3a : Thủ tục data_retrieve ………………………………..
100
Hình 4.3.3b : Thủ tục data_inference ……………………………..
101
Hình 4.3.3c : Thủ tục temp_abstraction……………………………
102
Hình 4.4.1 : Thủ tục phân rã dữ liệu ………………………………


104
Hình 4.4.3a : Đồ thị chuyển trạng thái TS cho ví dụ phân rã dữ liệu
106
Hình 4.4.3b : Kết quả phân rã dữ liệu …………………………….
107
Hình 4.5 : Đồ thị suy diễn cho bệnh ung thư đại trực tràng …….
113
Hình 4.6.1 : Những quan hệ trong tổ chức cơ sở dữ liệu……….
115
Hình 4.6 : Kiến trúc của hệ thống TDM …………………………..
117
Hình 4.6.4a : Dữ liệu của đối tượng P00975 …………………….
120
Hình 4.6.4b : Kết quả của một câu truy vấn TYTG ……………..
122
Hình 4.7.1a : Kết quả thực nghiệm cho TYTG tương ứng với kích

123
thước của CSDL
Hình 4.7.1b : Kết quả thực nghiệm cho TYTG tương ứng với số mẩu 124
tin của đối tượng cần thực hiện TYTG.
ix
MỞ ĐẦU
Dữ liệu của những đối tượng trong thế giới thực thay đổi theo thời gian là
một thực tế, và có thể thay đổi với một diễn biến phức tạp. Ví dụ đơn giản như: giá


bán của một sản phẩm sẽ thay đổi theo thời gian, và người ta cần ghi lại những dữ
liệu thay đổi đó, và gọi chúng là dữ liệu lịch sử (historical data). Loại dữ liệu lịch
sử này hỗ trợ rất nhiều cho những quyết định trong kinh doanh, sản xuất… Một ví
dụ khác: dữ liệu về chuẩn đoán, điều trị bệnh cho bệnh nhân trong những loại bệnh
nặng, phải điều trị, theo dõi diễn biến bệnh trong thời gian dài, và trong thời gian
này bệnh có nhiều thay đổi, qua nhiều trạng thái phức tạp. Người thầy thuốc trước
khi quyết định điều trị cho bệnh nhân cần biết những dữ liệu điều trị, chuẩn đoán,
và diễn biến của bệnh trong những lần trước đó. Những dữ liệu này hỗ trợ tốt cho
thầy thuốc khi ra quyết định điều trị bệnh. Ngoài vấn đề điều trị, từ dữ liệu lịch sử
có thể tìm ra những thông tin hỗ trợ cho việc nghiên cứu, tìm ra phương pháp chữa
bệnh hữu hiệu, đặc biệt là những bệnh nặng. Do vậy, vấn đề cần đặt ra là xây dựng
một cơ sở dữ liệu để thực hiện được việc quản lý, thao tác, truy xuất, trích yếu thời
gian trên những dữ liệu lịch sử của những đối tượng trong thế giới thực. Cơ sở dữ
liệu cho những dữ liệu lịch sử được gọi là cơ sở dữ liệu hướng thời gian
(CSDLTG). Mô hình dữ liệu thời gian (temporal data model) đã được nhiều tác giả
nghiên cứu từ hai mươi năm qua và đã có nhiều ứng dụng [37],[50] như:
- Tài chính: kế toán, quản lý vốn đầu tư, ngân hàng, quản lý kho.
- Lịch biểu : hàng không, hỏa xa, khách sạn.
- Quản lý dự án và dự báo thời tiết
- Quản lý nhân sự, chăm sóc sức khỏe, điều trị bệnh.

Hiện tại, có những ứng dụng trong y khoa trên mô hình dữ liệu thời gian,
điển hình như một nhóm khoảng 50 người nghiên cứu tại khoa y của đại học
Stanford, Hoa kỳ. Họ đã nghiên cứu vấn đề này trong nhiều năm qua, đưa ra nhiều
bài báo [3],[9],[10],[11], và đạt được kết quả tốt trong việc chăm sóc sức khỏe, điều


trị những bệnh nặng, mãn tính và một số ứng dụng khác ngoài lãnh vực y khoa. Đã
-1có những bệnh viện mà hồ sơ bệnh án được lưu trữ theo thời gian trên máy tính
(Electronic Medical Records) và có thể bệnh nhân được khám bệnh, điều trị từ xa,
thông qua dữ liệu lịch sử đã lưu, và những dữ liệu chuẩn đoán mới của bệnh nhân
như: số đo bằng thiết bị y khoa, hình ảnh, triệu chứng … được lấy từ một trung tâm
chuẩn đoán gần họ nhất. Sau đó, dữ liệu được truyền tải đến bệnh viện chuyên
khoa lớn, tín nhiệm có nhiều chuyên gia qua mạng máy tính. Bệnh nhân sẽ nhận
được kết quả chuẩn đoán và cách điều trị từ bệnh viện này, và hơn nữa những dữ
liệu lịch sử này được dùng để chăm sóc sức khỏe trong tương lai cho họ [23].
Xuất phát từ những thực tiễn đó, dẫn chúng tôi đi đến nghiên cứu CSDLTG
bằng cách dựa trên những kết quả do nhiều nhà nghiên cứu đi trước để nghiên cứu
một cơ sở lý thuyết về nó, và trên cơ sở này có thể phát triển những ứng dụng.
Chúng tôi chọn đề tài “RÀNG BUỘC TOÀN VẸN VÀ TRÍCH YẾU THỜI GIAN
TRONG CƠ SỞ DỮ LIỆU HƯỚNG THỜI GIAN VÀ ỨNG DỤNG”. Chọn ứng
dụng trên bệnh ung thư, vì đối với loại bệnh này, bệnh nhân cần được phát hiện
sớm, chữa trị kịp thời và thời gian theo dõi điều trị bệnh là khá dài, thường là từ 5
năm trở nên kéo theo khối lượng dữ liệu lịch sử điều trị, theo dõi là lớn, và phải
dựa trên dữ liệu này, để thầy thuốc theo dõi, quyết định điều trị cũng như kết luận
bình phục.
Ý nghĩa thực tiễn của đề tài nghiên cứu là trên cơ sở lý thuyết của CSDLTG, có
thể xây dựng một chương trình ứng dụng. Người thầy thuốc có thể dễ dàng đặt câu
truy vấn truy xuất hay trích yếu dữ liệu thời gian về một bệnh nhân cụ thể trong
một khoảng thời gian tùy ý, để lấy thông tin hỗ trợ cho quyết định điều trị. Đồng



thời, chương trình vẫn được cập nhật dữ liệu lịch sử của những bệnh nhân. Theo
thời gian, khối lượng dữ liệu thời gian càng ngày càng tăng, chúng là tài nguyên
quí giá, cho phép khai phá dữ liệu, tìm được tri thức mới, hỗ trợ cho việc nghiên
cứu tìm ra những nguyên nhân, những diễn biến của bệnh để có biện pháp chữa trị
đúng, kịp thời và nhất là tìm ra những phương pháp mới để điều trị bệnh đạt hiệu
quả cao.
-2CHƯƠNG 1
TỔNG QUAN
Chương này, thứ nhất điểm qua các công trình nghiên cứu của một số tác giả
đi trước có liên quan đến luận án, qua đó, tiếp thu được những khái niệm, ý
tưởng làm nền tảng cho việc nghiên cứu, đồng thời nghiên cứu, tìm ra được
những điều có thể đóng góp thêm. Thứ hai là trình bày những hướng tiếp cận
của luận án để giải quyết một số vấn đề mà luận án tập trung nghiên cứu.
1.1 Phân tích, đánh giá một số công trình đi trước
Trong phần này, luận án phân tích một số hướng tiếp cận của một số tác giả
đã nghiên cứu về những vấn đề:
- Mô hình dữ liệu thời gian (temporal data model)
- Ngôn ngữ truy vấn thời gian (temporal query language)
- Tính toàn vẹn của dữ liệu ràng buộc theo thời gian (temporal integrity
constraint)
- Trích yếu thời gian (temporal abstraction) trên CSDLTG
1.1.1 Mô hình dữ liệu thời gian
Có khoảng hơn hai mươi mô hình dữ liệu thời gian đã được nghiên cứu đề


xuất trong hơn mười lăm năm qua. Hầu hết trong chúng là những mô hình chỉ có
thời gian hợp lệ (valid-time). Một số mô hình khác chỉ có thời gian giao tác
(transaction-time), ý nghĩa thuật ngữ “thời gian hợp lệ” và “thời gian giao tác” được
trình bày trong chương 2, mục 2.1”. Có vài mô hình có cả thời gian hợp lệ và thời

gian giao tác gọi là song thời gian (bitemporal). Trong [36] đã liệt kê những mô
hình dữ liệu thời gian đã được đề xuất, như bảng 1.1.1a.
Ngoài vấn đề khác nhau về loại thời gian (thời gian hợp lệ, thời gian giao tác,
song thời gian), thì những mô hình đang tồn tại này được phân thành hai hướng tiếp
cận khác nhau: 1) Nhãn thời gian (timestamping) đặt trên những giá trị của thuộc
-3Bảng 1.1.1a: Những mô hình dữ liệu thời gian
Mô hình dữ liệu thời gian
Chiều thời gian
Tác giả
bitemporal
Ahn,
1986
Temporally Oriented Data Model
valid-time
Ariav, 1986
Time Relational Model
bitemporal
Ben-Zvi, 1982
valid-time


Brooks,
1956
Historical Data Model
valid-time
Clifford-1, 1983
Historical Relational Data Model
valid-time
Clifford-2, 1987
Homogeneous Relational Model

valid-time
Gadia-1, 1988
Heterogeneous Relational Model
valid-time
Gadia-2, 1988
TempSQL bitemporal
Gadia-3,
1992
DM/T transaction
Jensen,
1991
LEGOL 2.0
valid-time
Jones
DATA transaction


Kimball,
1978
* Temporal Relational Model
valid-time
Lorentzos, 1988
bitemporal
McKenzie,
1991
*Temporal relational Model
valid-time
Navathe, 1989
HQL valid-time
Sadeghi,

1987
HSQL valid-time
Sarda
Temporal Data Model
valid-time
Segev, 1987
TQuel bitemporal
Snodgrass,
1987
Postgres transaction
Stonebraker,


×