Tải bản đầy đủ (.pdf) (204 trang)

Ràng buộc toàn vẹn và trích yếu thời gian trong cơ sở dữ liệu hướng thời gian và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.72 MB, 204 trang )

ĐẠI HỌC QUỐC GIA TP. HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA TP. HCM

------------------

Phạm văn Chung

RÀNG BUỘC TỒN VẸN VÀ TRÍCH YẾU
THỜI GIAN TRONG CƠ SỞ DỮ LIỆU
HƯỚNG THỜI GIAN VÀ ỨNG DỤNG

TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01

TP.HCM - Năm 2008


ĐẠI HỌC QUỐC GIA TP. HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA TP. HCM

------------------

Phạm văn Chung

RÀNG BUỘC TỒN VẸN VÀ TRÍCH YẾU
THỜI GIAN TRONG CƠ SỞ DỮ LIỆU
HƯỚNG THỜI GIAN VÀ ỨNG DỤNG
TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT


Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01
NGƯỜI HƯỚNG DẪN KHOA HỌC
1- PGS.TS. DƯƠNG TUẤN ANH
2- PGS. TS. TRẦN THÀNH TRAI
Phản biện 1: PGS.TS. Đồng thị Bích Thủy
Phản biện 2: PGS. TSKH. Nguyễn Xuân Huy
Phản biện 3: PGS. TS. Đỗ Phúc
Bảo vệ luận án cấp Nhà nước ngày 25/6/2008
tại ĐH. Bách khoa, ĐH. Quốc gia Tp. HCM

TP.HCM - Năm 2008


LỜI CAM ĐOAN
Tôi cam đoan rằng nội dung của luận án này là kết quả nghiên cứu của riêng
tôi. Tất cả những ý tưởng tham khảo từ kết quả nghiên cứu được cơng bố trong các
cơng trình khoa học đều được nêu rõ trong luận án. Những chương trình phần mềm
được cài đặt và những đóng góp trong luận án là do chính tơi thực hiện và chưa
được cơng bố trong bất cứ cơng trình nào khác.
Tác giả luận án
Phạm văn Chung

i


LỜI CẢM ƠN
Trân trọng cảm tạ quí thày trong Ban Lãnh đạo Khoa CNTT, và chủ nhiệm
bộ môn cơ sở dữ liệu trường ĐHBK-TP.HCM đã động viên, hướng dẫn cũng như
tạo mọi điều kiện thuận lợi cho quá trình nghiên cứu thực hiện luận án.

Xin tri ân PGS. TS. Dương Tuấn Anh, PGS. TS. Trần Thành Trai là những
người Thày đã tận tình dẫn dắt tơi suốt q trình học hỏi, nghiên cứu khoa học, thực
hiện những chuyên đề. Đặc biệt Thày Dương Tuấn Anh đã truyền thụ cho tôi nhiều
kiến thức, phương pháp làm việc, nghiên cứu cho một nghiên cứu sinh để tìm ra
được những đóng góp của luận án.
Xin cảm ơn GS. TS. Yual Shahar, M.D., Ph.D, Professor of Medicine and
Computer Science Stanford Medical Informatics Medical School Office Building
X215, 251 Campus Drive Stanford University Standford, CA 94305-5479, và GS.
TS. Hồ Tú Bảo, School of Knowledge Science, Japan Advanced Institute of Science
and Technology, đã cung cấp tài liệu và cho nhiều ý kiến qúi báu giúp hoàn thiện
luận án.
Chân thành cảm ơn Ban Giám Đốc Bệnh viện Ung Bướu TP.HCM đã tiếp
nhận, tạo điều kiện cho phép tôi được tìm hiểu những dữ liệu của bệnh nhân về
bệnh ung thư, và được ThS. BS. Nguyễn Đức Bảo và q Bác sĩ của Phịng Chỉ Đạo
tuyến của Bệnh viện đã hướng dẫn, giải thích cho tơi thu thập được những dữ liệu
trên những bệnh án, để thực hiện ứng dụng trong luận án.
Trân Trọng
NCS Phạm văn Chung

ii


DANH MỤC CHỮ VIẾT TẮT
CSDL : cơ sở dữ liệu
CSDLTG : cơ sở dữ liệu hướng thời gian
CEA : CarcinoEmbryonic Antigen: chất đánh dấu sinh học tốt nhất cho bệnh Ung
thư đại trực tràng.
Câu PS: câu-có-khn-mẫu
Hệ thống KBTA: hệ thống khung thức tổng quát KBTA
KBTA : Knowledge-based temporal abstraction

RBTV : ràng buộc tồn vẹn
RBTVTG : tính tồn vẹn của dữ liệu ràng buộc theo thời gian
TYTG : trích yếu thời gian

iii


MỤC LỤC
MỞ ĐẦU

1

Chương 1 TỔNG QUAN ………………………………………………… 3
1.1 Phân tích, đánh giá một số cơng trình đi trước …………………….
1.1.1 Mơ hình dữ liệu thời gian ……………………………………….
1.1.2 Ngơn ngữ truy vấn thời gian ……………………………………
1.1.3 Tính tồn vẹn của dữ liệu ràng buộc theo thời gian ………..
1.1.4 Trích yếu thời gian trên cơ sở dữ liệu thời gian ……………..
1.2 Những vấn đề nghiên cứu của luận án …………………………….
1.2.1 Mơ hình dữ liệu thời gian và ngôn ngữ truy vấn thời gian …..
1.2.2 Ràng buộc tồn vẹn thời gian ………………………………….
1.2.3 Trích yếu thời gian …………………………………………. …..
1.3 Tổ chức của luận án ………………………………………………….

3
3
6
8
12
16

16
17
18
19

Chương 2

20

CƠ SỞ LÝ THUYẾT ……………………………………….

2.1
2.2
2.3
2.4

Một số thuật ngữ ………………………………………………………
Thời gian hợp lệ trong mơ hình dữ liệu thời gian ………………….
Bảng dữ liệu trạng thái, bảng dữ liệu biến cố và khoảng thời gian
Những phép toán trên khoảng thời gian ……………………………
2.4.1 Phép so sánh khoảng ………………………………………….
2.4.2 Phép hội (UNION) ………………………………………………
2.4.3 Phép giao (INTERSECT) ………………………………………
2.4.4 Phép trừ (MINUS) ………………………………………………
2.4.5 Phép toán fold ………………………………………………….
2.4.6 Phép toán unfold ……………………………………………….
2.5 Sự chuẩn hoá thời gian ……………………………………………….
2.5.1 Tính chất đồng bộ và phụ thuộc thời gian …………………….
2.5.2 Sự chuẩn hoá thời gian …………………………………………
2.6 Sự cần thiết chuẩn hoá thời gian ………………………………..

2.7 Vấn đề thời gian bất định trong CSDLTG ………………………….
2.7.1 Tính bất định …………………………………………………….
2.7.2 Mở rộng ngữ nghĩa ……………………………………………..
2.8 Ngôn ngữ truy vấn thời gian . …………………………………………
2.8.1 Đại số quan hệ …………………………………………………..
2.8.2 Đại số quan hệ thời gian ……………………………………….
2.8.3 Chuyển đại số quanhệ thời gian thành đại số quan hệ …….
2.8.4 Tiểu ngôn ngữ truy vấn thời gian SubTSQL …………………
2.9 Tóm tắt chương ……………………………………………………….

iv

20
22
22
23
24
26
26
26
26
28
28
29
31
32
33
33
34
36

36
36
37
37
37


Chương 3 TÍNH TỒN VẸN CỦA DỮ LIỆU RÀNG BUỘC THEO
THỜI GIAN

40

3.1 Đồ thị chuyển trạng thái biểu thị RBTVTG ....…………………….. .
3.1.1 Định nghĩa 1 (Đồ thị chuyển trạng thái ) …………………….
3.1.2 Định nghĩa 2 (Thoả mãn nhãn trên cạnh của đồ thị)……….
3.1.3 Định nghĩa 3 (Dãy chuyển trạng thái) ………………………..
3.1.4 Định nghĩa 4 (Ràng buộc theo thứ tự thời gian) ……………
3.1.5 Định nghĩa 5 (Ràng buộc trên qui luật nghiệp vụ) ………….
3.1.6 Định nghĩa 6 (Ràng buộc trên dãy chuyển trạng thái) …….
3.2 Xây dựng những thủ tục kiểm tra RBTVTG ………………. ………
3.2.1 Những trạng thái được lặp lại trong dãy chuyển trạng thái …
3.2.2 Kiểm tra RBTVTG trên đồ thị chuyển trạng thái …………….
3.3 Xây dựng đồ thị chuyển trạng thái từ đặc tả ràng buộc toàn vẹn .
3.3.1 Cú pháp và ngữ nghĩa của PS ………………………….....
3.3.2 Đặc tả RBTVTG bằng PS ………………………………….
3.3.3 Kiểm tra PS hợp lệ …………………………………………
3.3.4 Chuyển đổi PS thành đồ thị chuyển trạng thái ………….
3.4 Cài đặt RBTVTG …………………………………………………
3.4.1 RBTVTG và qui luật nghiệp vụ ………………………………
3.4.2 Đặc tả ràng buộc RB bằng PS ………………………………

3.4.3 Chuyển đổi PS thành đồ thị chuyển trạng thái …………….
3.4.4 Lược đồ cơ sở dữ liệu và kiểm tra RBTVTG ………………
3.5 Tầm quan trọng của RBTVTG
3.6 Biện luận ……………………………………………………………..
3.6.1 So sánh hướng tiếp cận của luận án với hướng tiếp cận của
Gertz
3.6.2 Đánh giá chi phí bằng thực nghiệm ………………………….
3.7 Tóm tắt chương ……………………………………………………….

41
42
44
45
45
46
47
47
49
57
57
57
60
64
67
69
69
70
70
72
72

74
74

Chương 4 TRÍCH YẾU THỜI GIAN TRONG CƠ SỞ DỮ LIỆU THỜI
GIAN

79

4.1 Những phương pháp suy diễn và những tri thức cần thiết ………
4.1.1 Những phương pháp suy diễn và cơ chế…………………….
4.1.2 Những tri thức cần thiết cho trích yếu thời gian ……………..
4.2 Cơ sở tri thức cho trích yếu thời gian ……………………………….
4.2.1 Một số tính chất của luật suy diễn …………………………….
4.2.2 Tính an tồn (safe) của luật …………………………………...
4.2.3 Luật suy diễn thời gian trên cơ sở dữ liệu thời gian ………..
4.2.4 Ngơn ngữ trích yếu thời gian TAR (Temporal-Abstraction Rules)
4.2.5 Luật TYTG theo chiều ngang dùng cơ chế suy diễn thời
gian
4.2.6 Luật TYTG theo chiều dọc dùng cơ chế trích yếu đồng thời .
4.2.7 Luật TYTG theo nội suy thời gian dùng cơ chế nội suy thời
gian

80
80
84
84
84
86
87
88

90

v

76
77

91
92


4.2.8 Luật TYTG khơng có cơ chế trích yếu thời gian …………..
4.3 Trích yếu thời gian trên đồ thị suy diễn ……………………………
4.3.1 Đồ thị suy diễn ………………………………………………….
4.3.2 Hướng tiếp cận trích yếu thời gian trên đồ thị suy diễn ……
4.3.3 Xây dựng thủ tục trích yếu thời gian trên đồ thị suy diễn ….
4.4 Phân rã dữ liệu theo thời gian để chuẩn bị TYTG ………………..
4.4.1 Thủ tục phân rã dữ liệu …………………………………………
4.4.2 Phân tích độ phức tạp của giải thuật phân rã dữ liệu ………
4.4.3 Một ví dụ phân rã dữ liệu ………………………………………
4.5 Ứng dụng trích yếu thời gian ………………………………………..
4.5.1 Xây dựng luật suy diễn trong ứng dụng ……………………..
4.5.2 Xây dựng đồ thị suy diễn trong ứng dụng …………………..
4.6 Cài đặt trích yếu thời gian …………………………………………..
4.6.1 Tổ chức cơ sở dữ liệu …………………………………………
4.6.2 Tích hợp TYTG với quản lý dữ liệu thời gian vào một kiến
trúc đơn
4.6.3 Kiến trúc của hệ thống TDM …………………………………
4.6.4 Ví dụ câu truy vấn TYTG …………………………………….
4.7 Phân tích TYTG dựa vào thực nghiệm ……………………….

4.7.1 Chi phí TYTG của luận án bằng thực nghiệm ……………..
4.7.2 Chi phí của hệ thống RÉSUMÉ của Shahar và IDAN của
Boaz
4.8 Tóm tắt chương …………………………………………………….
Chương 5 NHỮNG KẾT QUẢ VÀ BIỆN LUẬN

93
94
94
97
99
103
104
104
105
108
109
114
114
114
115
116
119
122
122
124
125
127

Kết quả của chương 3 ………………………………………………

Kết quả của chương 4 ………………………………………………
Kết quả của chương 5 ……………………………………………..
Hướng phát triển của luận án ………………………………….......

127
128
130
133

KẾT LUẬN ………………………………………………………………….

135

PHỤ LỤC A ………………………………………………………………..

-1-

PHỤ LỤC B ………………………………………………………………..

-14-

PHỤ LỤC C ……………………………………………………………….

-27-

PHỤ LỤC D ……………………………………………………………….

-31-

PHỤ LỤC E ……………………………………………………………….


-45-

CÔNG TRÌNH CỦA TÁC GIẢ ……………………………………………

A

TÀI LIỆU THAM KHẢO …………………………………………………..

B

5.1
5.2
5.3
5.4

vi


DANH MỤC BẢNG

Bảng 1.1.1a
: Những mơ hình dữ liệu thời gian
Bảng 1.1.1b
: Bảng Phien_truc
Bảng 1.1.1c
: Bảng Luong
Bảng 1.1.3a
: Quan hệ rα
Bảng 1.1.3b

: Những quan hệ bổ trợ rα.
Bảng 2.4a: Định nghĩa những phép so sánh trên khoảng
Bảng 2.4b: Minh họa hình học của các phép so sánh khoảng
Bảng 2.5.1a: Quan hệ Employee
Bảng 2.5.1b: Quan hệ Maintenance
Bảng 2.5.1c: Quan hệ Sal-Mgr
Bảng 2.6a: kết quả câu truy vấn thừa thông tin
Bảng 2.6b: Kết quả đúng cho câu truy vấn
Bảng 4.4.3a : Bảng Vertices
Bảng 4.4.3b : Bảng Transition_state
Bảng 4.4.3c : Bảng Labels
Bảng 5.4.3a : Bảng dữ liệu thời gian E của những đối tượng
Bảng 5.4.3b : Bảng Temp ứng với đối tượng P005
Bảng 5.4.3c : Bảng Temp ứng với đối tượng P001
Bảng 5.6.3 : Màn hình giao diện cho trích yếu thời gian
Bảng 5.6.4a : Dữ liệu được truy xuất từ CSDL vào bảng retrievedtable
Bảng 5.6.4b : Kết quả TYTG trên bảng 5.6.3a
Bảng 5.7.1 : Độ phức tạp của semi-naive

vii

4
5
5
9
9
24
25
29
29

30
32
33
71
71
72
106
106
106
137
121
121
125


DANH MỤC HÌNH
Hình 1.1.3: Đồ thị chuyển trạng thái ………………………………...
Hình 1.1.4a: Trình bày tổng quát phương pháp KBTA……………
Hình 1.1.4b: Những giá trị định tính cho TYTG trên độ đo khí trong
máu
Hình 1.1.4c: Khung thức khám phá tri thức trong CSDL viêm gan
Hình 2.3: Bảng trạng thái drug_treatment và bảng biến cố CEA_value
Hình 2.4.5a: Thực hiện phép fold trên thuộc tính Duration………..
Hình 2.4.5b: Thủ tục fold ……………………………………………..
Hình 2.5.2:Phân rã Sal-Mgr thành Tmanager và Tsalary ………...
Hình 3.1.1 :Đồ thị chuyển trạng thái T ……………………………..
Hình 3.1.2 : Nhãn trên cạnh của đồ thị …………………………….
Hình 3.1.4 : Ràng buộc theo thứ tự thời gian …………… ……….
Hình 3.1.5 : Đồ thị chuyển trạng thái , s1 là thái đầu ……………..
Hình 3.2.1a : Đồ thị chuyển trạng thái có s1: đỉnh khởi đầu, s4: đỉnh

kết thúc
Hình 3.2.1b : Ghi giá trị tần suất t vào bảng dữ liệu
Hình 3.2.2a : Minh họa thêm dữ liệu vào đỉnh j ở vị trí liền sau với
đỉnh i.
Hình 3.2.2b : Thủ tục Insertting(O, n, t) …………………………….
Hình 3.2.2c : Những thủ tục con của thủ tục Inserting ……………
Hình 3.2.2d : Những hàm cho thủ tục Inserting ……………………
Hình 3.2.2e : Xố thể hiện của đối tượng tại s3 ………………….
Hình 3.2.2f : Xố đối tượng O có giá trị x tại một đỉnh của đồ thị .
Hình 3.2.2g : Thủ tục Deleting(O, n, x) ……………………………..
Hình 3.2.2h : Thủ tục Updating (O, n, x )……………………………
Hình 3.3.2a : Đồ thị chuyển trạng thái có nhãn l3 mâu thuẫn …..
Hình 3.3.2b : Đồ thị chuyển trạng thái tương ứng với PS trong ví dụ
3.3.2b
Hình 3.3.3a : Thủ tục check_state_label (L, V) ……………………
Hình 3.3.3b : Thủ tục contradictory_label(TS)……………………..
Hình 3.3.3c : Thủ tục object_passed (V, TS) ……………………..
Hình 3.3.3d : Thủ tục double_label(TS) ……………………………
Hình 3.3.3e : Thủ tục non_transfer(TS) ……………………………
Hình 3.3.3f : Thủ tục check_ label (L, TS)…………………………
Hình 3.3.4a : Thủ tục chuyển PS thành đồ thị chuyển trạng thái..
Hình 3.3.4b : Những thủ tục con của thủ tục PS_to_TransGraph
Hình 3.3.4c : Những thủ tục con của thủ tục PS_to_TransGraph
(tiếp theo)
Hình 3.4.2: PS diễn tả ràng buộc RB …………………………………
Hình 3.4.3 : Đồ thị chuyển trạng thái mơ tả RBTVTG trên chu kỳ sống
của đối tượng.
Hình 3.6 :Thời gian kiểm tra RBTVTG ứng với số mẩu tin trong CSDL

viii


11
12
14
15
23
27
28
31
42
44
44
46
48
49
50
52
52
53
53
54
55
56
60
63
65
65
66
66
66

67
68
68
69
70
71
76


Hình 4.1.1a : Phương pháp hạn chế ngữ cảnh dùng cơ chế hình
thành ngữ cảnh
Hình 4.1.1b : Suy diễn theo chiều dọc dùng cơ chế trích yếu đồng
thời
Hình 4.1.1c : Suy diễn theo chiều ngang bằng cơ chế suy diễn thời
gian
Hình 4.1.1d : Những giá trị điểm thời gian từ T1 đến T6 được trích
yếu theo nội suy thời gian
Hình 4.1.1e : Phương pháp suy diễn so trùng mẫu thời gian ……
Hình 4.2.1 : Đồ thị phụ thuộc của tập luật suy diễn……………….
Hình 4.2.5 : Luật TAR, TYTG theo chiều ngang ………………….
Hình 4.2.6 : Luật TAR, TYTG theo chiều dọc …………………….
Hình 4.2.7 : Luật TAR, TYTG theo phương pháp nội suy thời gian
Hình 4.2.8 : Luật chuyển đổi giá trị định lượng thành giá trị định tính
Hình 4.3.1 : Những luật suy diễn theo nội suy thời gian …………
Hình 4.3.3a : Thủ tục data_retrieve ………………………………..
Hình 4.3.3b : Thủ tục data_inference ……………………………..
Hình 4.3.3c : Thủ tục temp_abstraction……………………………
Hình 4.4.1 : Thủ tục phân rã dữ liệu ………………………………
Hình 4.4.3a : Đồ thị chuyển trạng thái TS cho ví dụ phân rã dữ liệu
Hình 4.4.3b : Kết quả phân rã dữ liệu …………………………….

Hình 4.5 : Đồ thị suy diễn cho bệnh ung thư đại trực tràng …….
Hình 4.6.1 : Những quan hệ trong tổ chức cơ sở dữ liệu……….
Hình 4.6 : Kiến trúc của hệ thống TDM …………………………..
Hình 4.6.4a : Dữ liệu của đối tượng P00975 …………………….
Hình 4.6.4b : Kết quả của một câu truy vấn TYTG ……………..
Hình 4.7.1a : Kết quả thực nghiệm cho TYTG tương ứng với kích
thước của CSDL
Hình 4.7.1b : Kết quả thực nghiệm cho TYTG tương ứng với số mẩu
tin của đối tượng cần thực hiện TYTG.

ix

81
81
82
83
84
86
90
91
93
94
96
100
101
102
104
106
107
113

115
117
120
122
123
124


MỞ ĐẦU
Dữ liệu của những đối tượng trong thế giới thực thay đổi theo thời gian là
một thực tế, và có thể thay đổi với một diễn biến phức tạp. Ví dụ đơn giản như: giá
bán của một sản phẩm sẽ thay đổi theo thời gian, và người ta cần ghi lại những dữ
liệu thay đổi đó, và gọi chúng là dữ liệu lịch sử (historical data). Loại dữ liệu lịch
sử này hỗ trợ rất nhiều cho những quyết định trong kinh doanh, sản xuất… Một ví
dụ khác: dữ liệu về chuẩn đoán, điều trị bệnh cho bệnh nhân trong những loại bệnh
nặng, phải điều trị, theo dõi diễn biến bệnh trong thời gian dài, và trong thời gian
này bệnh có nhiều thay đổi, qua nhiều trạng thái phức tạp. Người thầy thuốc trước
khi quyết định điều trị cho bệnh nhân cần biết những dữ liệu điều trị, chuẩn đoán,
và diễn biến của bệnh trong những lần trước đó. Những dữ liệu này hỗ trợ tốt cho
thầy thuốc khi ra quyết định điều trị bệnh. Ngoài vấn đề điều trị, từ dữ liệu lịch sử
có thể tìm ra những thơng tin hỗ trợ cho việc nghiên cứu, tìm ra phương pháp chữa
bệnh hữu hiệu, đặc biệt là những bệnh nặng. Do vậy, vấn đề cần đặt ra là xây dựng
một cơ sở dữ liệu để thực hiện được việc quản lý, thao tác, truy xuất, trích yếu thời
gian trên những dữ liệu lịch sử của những đối tượng trong thế giới thực. Cơ sở dữ
liệu cho những dữ liệu lịch sử được gọi là cơ sở dữ liệu hướng thời gian
(CSDLTG). Mơ hình dữ liệu thời gian (temporal data model) đã được nhiều tác giả
nghiên cứu từ hai mươi năm qua và đã có nhiều ứng dụng [37],[50] như:
- Tài chính: kế tốn, quản lý vốn đầu tư, ngân hàng, quản lý kho.
- Lịch biểu : hàng không, hỏa xa, khách sạn.
- Quản lý dự án và dự báo thời tiết

- Quản lý nhân sự, chăm sóc sức khỏe, điều trị bệnh.
Hiện tại, có những ứng dụng trong y khoa trên mơ hình dữ liệu thời gian,
điển hình như một nhóm khoảng 50 người nghiên cứu tại khoa y của đại học
Stanford, Hoa kỳ. Họ đã nghiên cứu vấn đề này trong nhiều năm qua, đưa ra nhiều
bài báo [3],[9],[10],[11], và đạt được kết quả tốt trong việc chăm sóc sức khỏe, điều
trị những bệnh nặng, mãn tính và một số ứng dụng khác ngoài lãnh vực y khoa. Đã

-1-


có những bệnh viện mà hồ sơ bệnh án được lưu trữ theo thời gian trên máy tính
(Electronic Medical Records) và có thể bệnh nhân được khám bệnh, điều trị từ xa,
thông qua dữ liệu lịch sử đã lưu, và những dữ liệu chuẩn đoán mới của bệnh nhân
như: số đo bằng thiết bị y khoa, hình ảnh, triệu chứng … được lấy từ một trung tâm
chuẩn đoán gần họ nhất. Sau đó, dữ liệu được truyền tải đến bệnh viện chun
khoa lớn, tín nhiệm có nhiều chun gia qua mạng máy tính. Bệnh nhân sẽ nhận
được kết quả chuẩn đoán và cách điều trị từ bệnh viện này, và hơn nữa những dữ
liệu lịch sử này được dùng để chăm sóc sức khỏe trong tương lai cho họ [23].
Xuất phát từ những thực tiễn đó, dẫn chúng tơi đi đến nghiên cứu CSDLTG
bằng cách dựa trên những kết quả do nhiều nhà nghiên cứu đi trước để nghiên cứu
một cơ sở lý thuyết về nó, và trên cơ sở này có thể phát triển những ứng dụng.
Chúng tơi chọn đề tài “RÀNG BUỘC TỒN VẸN VÀ TRÍCH YẾU THỜI GIAN
TRONG CƠ SỞ DỮ LIỆU HƯỚNG THỜI GIAN VÀ ỨNG DỤNG”. Chọn ứng
dụng trên bệnh ung thư, vì đối với loại bệnh này, bệnh nhân cần được phát hiện
sớm, chữa trị kịp thời và thời gian theo dõi điều trị bệnh là khá dài, thường là từ 5
năm trở nên kéo theo khối lượng dữ liệu lịch sử điều trị, theo dõi là lớn, và phải
dựa trên dữ liệu này, để thầy thuốc theo dõi, quyết định điều trị cũng như kết luận
bình phục.
Ý nghĩa thực tiễn của đề tài nghiên cứu là trên cơ sở lý thuyết của CSDLTG, có
thể xây dựng một chương trình ứng dụng. Người thầy thuốc có thể dễ dàng đặt câu

truy vấn truy xuất hay trích yếu dữ liệu thời gian về một bệnh nhân cụ thể trong
một khoảng thời gian tùy ý, để lấy thông tin hỗ trợ cho quyết định điều trị. Đồng
thời, chương trình vẫn được cập nhật dữ liệu lịch sử của những bệnh nhân. Theo
thời gian, khối lượng dữ liệu thời gian càng ngày càng tăng, chúng là tài ngun
q giá, cho phép khai phá dữ liệu, tìm được tri thức mới, hỗ trợ cho việc nghiên
cứu tìm ra những nguyên nhân, những diễn biến của bệnh để có biện pháp chữa trị
đúng, kịp thời và nhất là tìm ra những phương pháp mới để điều trị bệnh đạt hiệu
quả cao.

-2-


CHƯƠNG 1
TỔNG QUAN
Chương này, thứ nhất điểm qua các công trình nghiên cứu của một số tác giả
đi trước có liên quan đến luận án, qua đó, tiếp thu được những khái niệm, ý
tưởng làm nền tảng cho việc nghiên cứu, đồng thời nghiên cứu, tìm ra được
những điều có thể đóng góp thêm. Thứ hai là trình bày những hướng tiếp cận
của luận án để giải quyết một số vấn đề mà luận án tập trung nghiên cứu.

1.1

Phân tích, đánh giá một số cơng trình đi trước
Trong phần này, luận án phân tích một số hướng tiếp cận của một số tác giả

đã nghiên cứu về những vấn đề:
- Mơ hình dữ liệu thời gian (temporal data model)
- Ngơn ngữ truy vấn thời gian (temporal query language)
- Tính tồn vẹn của dữ liệu ràng buộc theo thời gian (temporal integrity
constraint)

- Trích yếu thời gian (temporal abstraction) trên CSDLTG
1.1.1 Mơ hình dữ liệu thời gian
Có khoảng hơn hai mươi mơ hình dữ liệu thời gian đã được nghiên cứu đề
xuất trong hơn mười lăm năm qua. Hầu hết trong chúng là những mơ hình chỉ có
thời gian hợp lệ (valid-time). Một số mơ hình khác chỉ có thời gian giao tác
(transaction-time), ý nghĩa thuật ngữ “thời gian hợp lệ” và “thời gian giao tác” được
trình bày trong chương 2, mục 2.1”. Có vài mơ hình có cả thời gian hợp lệ và thời
gian giao tác gọi là song thời gian (bitemporal). Trong [36] đã liệt kê những mơ
hình dữ liệu thời gian đã được đề xuất, như bảng 1.1.1a.
Ngoài vấn đề khác nhau về loại thời gian (thời gian hợp lệ, thời gian giao tác,
song thời gian), thì những mơ hình đang tồn tại này được phân thành hai hướng tiếp
cận khác nhau: 1) Nhãn thời gian (timestamping) đặt trên những giá trị của thuộc

-3-


Bảng 1.1.1a: Những mơ hình dữ liệu thời gian
Mơ hình dữ liệu thời gian

Chiều thời gian

Tác giả

bitemporal

Ahn, 1986

Temporally Oriented Data Model

valid-time


Ariav, 1986

Time Relational Model

bitemporal

Ben-Zvi, 1982

valid-time

Brooks, 1956

Historical Data Model

valid-time

Clifford-1, 1983

Historical Relational Data Model

valid-time

Clifford-2, 1987

Homogeneous Relational Model

valid-time

Gadia-1, 1988


Heterogeneous Relational Model

valid-time

Gadia-2, 1988

TempSQL

bitemporal

Gadia-3, 1992

DM/T

transaction

Jensen, 1991

LEGOL 2.0

valid-time

Jones

DATA

transaction

Kimball, 1978


* Temporal Relational Model

valid-time

Lorentzos, 1988

bitemporal

McKenzie, 1991

*Temporal relational Model

valid-time

Navathe, 1989

HQL

valid-time

Sadeghi, 1987

HSQL

valid-time

Sarda

Temporal Data Model


valid-time

Segev, 1987

TQuel

bitemporal

Snodgrass, 1987

Postgres

transaction

Stonebraker, 1987

HQuel

valid-time

Tansel, 1986

Accounting Data Model

bitemporal

Thompson, 1991

Time Oriented Data Base Model


valid-time

Wiederhold, 1975

-4-


tính (attribute-value). 2) Nhãn thời gian đặt trên những bộ (tuples). Luận án dựa trên
hai mơ hình của Lorentoz [45] và của Navathe [47] như sau:
• Mơ hình của Lorentzos
Mơ hình của Lorentzos là mơ hình chỉ có thời gian hợp lệ, ơng mở rộng mơ
hình dữ liệu quan hệ để ứng dụng trong những CSDL có thời gian hợp lệ, nhãn thời
gian được gán trên giá trị của thuộc tính, và dùng khoảng thời gian để ghi thời gian
hợp lệ có chu kỳ với những độ mịn (granularity) thời gian khác nhau trong cùng
một quan hệ, (ý nghĩa về độ mịn thời gian, thời gian hợp lệ có thể xem trong chương 2).
Ví dụ như quan hệ Phien_truc, trong bảng 1.1.1b, ghi lại ngày và giờ của từng nhân
viên được phân công trực với hai độ mịn thời gian là ngày và giờ ứng với giá trị của
thuộc tính.
Bảng 1.1.1b: Bảng Phien_truc
MANV
NV001
NV004
...

NGAY
d5, d9
d5, d9
...


GIO
h8, h12
h12, h16
...

Trong quan hệ trên mỗi mã nhân viên liên kết với giá trị của những thuộc
tính NGAY và GIO, với độ mịn của NGAY là từng ngày và của GIO là từng giờ.
Nói cách khác MANV có giá trị thay đổi theo thời gian là ngày và giờ thì những
giá trị thay đổi này được đặt trong hai cột NGAY và GIO, liên kết với MANV theo
từng bộ trong quan hệ.
• Mơ hình của Navathe
Mơ hình này cũng là mơ hình chỉ có thời gian hợp lệ. Nó cho phép CSDLTG
chứa những quan hệ có dữ liệu thay đổi và khơng thay đổi theo thời gian (cũng gọi
là quan hệ tĩnh).
Một CSDLTG được định nghĩa như là hội của hai tập quan hệ, một là tập
quan hệ tĩnh Rs, hai là tập Rt gồm những quan hệ có dữ liệu thời gian. Mỗi quan hệ
trong Rt có hai thuộc tính bắt buộc để ghi giá trị thời gian là: Ts ghi giá trị thời gian
bắt đầu và Te ghi giá trị thời gian kết thúc. Ví dụ: thuộc tính BACLUONG của

-5-


MANV thay đổi theo thời gian đựơc ghi trong hai cột Ts và Te của bảng Luong như
trong bảng 1.1.1c
Bảng 1.1.1c: Bảng Luong
MANV BACLUONG Ts
52
18K
5
52

20K
10

Te
9
20

1.1.2 Ngôn ngữ truy vấn thời gian
Mỗi mơ hình dữ liệu thời gian thường đưa ra một ngôn ngữ truy vấn thời
gian để thao tác, truy vấn dữ liệu thời gian. Đã có một số ngơn ngữ truy vấn được
đề xuất và được nói đến trong [68] theo thứ tự thời gian như: Legol 2.0 năm 1979,
TRM năm 1982, Tquel năm 1985, TempSQL năm 1985, HTQUEL năm 1985,
Hquel năm 1986, TSQL năm 1986, TOSQL năm 1986, HSQL năm 1990. Phần sau
đây điểm lại một số ngôn ngữ truy vấn từ năm 1990 đến nay, trong đó có những
ngơn ngữ đã đề xuất trước năm 1990, nhưng được tác giả mở rộng thêm sau năm
1990 như: ngôn ngữ TSQL của S. B. Navathe và Ahmed, năm 1993 [47], ngôn ngữ
HSQL của N. L. Sarda, năm 1993 [55], ngơn ngữ TSQL2 của Snodgrass, năm 1995
[63]. Sau đó, năm 1996, TSQL2 [37],[63] được mở rộng thành ngôn ngữ SQL3
[14],[64],[68] và vào năm 1998, dựa trên SQL3, Andreas Steiner đã đề xuất ngôn
ngữ ATSQL2 [66],[68]. Những ngôn ngữ trên đều dựa trên ngôn ngữ SQL chuẩn,
đưa thêm vào yếu tố thời gian để mở rộng thành ngôn ngữ truy vấn thời gian.
● Ngôn ngữ TSQL: Ngôn ngữ này thêm vào SQL chuẩn mệnh đề WHEN để mô tả
điều kiện giữa những khoảng thời gian, mệnh đề TIME-SLICE mô tả khoảng thời
gian cần vấn tin và mệnh đề MOVING WINDOW mô tả chiều dài thời gian (ví dụ
như ngày 6 tháng 2 năm …) trong khoảng thời gian đã mô tả trong TIME-SLICE.
Ngơn ngữ này chỉ trình bày phần truy vấn truy xuất dữ liệu, khơng trình bày phần
truy vấn định nghĩa dữ liệu.
● Ngôn ngữ HSQL: Ngôn ngữ này, trong định nghĩa dữ liệu, thêm mệnh đề mới
BASE-TABLE-DEF để định nghĩa những bảng dữ liệu thời gian gồm bảng biến cố


-6-


hay bảng trạng thái, mệnh đề GRANULARITY-DEF để định nghĩa độ mịn thời
gian (ý nghĩa: độ mịn thời gian, bảng biến cố, bảng trạng thái, xem mục 2.1, 2.2
trong chương 2). Trong câu truy vấn truy xuất dữ liệu thời gian có những từ khố,
mệnh đề mới được thêm vào, ví dụ như: từ khố COALESCED (tương tự phép tốn
fold trong mục 2.4.5 của chương 2), từ khoá CONCURRENT chỉ ra tích đồng thời
(concurrent product) thay cho tích đề-các của những quan hệ, từ khoá HISTORY
đặt trước tên bảng trong mệnh đề FROM để chỉ ra bảng đó có dữ liệu thời gian,
mệnh đề FROMTIME … TOTIME chỉ ra khoảng thời gian cần vấn tin ...
● Ngơn ngữ TSQL2: nó có khả năng rộng hơn những ngơn ngữ được trình bày ở
trên, do tác giả đã tổng hợp 9 ngôn ngữ truy vấn đã đề xuất trước đó như: Legol,
TOSQL, TSQL, HSQL, Tquel, TempSQL, Hquel, HTQUEL, và TRM [68].
TSQL2 cho phép truy xuất, cập nhật, và định nghĩa dữ liệu. Một số từ khoá mới
được thêm vào trong câu truy vấn (chi tiết hơn xem trong [64]), ví dụ như từ khố
VALID để chỉ ra câu truy vấn có yếu tố thời gian và ngược lại là
NONSEQUENCED. Đặc biệt, các tác giả cũng trình bày phương pháp chuyển đổi
từ một câu truy vấn thời gian thành câu truy vấn SQL thông thường trên cơ sở:
chuyển đổi đại số quan hệ thời gian thành đại số quan hệ truyền thống.
Ngôn ngữ TSQL và HSQL đã đưa ra được những khái niệm dựa trên nền
tảng đại số quan hệ là một cơ sở vững chắc cho việc xây dựng câu truy vấn, những
mệnh đề hay từ khoá mới trong câu lệnh, gợi được ngữ nghĩa thời gian cần truy
vấn. Tuy nhiên ngôn ngữ được trình bày ở mức lý thuyết, chưa có cài đặt. Ngôn
ngữ TSQL2 cũng được xây dựng trên cơ sở lý thuyết của đại số quan hệ, nhưng nó
bao hàm những đặc điểm của một ngôn ngữ truy vấn thời gian, có tính hệ thống
chặt chẽ và rõ ràng, nhưng chưa được cài đặt.
● Ngôn ngữ ATSQL2 [66], [67]: do Andreas Steiner và công ty TimeConsul
Product cài đặt dựa trên lý thuyết của TSQL2, được công bố từ năm 1999, và ở thời
gian này ATSQL2 chỉ hỗ trợ câu truy vấn có thời gian hợp lệ. ATSQL2 được tiếp

tục nâng cấp qua nhiều phiên bản cho đến ngày nay, và hỗ trợ song thời gian bao
gồm thời gian hợp lệ và thời gian giao tác,. Hướng tiếp cận của ATSQL2 là thiết kế

-7-


tầng trung gian để nó có thể thực hiện truy vấn trên hệ quản trị CSDL quan hệ
Oracle, mà không phải là một hệ quản trị CSDL thời gian.
● Hệ thống truy vấn thời gian Chronus II [50], [52]: do Martin J.O’Connor và
những đồng sự (năm 2002) đề xuất một hệ thống truy vấn thời gian có tên là
Chronus II. Họ

mô tả ngữ nghĩa của phép kết thời gian khác với phép kết nối

thơng thường trong những bảng khơng có dữ liệu thời gian, và ứng dụng vào việc
thực hiện những câu truy vấn thời gian trên nhiều bảng có yếu tố thời gian trong cơ
sở dữ liệu bệnh viện. Chronus phát triển để những câu truy vấn hỗ trợ được cho việc
ra quyết định điều trị trong khoa y của trường đại học Stanford.
1.1.3 Tính tồn vẹn của dữ liệu ràng buộc theo thời gian
Tính tồn vẹn của dữ liệu ràng buộc theo thời gian, gọi tắt là ràng buộc tồn
vẹn thời gian (RBTVTG) phải đặt ra khi có những thao tác cập nhật dữ liệu thời
gian. Có một số tác giả [12],[17],[18],[29],[30],[42],[43] đã nghiên cứu về vấn đề
này. Sau đây lược qua hai hướng tiếp cận mà luận án quan tâm.
1) Hướng tiếp cận của Chomicki [16],[17],[18],[19]

Chomicki trình bày phương pháp về RBTVTG, được gọi là History-less.
Phương pháp này khi thực hiện kiểm tra RBTVTG, không cần kiểm tra trên toàn bộ
dữ liệu thời gian, mà chỉ cần kiểm tra trên một số dữ liệu cần thiết được đặt trong
những quan hệ bổ trợ (auxiliary relation). Những quan hệ bổ trợ được sinh ra một
cách tự động khi RBTVTG được định nghĩa.

Mỗi RBTVTG được mô tả bằng những cơng thức PastTL. Sau đó chuyển
thành logic bậc nhất FOL (First-order-logic) chứa những quan hệ bổ trợ .
Gọi F là công thức PastTL, mỗi công thức con α của F thì được thay bằng quan hệ
bổ trợ rα.
Với F → F[rα/ α] mà α ∈ {• A, A since B}

-8-


A, B là những công thức PastTL. D0, D1, . . ., Dn là những trạng thái của CSDLTG,
Di biểu thị trạng thái của CSDLTG ở thời điểm i.
Bảng 1.1.3a: Quan hệ rα
α

Định nghĩa rα
:= false
:= A n-1

•A

r

A since B

rnα
r0α : = false
rnα := rn-1α ∧ An ∨ Bn-1 ∧ An

0


α

A since B là đúng trong trạng thái Di, nếu B đúng trong trạng thái Dk, với mọi
0 ≤ k • A là đúng trong Di, nếu i > 0 và A đúng trong Di-1 .
Quan hệ rα được định nghĩa như bảng 1.1.3a. Những chỉ số 0, n, n-1 trong biểu thị
trạng thái thích hợp của cơ sở dữ liệu và cơ sở dữ liệu có n+ 1 trạng thái, tính từ chỉ
số 0 đến n.
Ví dụ : Xem một ràng buộc: “không nhân viên (emp) nào được nhận làm việc lại,
sau khi họ đã nghỉ việc”.
Ràng buộc (RB) được mơ tả bằng PastTL như
RB :

¬(∃x) (emp(x) ∧ (ơemp(x) ãemp(x)))

(), () v ãA: l nhng kt nối thời gian, có nghĩa: ln ln trong q khứ (always
in past), một thời điểm nào trong quá khứ và thời gian trước A.

RB được xem như PastTL ở mức gốc, và có hai cơng thức con α1 và α2 .

1 = ơemp(x) ã emp(x)
2 = ã emp(x)
PastTL c chuyển đổi thành logic bậc nhất, tạo ra những quan hệ bổ trợ rα :như

bảng 1.1.3b.

-9-


Bảng 1.1.3b : Những quan hệ bổ trợ rα.

PastTL
RB

α1
α2

FOL
∧ ∝1 (x)
:= false
:= rn-1α1 (x) ∨ rn-1α 2 (x) ∧¬ empn-1α1(x)
:= false
:= empn-1(x)

¬∃x.empn(x)
r0α1(x)
rnα1 (x)
r0α2 (x)
rnα2 (x)

rn

Hướng tiếp cận về RBTVTG của Chomicki tương tự như ràng buộc tồn vẹn
khơng có thời gian, để giải quyết yếu tố thời gian. Phương pháp đưa ra quan hệ bổ
trợ, điều này giảm được chi phí trong kiểm tra RBTVTG và đây là điểm nổi bật về
cách tiếp cận RBTVTG của Chomicky. Tuy nhiên phương pháp này không hỗ trợ
cho việc theo dõi diễn biến chu trình sống của đối tượng, do đó khó có thể mở rộng
để dùng cho những ứng dụng khác.
2) Hướng tiếp cận của Gertz và Lipeck [29],[30].

Gertz và Lipeck áp dụng phương pháp kiểm tra ràng buộc toàn vẹn trong cơ sở

dữ liệu truyền thống, được trình bày trong [42],[43]. Để đưa vào ngữ cảnh của cơ sở
dữ liệu thời gian, các tác giả dùng logic thời gian (temporal logic) như một ngôn
ngữ chỉ ra ràng buộc, và nhấn mạnh đến vấn đề: những công thức logic thời gian
được chuyển đổi thành đồ thị chuyển trạng thái (transition graphs). Mỗi đồ thị
chuyển trạng thái có thể mơ tả đầy đủ chu kỳ sống (life cycle) của đối tượng trong
cơ sở dữ liệu (CSDL), tương ứng với RBTVTG. Những đỉnh của đồ thị biểu thị
những thông tin lịch sử của đối tượng để có thể kiểm tra RBTVTG, mỗi đỉnh có vai
trò giống như những quan hệ bổ trợ trong hướng tiếp cận của Chomicki.
Ví dụ: Một RBTVTG về vị trí công việc (jobtitle) được phát biểu:
“ Trước khi một nhân viên (employee) là lập trình viên (senior-programer) trở
thành một người phát triển phần mềm (software-developer), anh ta phải là một lập
trình viên có thâm niên nhất định nào đó, và một khi đã là người phát triển phần
mềm, anh ta ln ở vị trí này cho đến khi anh ta nghỉ việc”. RBTVTG này có thể
trình bày bằng cơng thức logic thời gian như sau:

- 10 -


During-existence ( e: EMPLOYEE):
from e.jobtitle < > “undefined” holds
(( sometime e.jobtitle = “senior-programmer”
before e.jobtitle = “software-developer”)
or (always e.jobtitle < > “software-developer”))
and from e.jobtitle = “software-developer”)) holds
(always e.jobtitle = “software-developer”).

Trong công thức logic thời gian ở trên, thì cụm từ e.jobtitle < > “undefined”
có nghĩa là e chưa được giao một vị trí có chức danh trong cơ quan. Đồ thị chuyển
trạng thái trong hình 1.1.3 mơ tả chu kỳ sống của những đối tượng là những nhân
viên làm việc trong một cơ quan, biến e tham chiếu đến những đối tượng của kiểu

EMPLOYEE là một biến tự do trên đồ thị. Đỉnh khởi đầu của đồ thị là đỉnh 0, các
đỉnh cịn lại đều có thể là đỉnh kết thúc. Những từ in đậm được xem là những từ
khoá trong công thức logic thời gian. During-existence (e: EMPLOYEE) là một
ràng buộc trên biến tự do e khi e tồn tại, from … holds, sometime, before, always
là những lượng từ thời gian có giới hạn, chi tiết hơn, xem trong [28],[42].
Hướng tiếp cận RBTVTG do Gertz và Lipeck đưa ra dùng đồ thị chuyển
trạng thái. Đỉnh của đồ thị chuyển trạng thái có vai trị như quan hệ bổ trợ trong
hướng tiếp cận của Chomicki, nghĩa là nó lưu trữ những thông tin cần thiết cho
kiểm tra RBTVTG lịch sử. Cấu trúc đồ thị cho phép dễ dàng xây dựng những thuật
tốn với chi phí thấp để kiểm tra RBTVTG là một ưu điểm của hướng tiếp cận này.
0

e.jobtitle ∉ {”senior-programmer”, “software- developer” }
e.jobtitle = “senior-programmer”

1

e.jobtitle < > “software-developer”
e.jobtitle = “software-developer”
2

e.jobtitle = “software-developer”
Hình 1.1.3 : Đồ thị chuyển trạng thái (phỏng theo ví dụ trong [29])

Về nội dung hướng tiếp cận này đã đưa ra RBTVTG là quá trình chuyển
trạng thái của đối tượng trong CSDL, và có thể giải quyết những trường hợp chuyển

- 11 -



trạng thái ở mức cơ bản. Thực tế đối tượng trong thế giới thực có chuyển trạng thái
phức tạp, khơng chỉ theo một trình tự nhất định, hơn nữa qui luật chuyển trạng thái
cũng có thể thay đổi theo thời gian.
1.1.4 Trích yếu thời gian trên cơ sở dữ liệu thời gian
Trích yếu thời gian (temporal abstraction) là rút trích những dữ liệu thô trong
CSDLTG thành những dữ liệu ngắn, gọn có ý nghĩa hơn. Cơng việc này rất có ích
trong việc hỗ trợ con người ra quyết định và có một số tác giả đã nghiên cứu hơn
mười năm qua [41]. Phần sau đây, lược qua một số hướng hướng tiếp cận trích yếu
thời gian, từ năm 1995 đến năm 2005.
1) Hướng tiếp cận của Shahar và Musen

.

Tác vụ trích yếu thời gian

Tác vụ

(The temporal-abstraction task)

Phương pháp
giải quyết vấn đề

Phương pháp trích yếu thời gian dựa trên tri thức
(The knowledge-based temporal-abstraction method)

Hạn chế ngữ
cảnh thời gian
(Temporal
context
restriction)


Suy diễn thời
gian theo chiều
dọc

Suy diễn thời
gian theo chiều
ngang

(Vertical
temporal
inference)

(Horizontal
temporal
inference)

Nội suy thời
gian

So trùng mẩu
thời gian

(Temporal
interpolation)

(Temporal
Pattern
matching)


Hình thành
ngữ cảnh

Trích yếu
đồng bộ

Suy diễn
thời gian

Nội suy
thời gian

So trùng
mẩu thời gian

(Context
formation)

(Contemporaneous
abstraction)

(Temporal
inference)

(Temporal
interpolation)

(Temporal
pattern
matching)


Tri thức có
cấu trúc
(Structural
knowledge)

Tri thức
phân lớp
(Classification
knowlededge)

Tri thức ngữ
nghĩa thời gian
(Temporal
semantic
knowledge)

Tri thức thời
gian động
(Temporal
dynamic
knowledge)

Những tác vụ con

Cơ chế
giải quyết vấn đề

Những kiểu
tri thức

yêu cầu

Hình 1.1.4a : Trình bày tổng quát phương pháp KBTA. Phương pháp thực hiện TYTG
được phân thành năm tác vụ con. Mỗi tác vụ có thể được giải quyết bởi một trong năm cơ
chế TYTG. Cơ chế TYTG yêu cầu bốn kiểu tri thức, tùy theo từng cơ chế mà những tri thức
cụ thể được yêu cầu. Kí hiệu:
là mối liên kết ĐƯỢC PHÂN CHIA THÀNH;
là mối liên kết ĐƯỢC THỰC HIỆN BỞI ;
là mối liên kết ĐƯỢC SỬ DỤNG BỞI .

- 12 -


Những tác giả đã đưa ra một hệ thống khung thức tổng quát KBTA (hệ thống
KBTA), KBTA là từ viết tắt của trích yếu thời gian dựa vào tri thức “Knowledgebased temporal abstraction” cho TYTG [4] năm 1995, [58],[59] năm 1996. Hình
1.1.4a trình bày hệ thống KBTA, trong đó trình bày những tác vụ, những cơ chế và
những tri thức cho TYTG
Họ đã cài đặt hệ thống RÉSUMÉ [60],[61] để TYTG một cách tự động trong
một số bệnh như: theo dõi phát triển của trẻ em, thực hiện ghép tủy xương, và điều
trị bệnh đái đường...
Hướng tiếp cận này đưa ra một hệ thống KBTA cho TYTG khá sâu, có thể
làm cơ sở cho xây dựng những hệ thống TYTG trên nhiều lãnh vực không riêng chỉ
là lãnh vực y khoa. Những tác giả nghiên cứu về TYTG được trình bày ở dưới đây
đều tham khảo hệ thống KBTA của Shahar. Tuy nhiên, trong những bài báo của
Shahar, không đề cập đến việc tổ chức dữ liệu thời gian, trước khi thực hiện
TYTG.
2) Hướng tiếp cận của W. Horn:
W. Horn và những đồng tác giả [33] năm 1998, đưa ra TYTG trên thời gian thực,
thông qua một ngưỡng định trước, điểm nổi bật của hướng tiếp cận này là đưa ra
một phương pháp kiểm tra và sửa chữa dữ liệu của đối tượng, để có dữ liệu hợp lệ,

trước khi thực hiện TYTG. Những khái niệm được sử dụng để kiểm tra và sửa chữa
dữ liệu bao gồm: kiểm tra miền giá trị dữ liệu (range checking), sử dụng những phụ
thuộc hàm (functional dependencies) để sửa chữa những dữ liệu vi phạm phụ thuộc
hàm, xác định những khoảng tham số có hợp lệ theo thời gian hay khơng (temporal
validity), kiểm tra sự phù hợp của những tham số khác nhau trong một khoảng thời
gian cho trước (cross-validation), giảm bớt những giá trị có mức tăng khơng hợp lý
(Hφjstrup method), so sánh hai giá trị định tính liên tiếp, nếu chúng khác nhau q
nhiều thì có giá trị khơng hợp lệ (trend asssessment), tiên đoán những giá trị chưa
biết (predicting values).

- 13 -


TYTG được họ cài đặt trong hệ thống VIE-VENT với môi trường CLIPS,
ứng dụng trên lãnh vực y khoa là thơng khí thở cho trẻ sơ sinh. VIE-VENT là hệ
thống làm việc theo thời gian thực, nên việc diễn giải dữ liệu theo thời gian của nó
khơng thực hiện tự động mà thơng qua một ngưỡng phù hợp để có thể tương thích
với những dữ liệu. VIE-VENT sử dụng những sơ đồ cảm ngữ cảnh (contextsensitive) để chuyển đổi những điểm là những độ đo khí trong máu (là con số) thành
những giá trị định tính và được phân thành bảy hạng mục như hình 1.1.4b.
Phương pháp kiểm tra dữ liệu của W.Horn [6],[7],[8] chỉ phù hợp khi dữ liệu
ứng với thời gian thực, nếu dữ liệu là dữ liệu lịch sử khơng được cập nhật theo thời
gian thực thì việc kiểm tra dữ liệu cần có những phương pháp thích hợp khác, ví dụ
như sự thoả mãn điều kiện chuyển trạng thái của đối tượng.
Mã số
g3
g2

Hạng mục
extremely
substantially


g1

slightly

normal

target

s1
s2
s3

below

range

slightly
substantially

above

extremely

Hình 1.1.4b : Những giá trị định tính cho TYTG trên độ đo khí trong máu
(blood-gas)
3) Hướng tiếp cận của Hồ Tú Bảo

Hồ Tú Bảo và các đồng sự đưa ra phương pháp trích yếu thời gian năm 2003
trong [34],[40] năm 2005 trong [35], trên dữ liệu thời gian dài hạn và tồn tại những

dữ liệu chưa hợp lệ. Điểm chính của phương pháp là căn cứ vào sự chuyển đổi
những trạng thái của đối tượng trong CSDLTG và những thuật giải để TYTG.
Phương pháp được ứng dụng trong cơ sở dữ liệu (CSDL) bệnh viêm gan, CSDL này
được thu thập dài hạn, từ năm 1982 đến năm 2001.

- 14 -


×