Tải bản đầy đủ (.pdf) (6 trang)

MultiBooks - Tổng hợp IT - PC part 17 potx

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (175.61 KB, 6 trang )

Cuối cùng, phương trình thứ 4 từ sự thật rằng o
11
là ai đó không phải là Jim Hatch
theo các khả năng 2 và 4, và từ bảng trên ta biết rằng xác suất của o
11
(không phải
là Jim Hatch) là 0.2.
Để xác định được xác suất mà pic8.gif chứa cả Ken Yip và Jim Hatch, chúng ta
phải giải hệ phương trình tuyến tính trên để có p
1
, chú ý rằng mọi kịch bản xảy ra
đều bị ảnh hưởng bởi 4 khả năng. Kết quả thu được cho thấy xác suất của p
1

không duy nhất. Nó có thể nhỏ hơn 0.3 hay lớn hơn 0.5 hay giá trị nào đó giữa
chúng. Cụ thể, khi nhân đơn thuần xác suất 0.5 kết hợp với Ken Yip (đối tượng o
10
)
và xác suất 0.8 của Jim hatch (đối tượng o
11
) ta có xác xuất 0.4.
Kết quả này mặc dù là đúng nhưng nó đặt ra vấn đề mới cơ bản. Trong mô hình dữ
liệu quan hệ, câu trả lời của bất kỳ truy vấn nào đều có thể lưu trữ như quan hệ.
Trong trường hợp các quan hệ với các thuộc tính xác suất, ta muốn các kết quả truy
vấn là các quan hệ xác suất. Tuy nhiên, quan hệ xác suất có một thuộc tính xác
xuất để vào truy vấn, nhưng kết quả lại cho khoảng xác suất, thí dụ [0.3, 0.5] như
suy diễn trên đây.
Sự cần thiết của khoảng xác suất
Thí dụ trên đây cho thấy nếu ta muốn lưu trữ thông tin dưới dạng “Đối tượng o
hiện diện trong ảnh i là X với xác suất p” thì sẽ gặp khó khăn. Ngược lại, thay thế
xác suất điểm bởi khoảng [l, u] cho phép ta thoát khỏi vấn đề này. Quan điểm này


cũng có lợi thế khác. Khi chương trình xử lý ảnh nhận ra đối tượng o trong ảnh i là
X với xác suất p, thì nếu ta để ý đến sự thật là tồn tại biên lỗi e trong nhận dạng
này, cuối cùng ta có xác suất khoảng [p-e, p+e].
Tổng quát, ta hãy quay lại bảng kết hợp xác suất của quan hệ name trên đây, mở
rộng nó bằng bổ sung pic8.gif và giả sử rằng biên lỗi là ±3%. Vậy, nếu ta có xác
suất p trong bảng, thì ta thay thế xác suất này bởi khoảng [max(0, p-0.03), min(1,
p+0.03)] để có được bảng như sau:

ObjId

Name Prob
(Lower)

Prob
(Upper)

o
1
Jim Hatch 0.77 0.83
o
1
Dave Fox 0.17 0.23
o
2
John Lee 0.72 0.78
o
2
Ken Yip 0.12 0.18
o
3

John Lee 0.97 1.00
o
4
Jim Hatch 0.97 1.00
o
5
Bill Bosco 0.97 1.00
o
6
Dave Dashell 0.97 1.00
o
7
Ken Yip 0.67 0.73
o
7
John Lee 0.27 0.33
o
8
Bill Bosco 0.57 0.63
o
8
Dave Dashell 0.17 0.23
o
8
Jim Hatch 0.07 0.13
o
9
Ken Yip 0.97 1.00
o
10

Ken Yip 0.47 0.53
o
10
Jim Hatch 0.37 0.43
o
11
Jim Hatch 0.77 0.83
o
11
John Lee 0.07 0.13

Hãy quay trở lại câu truy vấn ”Tìm ảnh chứa cả Ken Yip và Jim Hatch”. Hãy xem
xét lại ảnh pic8.gif và thấy được xác suất của ảnh chứa cả Ken Yip và Jim Hatch.
Trong trường hợp này, sử dụng cả suy diễn và chú giải như đã làm cho xác suất
khoảng, ta có thể viết ra các ràng buộc:
1/ 0.47 £ p
1
+p
2
£ 0.53
2/ 0.47 £ p
3
+p
4
£ 0.53
3/ 0.77 £ p
1
+p
3
£ 0.83

4/ 0.17 £ p
2
+p
4
£ 0.23
5/ p
1
+ p
2
+ p
3
+p
4
= 1
Hãy quan sát bất đẳng thức 3 và 4 trên đây. Bất đẳng thức 3 suy diễn từ tri thức
Jim Hatch là đối tượng o
11
với xác suất giữa 77 và 83%. Trong trường hợp xác suất
điểm, có hai khả năng (khả năng 1 và 3) trong đó đối tượng o
11
đúng là Jim Hatch.
Do đó, p
1
+p
2
phải ở trong khoảng 77-83%.
Bất đẳng thức thứ 4 được suy diễn từ tri thức rằng đối tượng o
11
là ai đó không
phải là Jim Hatch với xác suất 17-23%, vì 100-83=17 và đối tượng o

11
không phải
là Jim Hatch. Do đó, p
2
+p
4
phải nằm trong khoảng 17-23%.
Giải phương trình tuyến tính trên đây cho giá trị cực tiểu và cực đại của biến p
1
, ta
có 0.24 và 0.53.
Tiệm cận tổng quát
Hãy định nghĩa quan hệ xác suất trên lược đồ (A
1
, ,A
n
) là quan hệ thông thường
trên lược đồ (A
1
, ,A
n
, LB, UB) trong đó miền của thuộc tính UB và LB là các số
thực trong khoảng đơn vị [0, 1]. Thí dụ, quan hệ name là quan hệ xác suất có ba
thuộc tính:
(ImageId, ObjectId, Name)


Error!




Quan hệ name thoả mãn một vài ràng buộc toàn vẹn:

Error!



Ràng buộc này cho biết rằng một ObjectId chỉ kết hợp với một một ảnh, có nghĩa
rằng ảnh khác nhau có ObjectId khác nhau. Ràng buộc sau đây nói rằng trường LB
của bộ bất kỳ luôn nhỏ hơn hay bằng trường UB.
Một CSDL ảnh bao gồm quan hệ xác suất gọi là name của khuôn dạng nói trên,
cùng với tập quan hệ thông thường (không xác suất) R
1
, ,R
k
tương ứng với đặc
tính ảnh. Lý do của sự phân biệt này là vì chỉ thao tác dẫn tới tính không chắc chắn
trong CSDL ảnh là nhận dạng các đối tượng trong các ảnh, và nó được thu nhận tự
động bởi các quan hệ name. Các đặc tính của ảnh như giá trị màu R, G, B và các
đặc tính khác như loại máy chụp, thời gian chụp thông thường được xác định bởi
tính chắc chắn.
Truy vấn thành viên trong CSDL ảnh là truy vấn có hình thức “Tìm mọi ảnh trong
CSDL ảnh mà chứa các đối tượng có tên s
1
, ,s
n
”. Truy vấn này được biểu diễn
trong SQL thông thường như sau:
SELECT ImageId
FROM name T

1
, ,T
n

WHERE T
1
. Name=s
1
AND AND T
n
.Name=s
n
AND
T
1
.ImageId=T
2
.ImageId AND AND T
1
. ImageId=T
n
.ImageId
Kết quả của truy vấn thành viên là bảng chứa 3 trường: ImageId, LB và UB. (im, l,
u) trong kết quả nếu với mỗi 1 £ j £ n, tồn tại bộ t
j
Î name như sau:
1. t.ImageId = im,
2. t.LB = li và t.UB = u
i


3. [l, u] = [l
1
, u
1
] Ä [l
2
, u
2
] Ä Ä [l
n
, u
n
]
trong đó:
[x, y] Ä [x’, y’] = [ max(0, x+x’-1), min(y, y’)]
Sau một loạt suy diễn, toán tử Ä cho lại cùng kết quả như giải chương trình tuyến
tính mô tả trước đây. Do vậy, CSDL ảnh phải có cài đặt toán tử Ä.
Việc tăng cường SQL để giải quyết vấn đề trên là đưa thêm toán tử đặc biệt gọi là
HAS. Để tìm mọi ảnh chứa các đối tượng tên s
1
, ,s
n
, ta chỉ đơn thuần viết truy vấn
name HAS s1, ,sn
Ngữ nghĩa của cấu trúc đặc biệt này được hiện thực thông qua truy vấn SQL phức
tạp hơn như đã mô tả trên.
Cú pháp của SQL thông thường có thể mở rộng để cho phép các điều kiện theo
khuôn dạng
name HAS s1, ,sn
như một phần của câu lệnh WHERE. Thí dụ, truy vấn dưới đây sử dụng quan hệ

bank (bank là bảng thí dụ có các thuộc tính FNAME, LNAME, ACCTYPE,
TRANS, AMOUT, DAY, MTH, YR) và HAS để “Tìm mọi người đã gửi 9000USD
và đã chụp ảnh với Denis Jones”.
SELECT I.ImageID
FROM name I, bank B
WHERE I HAS B.name, “Denis Jones” AND
B.trans = deposit AND B.amount > 9000 AND B.name = I.name
3.7 Biểu diễn CSDL ảnh với R-Trees
CSDL ảnh có thể được biểu diễn như cây R. Nếu quan sát mọi thí dụ cho đến thời
điểm này, ta thấy rằng các đối tượng thường được biểu diễn bởi chữ nhật. Do vậy
CSDL ảnh có thể biểu diễn như sau:
1. Tạo ra quan hệ gọi là occursin với hai thuộc tính (ImageId, ObjId) để xác
định đối tượng nào trong ảnh nào.
2. Tạo ra cây R để lưu trữ các chữ nhật. Nếu cùng chữ nhật (thí dụ XLB=5,
XUB=15, YLB=20 và YUB=30) nằm trong hai ảnh, thì ta có danh sách tràn kết
hợp với nút trong cây R.
3. Mỗi chữ nhật có tập trường kết hợp để chỉ ra đặc tính mức đối tượng/vùng
của chữ nhật. Các trường này chứa thông tin về “nội dung” chữ nhật.
Để thấy rõ cách biểu diễn này hoạt động ra sao, ta mô tả CSDL mặt người trong
hình 3.1 được lưu trữ như thế nào nhờ kỹ thuật cây R.
Trước hết quan hệ occursin được mô tả trong bảng sau:

pic1.gif

o
1

pic1.gif

o

2

pic2.gif

o
3

pic3.gif

o
4

pic4.gif

o
5

pic5.gif

o
6

pic6.gif

o
7

pic6.gif

o

8

pic7.gif

o
9


Các nút trong biểu diễn cây R kết hợp với CSDL có cấu trúc sau:
facenode = record
Rec
1
, Rec
2
, Rec
3
: rectangle;
P
1
, P
2
, P
3
: rtnodetype

×