ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
ĐÀO THỊ TUYẾT THANH
PHƢƠNG PHÁP KHOẢNG CÁCH TRONG
PHÂN TÍCH THỐNG KÊ MẪU ĐIỂM KHÔNG GIAN
Chuyên ngành: Lý thuyết xác suất và thống kê toán học
Mã số: 60.46.15
LUẬN VĂN THẠC SĨ KHOA HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS. TS. ĐÀO HỮU HỒ
Hà Nội, Năm 2013
1
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
ĐÀO THỊ TUYẾT THANH
PHƢƠNG PHÁP KHOẢNG CÁCH TRONG
PHÂN TÍCH THỐNG KÊ MẪU ĐIỂM KHÔNG GIAN
Chuyên ngành: Lý thuyết xác suất và thống kê toán học
Mã số: 60.46.15
LUẬN VĂN THẠC SĨ KHOA HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS. TS. ĐÀO HỮU HỒ
Hà Nội, Năm 2013
I
MỞ ĐẦU
Quá trình điểm không gian được phát triển mạnh mẽ từ các thập niên 60 – 70
– 80 của thế kỷ trước và vẫn được các nhà khoa học không ngừng quan tâm cho đến
nay.
Ngoài ý nghĩa khoa học rất rõ ràng và sáng sủa, quá trình điểm không gian
còn có rất nhiều ứng dụng. Nhiều hiện tượng trên thực tiễn chúng ta gặp là các quá
trình điểm không gian. Do đó ngoài việc nghiên cứu lý thuyết các quá trình điểm
không gian, các nhà khoa học còn rất quan tâm tới bài toán phân tích thống kê các
quá trình điểm không gian. Nghĩa là làm sao ta nhận biết được một quá trình điểm
không gian ta gặp trong thực tế là quá trình điểm không gian nào, chúng có những
tính chất gì,… Cụ thể hơn: chúng ta có một mẫu ảnh về một hiện tượng nào đó.
Liệu mẫu ảnh này có tính ngẫu nhiên không gian hoàn toàn hay không, hoặc quá
trình điểm không gian đang xét có phải là quá trình Poisson hay không. Để trả lời
câu hỏi trên ngoài phương pháp mang tính hàn lâm truyền thống, từ thập niên 80 –
90 của thế kỷ 20, với sự phát triển rất mạnh mẽ của tin học, một phương pháp
nghiên cứu mới xuất hiện trong nghiên cứu của thống kê toán học là chúng ta mô
phỏng các quá trình điểm không gian mà ta quan tâm, sau đó ta xét một vài đặc
trưng nào đó của quá trình này. So sánh các đặc trưng của quá trình mô phỏng với
các đặc trưng của mẫu ảnh ta có, nếu thấy chúng phù hợp với nhau, ta sẽ kết luận về
mẫu ảnh ta đang xét.
Các đặc trưng được nhắc đến trên, trong luận văn này chính là các khoảng
cách: khoảng cách giữa các biến cố, khoảng cách từ biến cố tới biến cố gần nhất,
khoảng cách từ một điểm tới biến cố gần nhất, số trung bình khoảng cách nhỏ hơn t
của một biến cố cố định bất kỳ.
Ngoài phần mở đầu, phần kết luận và danh mục tài liệu tham khảo, luận văn
“Phƣơng pháp khoảng cách trong phân tích thống kê mẫu điểm không gian”,
gồm ba chương:
Chương 1: Quá trình điểm không gian: Các khái niệm và kết quả cơ bản.
II
Chương này giới thiệu một số khái niệm về mẫu điểm không gian, đặc biệt là
tính ngẫu nhiên không gian hoàn toàn và một số đặc trưng cấp 1, cấp 2 của quá trình
điểm không gian.
Chương 2: Các phương pháp khoảng cách.
Chương này luận văn giới thiệu đến các kết quả lý thuyết về quá trình điểm
không gian. Cụ thể là các hàm phân phối của các khoảng cách đối với quá trình
điểm Poisson. Đó là hàm phân phối của khoảng cách giữa các biến cố, khoảng cách
lân cận gần nhất, khoảng cách từ điểm tới các biến cố gần nhất, ước lượng tính chất
cấp 2.
Chương 3: Phân tích mẫu ảnh trên máy tính.
Trong chương này, luận văn đã xây dựng các chương trình để xử lý một mẫu
ảnh đã cho. Mỗi mẫu ảnh được xử lý dựa trên bốn tiêu chuẩn liên quan tới bốn
khoảng cách giữa các biến cố. Dựa trên các kết quả nhận được khi sử dụng các phần
mềm đã được xây dựng trong chương 3 này, chúng tôi đã phân tích và đưa đến kết
luận về tính ngẫu nhiên không gian hoàn toàn của ba mẫu ảnh điển hình: mẫu ngẫu
nhiên, mẫu kết tập, mẫu có quy tắc.
Mặc dù đã rất cố gắng, nhưng do vấn đề được đề cập trong luận văn là tương
đối phức tạp, do thời gian có hạn và do trình độ còn hạn chế, vì vậy luận văn không
tránh khỏi những thiếu sót. Tác giả luận văn mong muốn nhận được sự góp ý kiến
của các thầy cô và các bạn đồng nghiệp để luận văn được hoàn chỉnh hơn.
IV
MỤC LỤC
Lời mở đầu
I
Lời cảm ơn
III
Chƣơng 1: Quá trình điểm không gian: Các khái niệm cơ bản ……………
1
1.1 Mẫu điểm không gian………………………………………………………………
1
1.2 Tính ngẫu nhiêu không gian hoàn toàn (tính CSR)…………………………………
3
1.3 Tiêu chuẩn Monte Carlo……………………………………………………………
4
1.4 Quá trình điểm không gian…………………………………………………………
5
1.4.1 Quá trình đơn biến…………………………………………………………………
6
1.4.2 Quá trình Poisson thuần nhất………………………………………………………
8
Chƣơng 2: Các phƣơng pháp khoảng cách…………………………………………
10
2.1 Khoảng cách giữa các biến cố………………………………………………
10
2.2 Khoảng cách lân cận gần nhất………………………………………………
13
2.3 Khoảng cách từ điểm tới các biến cố gần nhất………………………………………
14
2.4 Ước lượng tính chất cấp hai: ước lượng hàm K(t)…………………………………
15
Chƣơng 3: Phân tích mẫu ảnh trên máy tính………………………………………
19
3.1 Lập trình xử lý hàm H(t)……………………………………………………
19
3.2 Lập trình xử lý hàm G(t)……………………………………………………
30
3.3 Lập trình xử lý hàm F(t)……………………………………………………………
39
3.4 Lập trình xử lý hàm K(t)……………………………………………………
48
3.5 Phân tích xử lý ba mẫu ảnh cụ thể…………………………………………………
54
Kết luận ………………………………………………………………………………
62
Tài liệu tham khảo ……………………………………………………………………
63
1
CHƢƠNG1: QUÁ TRÌNH ĐIỂM KHÔNG GIAN:
CÁC KHÁI NIỆM VÀ KẾT QUẢ CƠ BẢN
1.1 Mẫu điểm không gian
Trong nghiên cứu thống kê chúng ta thường gặp các tình huống mà dữ liệu
cho dưới dạng tập các điểm, được phân bố ngẫu nhiên trong một miền của không
gian, chẳng hạn như các ảnh chụp từ trên cao cho ta các vị trí của các cây trong một
khu rừng, hoặc vị trí các tổ chim, hoặc vị trí của các nhân tế bào trong một phần mô
nhỏ, … vv.
Chúng ta gọi những tập như vậy là mẫu điểm không gian và coi vị trí của các
phần tử đó là các biến cố để phân biệt chúng với các điểm tùy ý khác trong miền
được nói đến.
Sau đây ta xem xét một số ví dụ cụ thể về mẫu điểm không gian.
Hình 1.1: Vị trí của 65 cây thông đen Nhật Bản
Hình 1.1, do Numata đưa ra (xem [12]),thể hiện vị trí của 65 cây thông đen
Nhật Bản trong một hình vuông với cạnh 5,7m.
0
0.2
0.4
0.6
0.8
1
1.2
0 0.2 0.4 0.6 0.8 1 1.2
S…
2
Hình 1.2: Vị trí của 62 cây gỗ đỏ
Hình 1.2, do Strauss đưa ra(xem [14]), thể hiện vị trí 62 cây gỗ đỏ trên một
hình vuông với cạnh 23m.
Nhận thấy ở hai mô hình này có sự khác biệt rất rõ rệt. Hình 1.1 thể hiện một
cấu trúc không rõ ràng và có thể xem như là một mô hình ngẫu nhiên hoàn toàn.
Trong khi đó ở hình 1.2, việc mọc thành cụm một cách rõ rệt của các cây gỗ đỏ.
Chúng ta miêu tả mẫu điểm giống như hình 1.2 là mẫu kết tập.
Hình 1.3: Vị trí nhân của 42 tế bào sinh học
0
0.2
0.4
0.6
0.8
1
1.2
0 0.2 0.4 0.6 0.8 1 1.2
S…
0
0.2
0.4
0.6
0.8
1
1.2
0 0.2 0.4 0.6 0.8 1 1.2
S
3
Hình 1.3, do Ripley đưa ra (xem [14]), lại là một mẫu điểm khác, nó thể hiện
nhân của 42 tế bào sinh học. Sự phân bố của các nhân tế bào có vẻ có quy tắc.
Qua 3 ví dụ trên ta có thể hình thành một sự phân loại các mẫu điểm không
gian như sau: mẫu có quy tắc, mẫu ngẫu nhiên, mẫu kết tập.
Ta giả sử các miền được xét đến đều là miền phẳng trong không gian hai
chiều. Nhưng về nguyên tắc ta có thể mở rộng cho các không gian khác.
1.2 Tính ngẫu nhiên không gian hoàn toàn (tính CSR)
Trước hết ta nêu định nghĩa của tính ngẫu nhiên không gian hoàn toàn
(Complete Spatial Randomness: CSR).Đó là tính độc lập tứ phía. Nghĩa là số các
biến cố của mẫu điểm rơi vào k tập Borel rời nhau lập nên k biến ngẫu nhiên độc
lập (xem [15]) .
Giả thiết về tính ngẫu nhiên không gian hoàn toàn khẳng định rằng:
i) Số biến cố trong một miền phẳng A với diện tích
A
, tuân theo phân phối
Poisson với giá trị trung bình λ
A
.
ii ) Cho n biến cố X
i
trong miền A thì các X
i
được xem là một mẫu ngẫu
nhiên độc lập cỡ n có phân phối đều trên A.
Trong i) hằng số λ là cường độ hay là số trung bình các biến cố trên mỗi đơn
vị diện tích. Theo i), nếu tính chất CSR thỏa mãn thì cường độ của các biến cố
không thay đổi quá mức cho phép. Theo ii), khi tính CSR thỏa mãn thì không có sự
ảnh hưởng lẫn nhau giữa các biến cố. Nghĩa là tính độc lập trong ii) sẽ bị vi phạm
nếu sự tồn tại của một biến cố tại X hoặc là khuyến khích hoặc là hạn chế sự tồn tại
của các biến cố khác trong lân cận của X.
Hình 1.4: 100 biến cố trong một hình vuông đơn vị
4
Hình 1.4 cho ta mẫu điểm ngẫu nhiên không gian hoàn toàn của 100 biến cố
trên một đơn vị diện tích. Những hình ảnh ấn tượng về sự kết tập là không có. Cũng
cần lưu ý tới sự giống nhau bề ngoài với hình 1.1.
Ta quan tâm đến tính CSR bởi nó cho ta một ý tưởng chuẩn hóa, điều tưởng
chừng không thể đạt được trong thực tế, và có thể trở thành tiện lợi cho xấp xỉ đầu tiên.
Hầu hết các phân tích bắt đầu với việc kiểm tra tính CSR, bởi nó có những
ưu điểm sau:
- Một mẫu thỏa mãn tính CSR không bác bỏ những ưu điểm của các phương
pháp phân tích thống kê chính thức.
- Các tiêu chuẩn được dùng như là công cụ để khám phá tập số liệu hơn là để
bác bỏ tính CSR.
- Tính CSR tác động như là một phân chia giả thiết để phân biệt mẫu điểm có
quy tắc và mẫu điểm kết tập.
1.3 Tiêu chuẩn Monte Carlo
Ngay cả đối với mô hình ngẫu nhiên đơn giản của mẫu ảnh không gian cũng
dẫn đến các phân phối lý thuyết khó, cho nên để kiểm định mô hình đối với các số
liệu người ta sử dụng rộng rãi các tiêu chuẩn Monte Carlo (xem [6]).
Tiêu chuẩn này được dùng để đánh giá tính CSR của một mẫu điểm không
gian. Nội dung của tiêu chuẩn như sau:
Ta xét một thống kê U nào đó.
+ Giả sử u
1
là giá trị quan sát của U từ mẫu điểm đã cho.
+ Giả sử u
i
( i = 2, …, s ) là các giá trị tương ứng của U sinh ra bởi các mẫu
ngẫu nhiên độc lập,thỏa mãn giả thiết H nào đó (giả thiết H trong luận văn này
chính là tính CSR).
+ Giả sử u
( j )
là giá trị lớn nhất thứ j trong số u
i
, i = 1,2,…, s.
Khi đó với giả thiết H ta có:
s
uuP
j
1
)(
)(1
, j = 1,2,…, s.
Nếu u
1
được xếp vào vị trí lớn thứ k hoặc cao hơn thì ta bác bỏ giả thiết H.
Thực hiện như vậy ta nhận được tiêu chuẩn một phía với mức ý nghĩa
s
k
.
5
Ta giả thiết các giá trị u
i
là khác nhau, do đó hạng (hay vị trí) của u
1
trong
dãy
i
u
là rõ ràng.
Hope (xem [9])đã cho một số ví dụ để chỉ ra rằng sự tổn thất lực lượng nhận
được từ tiêu chuẩn Monte Carlo là rất nhỏ, vì vậy giá trị s không nhất thiết phải lớn
lắm. Với tiêu chuẩn một phía mức ý nghĩa thông thường là 5% thì s = 100 là đủ.
Tổn thất lực lượng liên quan đến nghiên cứu của Mairiott về “ vùng giới hạn
mờ “(xem [10])mà nó xuất hiện bởi giá trị của u
1
có thể có ý nghĩa trong phương
pháp kiểm tra cổ điển nhưng không có ý nghĩa trong phương pháp kiểm tra Monte
Carlo và ngược lại. Giả sử hàm phân phối của U với giả thiết H là F(u). Đối với tiêu
chuẩn một phía 5% với s = 20k ta có
P(bác bỏ H/ u
1
)
rsr
uFuF
r
s
1
11
)((1
1
(1.1)
Ta có
)()(
11
uUPuF
, như ta đã biết nếu u
1
có thứ hạng lớn nhất thứ k hoặc
cao hơn thì giả thiết H bị bác bỏ. Như vậy với s – 1 giá trị u
i
(i = 2, … , s) nếu có r
giá trị lớn hơn u
1
thì sẽ có s – r – 1 giá trị nhỏ hơn hoặc bằng u
1
. Theo công thức xác
suất Bernoulli ta nhận được công thức (1.1)
Với phương pháp kiểm tra cổ điển khi s → ∞ , P(bác bỏ H/ u
1
) tiến tới 1
hoặc 0 tương ứng với F(u
1
) lớn hơn hoặc nhỏ hơn 0,95.
1.4 Quá trình điểm không gian
Một quá trình điểm không gian là một cơ cấu ngẫu nhiên mà nó sinh ra một
tập hợp đếm được các biến cố x
i
trong mặt phẳng.
Chúng ta sẽ làm việc với các quá trình dừng và đẳng hướng.
Tính dừng của quá trình có nghĩa là tất cả các tính chất của quá trình sẽ bất
biến đối với phép tịnh tiến, còn tính đẳng hướng nghĩa là các tính chất của quá trình
sẽ bất biến đối với phép quay.
Các phương pháp thống kê đối với mẫu điểm không gian, thường là liên
quan đến việc so sánh giữa các mô tả tóm tắt thực nghiệm của dữ liệu và mô tả tóm
tắt lý thuyết tương ứng của một mô hình quá trình điểm.
Điều này dẫn tới việc xây dựng các tiêu chuẩn của tính ngẫu nhiên không
gian hoàn toàn liên quan đến việc so sánh giữa dạng phân phối lý thuyết của khoảng
6
cách nào đó và hàm phân phối tương ứng trong một mẫu quan sát của n biến cố. Vì
vậy chúng ta sẽ xem xét các mô tả tóm tắt lý thuyết của quá trình điểm. Ta tập trung
vào các tính chất mà dẫn đến các phương pháp thống kê thuận tiện. Chúng ta có các
ký hiệu sau:
E[X] là kỳ vọng của biến ngẫu nhiên X.
N(A) là số các biến cố trong miền phẳng A.
N
j
(A) là số các biến cố loại j trong A (trong quá trình đa biến) .
A
là diện tích của A.
dx là một miền nhỏ chứa điểm x.
yx
là khoảng cách Euclid giữa điểm x và y.
1.4.1Quá trình đơn biến
Trước hết, ta định nghĩa tính chất cấp một và tính chất cấp hai của quá trình
điểm không gian.
Tính chất cấp một được mô tả bởi hàm cường độ
dx
dxNE
x
dx
)(
lim)(
0
Đối với quá trình dừng, λ(x) được coi là hằng số λ, tức là số các biến cố trên
một đơn vị diện tích.
Tính chất cấp hai mô tả bởi hàm cường độ cấp hai:
dydx
dyNdxNE
yx
dy
dx
)()(
lim),(
0
0
2
Hàm cường độ có điều kiện là:
)(
),(
)/(
2
y
yx
yx
c
Đối với quá trình dừng, λ
2
(x,y) ≡ λ
2
(x – y). Trong quá trình dừng,đẳng
hướng thì λ
2
(x – y) có thể viết là λ
2
(t) với
yxt
Một đặc trưng khác của tính chất cấp hai của một quá trình dừng, đẳng
hướng là hàm K(t), được định nghĩa như sau:
)(
1
)(
0
tNEtK
(1.2)
7
với N
0
(t) là số các biến cố khác trong khoảng cách t của một biến cố tùy ý.
Ta thiết lập mối quan hệ giữa K(t) và λ
2
(t) như sau:
Giả sử quá trình của chúng ta là có trật tự, nghĩa là các biến cố trùng nhau
không thể xảy ra. Chính xác hơn,
1)( dxNP
có cấp nhỏ hơn so với
dx
. Điều này
có nghĩa là E[N(dx)] ~
1)( dxNP
theo nghĩa là tỷ số của hai số lượng này có xu
hướng tiến đến 1 nếu
0dx
.
Vì:
1)()(0.1)(1)(.1)(.1)( dxNPdxpdxNPdxNPpdxNPdxNE
Tương tự, giả sử
)()( dyNdxNE
~
1)()( dyNdxNP
. Với các giả thiết này, số
trung bình của các biến cố khác trong khoảng cách t của một biến cố tùy ý có thể
được tính bằng phép lấy tích phân cường độ có điều kiện trên một hình tròn có tâm
là gốc và bán kính t. Do đó :
)(
1
)(
0
tNEtK
xdxdx
t
c
)0/(
1
2
0 0
.
xdxd
x
t
2
0 0
2
)(
1
)
)(
)0(
)0/(
)0/((
22
xx
xdo
c
xdxx
t
)(
2
0
2
2
(1.3)
hoặc ngược lại
)(
2
)(
'
2
2
tK
t
t
(1.4)
Theo một quan điểm lý thuyết, đôi khi ta làm việc với λ
2
(t) sẽ tiện lợi hơn là
làm việc với K(t), và như là một thay thế nhỏ chúng ta định nghĩa hàm mật độ hiệp
phương sai :
2
2
)()(
tt
(1.5)
Đối với việc phân tích dữ liệu, K(t) thuận lợi hơn λ
2
(t) ở chỗ nó có thể ước
lượng một cách dễ dàng hơn từ các dữ liệu. Về cơ bản K(t) và λ
2
(t) liên quan đến
hàm phân phối và hàm mật độ xác suất của các khoảng cách giữa các cặp biến cố
8
trong mẫu điểm, và đặc biệt trong các mẫu nhỏ, nó thuận lợi ta người đầu tiên có
thể ước lượng mà không cần phải xem phân phối thực nghiệm tương ứng mịn đến
mức nào.
Một thuận lợi khác của hàm K là nó bất biến đối với phép làm mỏng ngẫu
nhiên. Bởi vậy, chúng ta hiểu rằng, nếu mỗi biến cố của một quá trình được giữ lại
hoặc không tương ứng với dãy phép thử Bernoulli độc lập thì hàm K của quá trình
làm mỏng nhận được sẽ đồng nhất với hàm K của quá trình ban đầu. Theo (1.2),
hàm K được định nghĩa là tỷ số của hai đại lượng là
)(
0
tNE
và λ. Hiệu quả của sự
mỏng là mỗi phần tử bội là p, xác suất sự giữ lại cho một biến cố bất kỳ là tỷ số
không đổi.
1.4.2 Quá trình Poisson thuần nhất
Quá trình Poisson thuần nhất trên mặt phẳng là nền tảng lý thuyết của quá
trình điểm không gian được xây dựng. Nó biểu diễn cơ chế ngẫu nhiên đơn giản
nhất có thể để sản sinh ra các mẫu điểm không gian và trong ứng dụng nó được sử
dụngnhư là một tiêu chuẩn lý tưởng của tính ngẫu nhiên không gian hoàn toàn. Quá
trình Poisson được định nghĩa một cách thuận lợi bởi những vấn đề sau, nó tương
ứng với định nghĩa tính ngẫu nhiên không gian hoàn toàn.
i) Đối với λ > 0, với bất kỳ miền phẳng hữu hạn A, N(A) tuân theo luật phân
phối Poisson với trung bình λ
A
ii) Với N(A) = n đã cho, n biến cố trong A lập nên một mẫu ngẫu nhiên độc
lập phân phối đều trong A.
Để chứng minh rằng i) và ii) là tự phù hợp, ta đưa ra tính chất iii):
iii) Cho hai miền rời nhau A và B, các biến ngẫu nhiên N(A) và N(B) độc lập.
Thật vậy, từ i) và ii) ta suy ra iii).
Đặt
BAC
là hợp của hai miền rời nhau A và B.
Đặt
CAp /
và
CBpq /1
Khi đó, áp dụng ii) cho miền C ta suy ra:
yx
qp
x
yx
n
CN
y
BNxANP
)(
)(,)(
9
Với x, y nguyên và
xnynx ,0
Theo i) ta có phân phối đồng thời của N(A) và N(B) là:
!
)(
!
)(
!
)(
)(,)(
y
Be
x
Ae
n
C
eqp
x
yx
yBNxANP
y
B
x
A
n
C
yx
(1.6)
với x,y: nguyên, không âm.
Điều đó chứng tỏ N(A), N(B) có phân phối Poisson độc lập. Ta nhận được
iii). Ngược lại tính cộng tính của các biến ngẫu nhiên phân phối Poisson độc lập X
và Y và phân phối nhị thức có điều kiện của X với điều kiện X + Y đã cho sẽ cho ta
tính i) và ii) đối với mọi miền là hợp của hai miền rời nhau mà trên đó tính i) và ii)
thỏa mãn. Điều đó chứng minh tính tự phù hợp mà ta yêu cầu.
Tham số λ của quá trình Poisson là cường độ của nó. Từ tính độc lập iii) ta
suy ra
0:)(
2
2
tt
(1.7)
Do (1.3) nên
0:)(
2
tttK
(1.8)
Đặt G(y) là hàm phân phối của khoảng cách từ một biến cố tùy ý tới biến cố
khác gần nhất với nó. F(x) là hàm phân phối của khoảng cách từ một điểm tùy ý tới
biến cố gần nhất. Đối với quá trình Poisson các hàm phân phối lân cận gần nhất
G(y) và F(x) là đồng nhất, bởi vì việc tồn tại một biến cố tại một điểm đặc biệt,
chẳng hạn x
0
, sẽ không ảnh hưởng gì đến phân phối của số lượng biến cố còn lại
trong hình tròn với tâm x
0
. Từ i) suy ra:
0:)exp(10)()()(
22
xxxNPxGxF
(1.9)
Để mô phỏng một thể hiện riêng của quá trình Poisson trên A với điều kiện
N(A) bằng một giá trị cố định, chúng ta cần tạo ra các biến cố độc lập theo một hàm
phân phối đều trên A. Các dạng khó sử dụng của miền A có thể được điều chỉnh bởi
sự mô phỏng các quá trình trên một miền lớn hơn với một dạng phù hợp chẳng hạn
là hình chữ nhật hoặc hình tròn, và chỉ giữ lại các biến cố nằm trong A.
10
CHƢƠNG2: CÁC PHƢƠNG PHÁP KHOẢNG CÁCH
Việc kiểm định tính CSR là một điều kiện tiên quyết tối thiểu đối với mọi cố
gắng nghiêm túc để mô hình hóa một mẫu quan sát được. Vì vậy trong chương này
chúng ta sẽ xây dựng các tiêu chuẩn để nhận biết tính CSR dựa trên các khoảng
cách giữa các biến cố với nhau, khoảng cách tới biến cố gần nhất, khoảng cách giữa
một điểm cố định tới các biến cố ….
Các tiêu chuẩn dựa trên phương pháp đồ thị sẽ mang đến cho chúng ta những
kết quả bất ngờ thú vị. Giá trị của phương pháp đồ thị mang lại khá nhiều thông tin
và nhiều trường hợp ta không cần dùng đến phương pháp khác nữa. Dùng mức ý
nghĩa đạt được để đánh giá mức độ thỏa mãn tính CSR. Trường hợp không thỏa
mãn ta sẽ kết hợp thông tin của các tiêu chuẩn bổ sung khác để chỉ ra bản chất của
mọi sự không thỏa mãn tính CSR của một mẫu điểm.
2.1 Khoảng cách giữa các biến cố.
Giả sử ta có một mẫu điểm gồm n biến cố trong một miền A, khi đó ta có
)1(
2
1
2
nnC
n
khoảng cách giữa các biến cố. Ký hiệu t
ịj
là khoảng cách giữa hai biến
cố i và j trong miền A. Phân phối lý thuyết của khoảng cách T giữa hai biến cố độc
lập và phân phối đều trong A, phụ thuộc vào kích thước và hình dạng của A, nhưng
có thể biểu diễn được dưới dạng kiểu khi A là hình vuông hoặc hình tròn (xem [7]).
Đối với một hình vuông đơn vị, hàm phân phối của T là:
21:)12arcsin(2
3
)12()1(4
2
2
3
1
10:
23
8
)(
22
22/124
2
43
2
ttt
ttt
t
t
tt
t
tH
(2.1)
Còn đối với một đường tròn bán kính đơn vị, hàm phân phối là:
4
1)
2
1(
2
arccos)1(2
1
1)(
22
2
tt
t
t
ttH
với
20 t
(2.2)
Bây giờ chúng ta phát triển tiêu chuẩn CSR dựa trên khoảng cách giữa hai biến cố.
11
Giả sử đối với miền A đang xét, hàm phân phối H(t) đã biết. Tính toán hàm
phân phối thực nghiệm (viết tắt là EDF) của khoảng cách giữa các biến cố.Gọi hàm
đó là
)(
ˆ
1
tH
.Hàm
)(
ˆ
1
tH
chính là tỷ lệ quan sát được của các khoảng cách giữa các
biến cố t
ij
không vượt quá t, vì vậy
)1(
2
)(
ˆ
1
nn
tH
#
)( tt
ij
trong đó #
)( tt
ij
là số lượng của các t
ij
mà nhỏ hơn hay bằng t.
Bây giờ ta vẽ đồ thị của
)(
ˆ
1
tH
đối với H(t), nghĩa là
)(
ˆ
1
tH
là tung độ còn H(t)
là hoành độ. Nếu dữ liệu của mẫu điểm đang xét là tương thích với CSR thì đồ thị
xấp xỉ tuyến tính, tức là đồ thị vẽ ra sẽ là đường xấp xỉ thẳng, bởi vì về mặt lý
thuyết khi có tính CSR thỏa mãn thì hàm
)(
ˆ
1
tH
sẽ bằng hàm H(t).
Để đánh giá mức độ có ý nghĩa hoặc sự xa rời tính tuyến tính, biện pháp
thuận lợi là phân phối mẫu
)(
ˆ
1
tH
với giả thiết tính CSR được thỏa mãn.Nhưng điều
đó khá phức tạp bởi vì sự phụ thuộc giữa các khoảng cách giữa các biến cố với một
điểm biên chung. Do đó chúng ta tiến hành như sau:
+ Ta mô phỏng s – 1 mẫu điểm gồm n biến cố trong miền A với kích thước
và hình dạng như mẫu điểm đang xét với giả thiết thỏa mãn tính CSR. Đó là s – 1
mô phỏng của n biến cố độc lập và có phân phối đều trong A.
+ Với một mẫu mô phỏng ta tính hàm phân phối thực nghiệm
)(
ˆ
tH
i
, i =
2,3,…, s
+ Xác định các bao mô phỏng trên dưới tương ứng:
Bao mô phỏng trên là U(t) = max{
)(
ˆ
tH
i
, i = 2,3, …, s } (2.3)
Bao mô phỏng dưới là L(t) = min {
)(
ˆ
tH
i
, i = 2,3, …, s } (2.4)
Các bao mô phỏng này được vẽ đối với H(t) và có tính chất là với tính CSR
và với mỗi t
s
tLtHPtUtHP
1
))()(
ˆ
())()(
ˆ
(
11
(2.5)
12
Các bao mô phỏng giúp ta đánh giá, giải thích đồ thị của
)(
ˆ
1
tH
đối với H(t).
Hai trong nhiều phép xấp xỉ để xây dựng tiêu chuẩn Monte Carlo chính xác của
CSR như sau:
i) Chọn t
0
và xác định
)(
ˆ
0
tHu
ii
. Như đã nói trong 1.3 thứ hạng của u
1
trong dãy u
i
, i = 1, 2 …, s cung cấp một cơ sở của tiêu chuẩn, bởi vì với tính CSR
thì tất cả các hạng của u
1
là như nhau.
ii ) Xác định u
i
là thước đo của sự khác biệt giữa
)(
ˆ
tH
i
và H(t) trên toàn
khoảng biến thiên t, chẳng hạn
dttHtHu
ii
2
))()(
ˆ
(
(2.6)
và một lần nữa chúng ta lại áp dụng tiêu chuẩn dựa trên hạng của u
1
.
Phép xấp xỉ đầu tiên có ý nghĩa chỉ khi t
0
có thể được lựa chọn một cách
ngẫu nhiên, trong khi đó cách thứ hai có vẻ khách quan hơn.
Nếu miền A là một miền mà đối với nó hàm phân phối lý thuyết H(t) chưa
biết thì việc kiểm tra tính CSR vẫn có thể được thực hiện nếu trong (2.6), H(t) được
thay thế bởi
)(
ˆ
1
1
)( tH
s
tH
ij
ji
.
Các u
i
không còn độc lập khi mà tính CSR đã được thỏa mãn nhưng vẫn đảm
bảo tất cả các hạng của u
1
có cùng xác suất như nhau. Tương tự, phương pháp đồ thị
bao gồm việc vẽ đồ thị của các hàm
)(
ˆ
1
tH
, U(t) và L(t) đối với
)(
1
tH
. Chú ý vì
)(
1
tH
chỉ bao gồm các mô phỏng của tính CSR mà không có dữ liệu ban đầu nên nó
cho một ước lượng không chệch của H(t).
Sau khi đã có đồ thị các hàm
)(
ˆ
1
tH
, U(t) và L(t) ta tiến hành quan sát dáng
điệu của
)(
ˆ
1
tH
đối với U(t) và L(t). Nếu đồ thị hàm
)(
ˆ
1
tH
xấp xỉ một đường thẳng và
nằm giữa đồ thị bao mô phỏng trên U(t) và đồ thị bao mô phỏng dưới L(t), có nghĩa
là
)(
ˆ
1
tH
vẫn nằm trong vùng dao động của tính CSR, khi đó ta chấp nhận giả thiết
H: mẫu điểm có tính CSR. Ngược lại, ta bác bỏ giả thiết H, nghĩa là mẫu điểm
không có tính CSR.
13
Để nhận được các kết quả trình bày trên chúng ta phải nhờ đến sự giúp đỡ
của máy tính điện tử.
Lập trình để xử lý bài toán trên, sau đó áp dụng vào các mẫu điểm ở hình
1.1, 1.2, 1.3 sẽ được thực hiện ở chương sau.
2.2 Khoảng cách lân cận gần nhất
Cho n biến cố trong miền A. Đặt y
i
là khoảng cách từ biến cố thứ i đến biến
cố khác gần nó nhất trong A. y
i
được gọi là khoảng cách lân cận gần nhất. Như vậy
ta sẽ có n giá trị y
i
trên miền A. Chúng ta có thể tính được EDF, giả sử
)(
ˆ
1
yG
,
khoảng cách lân cận gần nhất bằng cách tương tự với việc tính toán được sử dụng
tại mục 2.1 để có được
)(
ˆ
1
tH
. Vì vậy:
)(
ˆ
1
yG
n
1
# ( y
i
y ).
Trong thực tế, tương tác giữa các biến cố tồn tại chỉ ở một mức nhỏ. Chẳng
hạn cây cối tìm kiếm ánh sáng mặt trời và chất dinh dưỡng thông qua ngọn cây hoặc
hệ thống rễ. Trong trường hợp này, khoảng cách lân cận gần nhất cung cấp cho ta
một công cụ khách quan tập trung vào khoảng cách nhỏ giữa các biến cố trong khi
ngưỡng khoảng cách chính xác chưa được xác định trước.
Sự phân bố lý thuyết của khoảng cách lân cận gần nhất Y dưới tính CSR phụ
thuộc vào n và miền A không thể biểu diễn dưới dạng hiểu bởi sự phức tạp của hiệu
ứng biên. Nếu bỏ qua hiệu ứng biên và nếu ký hiệu
A
là diện tích của A thì ta sẽ
nhận được biểu thức xấp xỉ. Khi đó
A
y
2
là xác suất để một biến cố tùy ý nằm trong
khoảng cách y của một biến cố xác định với giả thiết về tính CSR. Do đó các biến
cố được xác lập một cách độc lập nên hàm phân phối xấp xỉ của Y là:
1
1
2
)1(1)(
n
AyyG
Với n lớn, ta đặt λ bằng một xấp xỉ khác nữa là
1
An
ta có:
0:)exp(1)(
2
yyyG
(2.7)
14
Hàm phân phối thực nghiệm
)(
ˆ
1
yG
có thể so sánh với các bao mô phỏng
trên và dưới nhận được từ các hàm phân phối thực nghiệm mô phỏng
)(
ˆ
yG
i
, i = 2,
… , s; một cách chính xác như trong mục 2.1.
Ta có thể dùng (2.7) làm phân phối lý thuyết, nhưng đó chỉ là xấp xỉ nên
người ta thích dùng trung bình mẫu
)(yG
i
của các hàm phân phối thực nghiệm
)(
ˆ
yG
i
i = 2,… , s; dựa trên các mô phỏng.
Các cơ sở có thể đối với tiêu chuẩn Monte Carlo là
+ Chọn u
i
là giá trị trung bình của mẫu
y
của n khoảng cách lân cận gần nhất
+ Hoặc chọn y
0
, đặt
)(
ˆ
0
yGu
ii
+ Hoặc chọn
dyyGyGu
iii
2
)()(
ˆ
trong đó
)(
ˆ
1
1
)( yG
s
yG
ij
ji
Bước cuối cùng là vẽ đồ thị các hàm
)(
ˆ
yG
i
, U(y), L(y) trên cùng một hệ tọa
độ với hoành độ là
)(
1
yG
, các tung độ tương ứng là
)(
ˆ
1
yG
, U(y), L(y). Việc đánh
giá hàm phân phối thực nghiệm của các khoảng cách lân cận gần nhất
)(
1
yG
ứng
với mẫu điểm đã cho cũng tương tự như việc đánh giá hàm
)(
ˆ
1
tH
ở mục 3.1.
Việc lập trình để xử lý bài toán trên, sau đó áp dụng vào các mẫu điểm được
giới thiệu ở 1.1 sẽ được bàn đến ở chương sau.
2.3 Khoảng cách từ điểm tới các biến cố gần nhất
Giả sử ta có m điểm mẫu trong miền A. x
i
là khoảng cách từ một điểm
mẫu (trong m điểm mẫu trên) tới biến cố gần nhất trong n biến cố trong A. Hàm
phân phối thực nghiệm
)(
ˆ
1
xF
m
1
# ( x
i
x ). Hàm
)(
ˆ
1
xF
đo khoảng trống trong A
theo nghĩa là 1-
)(
ˆ
xF
là ước lượng diện tích
)(xB
của miền B(x) bao gồm tất cả các
điểm trong A mà có khoảng cách ít nhất là x tới mỗi một trong n biến cố trong A.
15
Lập luận tương tự như khi dẫn tới (2.7) dưới giả thiết về tính CSR ta nhận được
biểu thức xấp xỉ:
0:)exp(1)(
2
xxxF
(2.8)
trong đó
1
An
Lotwick mô tả một thuật toán dựa trên ngôn ngữ cơ bản Dirichlet của Green-
Sibson để tính toán chính xác
)(xB
A là hình chữ nhật. Trên thực tế khi dùng m
điểm trong lưới đều kxk sẽ cho một xấp xỉ thích hợp nếu k lớn một cách hợp lý.
Diggle và Matern đã đưa ra lời khuyên là
nk
(xem [8]).
Hình 2.1:Đồ thị thực nghiệm
)(
ˆ
xF
của các tế bào sinh học
Hình (2.1) chỉ ra rằng với mẫu điểm hình 1.3- nhân của 42 tế bào sinh học
mức độ xấp xỉ được dùng là k = 7 ≈
42
; k = 14; k = 96.
Với sự phát triển của khoa học tính toán thì việc lựa chọn k lớn không phải là một
trở ngại. Nhìn vào hình 2.1 ta thấy nếu k lớn ta sẽ nhận được đường cong
)(
ˆ
xF
trơn.
Tương tự như đã làm trong khoảng cách lân cận gần nhất, tiêu chuẩn Monte
Carlo của CSR có thể dựa trên thống kê:
dxxFxFu
iii
2
)()(
ˆ
(2.9)
2.4 Ƣớc lƣợng tính chất cấp hai: ƣớc lƣợng hàm K(t)
Đối với các lý do được đưa ra trong mục 1.4.2, chúng ta sẽ tập trung vào ước
lượng hàm K. Từ ước lượng
),(
ˆ
tK
chúng ta luôn sử dụng (1.4) để nhận được ước
16
lượng cho hàm
).(
2
t
Chọn một dải độ rộng h > 0 làm phép xấp xỉ
h
tKhtKtK
1
)(
ˆ
)(
ˆ
)(
ˆ
'
sẽ dẫn tới ước lượng
)(
ˆ
)2(
ˆ
)(
ˆ
'12
2
tKtt
Điều này tạo ra một ước lượng giống như tổ chức đồ thị của
)(
2
t
tại các
khoảng độ rộng h trong t. Stoyan và Stoyan (xem [16]) đã đưa ra một phiên bản
nhân trơn và sau nàyđã được sử dụng bởi một số tác giả Moller, Syversveen và
Waagepetersen (xem [11]).
Trong mục 1.4.2 chúng ta đã định nghĩa hàm K(t) bởi
)()(
0
tNEtK
tính
chất cấp hai của quá trình dừng, đẳng hướng, ở đây cường độ λ là số lượng trung
bình của các biến cố trên một đơn vị diện tích,
A
n
ˆ
Tương tự như vậy, do
)()(
0
tNEtE
là kỳ vọng của các biến cố khác trong
khoảng cách t một biến cố tùy ý, chúng ta có thể xây dựng một công thức ước lượng
cho E(t) như sau:
+ Đặt
jiij
xxu
+Xác định
)(
1
)(
~
1
tuI
n
tE
ij
n
i ij
(2.10)
Ở đây, I(.) ký hiệu là hàm chỉ tiêu.
Dạng công thức ước lượng
)(
~
tE
trong (2.10) thể hiện một cách chính xác
rằng hàm K được liên kết chặt chẽ với phân bố khoảng cách giữa các biến cố mà ta
đã sử dụng trong phân tích ở mục 1.2. Tuy nhiên
)(
~
tE
là ước lượng chệch âm đối
với E(t) vì hiệu ứng biên. Đối với biến cố được nhắc đến trong khoảng cách t của
biên của A, số lượng các biến cố khác trong khoảng cách t quan sát được cần thiết
phải loại trừ mỗi biến cố nào mà có thể xảy ra trong khoảng cách t nhưng bên ngoài
A. Một vài phương pháp đã được đề xuất cho việc này, phương pháp sau chúng ta
sử dụng là của Ripley (xem [13])
+ Đặt
),( ux
là tỷ lệ chu vi của vòng tròn tâm x và bán kính u nằm trong A.
17
+ Ký hiệu
),(
ijiij
ux
Khi đó đối với quá trình dừng, đẳng hướng,
ij
là xác suất có điều kiện để
một biến cố được quan sát, biết rằng nó ở khoảng cách
ij
u
từ biến cố thứ i là x
i
. Xem
hình 2.2 và chú ý rằng nói chung
jiij
.
Hình 2.2: Ước lượng của Ripley (1976) cho hàm K(t)
Như vậy ước lượng không chệch cho E(t) là
)(
11
)(
ˆ
1
ijt
n
i ij
ij
uI
n
tE
+ Thay cường độ chưa biết λ bởi
A
n 1
, chúng ta nhận được ước lượng của
Ripley(xem [13]) cho K(t)
)(
1
)1(
1
)(
ˆ
1
ijt
n
i ij
ij
uIA
nn
tK
(2.11)
Thực ra ,trong biểu thức
)(
ˆ
tK
,Ripley sử dụng
2
1
n
hơn là
)1(
1
nn
.
Ước lượng của Ripley là xấp xỉ không chệch với t đủ nhỏ, hạn chế trên t là
cần thiết bởi vì trọng lượng
ij
có thể tiến tới vô cùng khi t tăng. Trong thực tế đây
không phải là vấn đề nghiêm trọng. Chẳng hạn, khi A là hình vuông đơn vị giới hạn
trên lý thuyết của t là
2
1
≈ 0,7 nhưng
)(
ˆ
tK
sẽ hiếm khi được yêu cầu với các giá
trị t lớn như vậy
18
Các phần mềm Splancs kết hợp một thuật toán được viết bởi Barry
Rowlingson cho cách tính
),( ux
khi A là một đa giác tùy ý. Công thức rõ ràng của
),( ux
có thể được viết ra đối với các dạng đơn giản của miền A, chẳng hạn hình
chữ nhật, hình tròn và chúng dễ sử dụng nếu hiệu quả tính toán là tối quan trọng.
+ Trước tiên ta xét trường hợp A là hình chữ nhật (0,a)x(0,b)
+ Đặt
),(
21
xxx
+ Đặt
),min(
111
xaxd
,
),min(
222
xbxd
Như vậy, d
1
và d
2
là khoảng cách từ điểm x đến biên thẳng đứng và nằm
ngang gần nhất của A. Để tính
),( ux
chúng ta cần phân biệt hai trường hợp
1. Nếu
2
2
2
1
2
ddu
thì
uuduudux /),min(arccos/),min(arccos
1
1),(
21
2. Nếu
2
2
2
1
2
ddu
thì
)/arccos()/arccos(
2
1
75,0),(
21
ududux
(2.12)
Nhận thấy rằng (2.12) chính xác
),( ux
= 1khi
),min(
21
ddu
. Các công
thức trên áp dụng cho các giá trị của u trong khoảng
5,00 u
min(a,b), mà như đã
nhận xét ở trên, là đủ dùng đối với việc ứng dụng thực tế.
Bây giờ giả sử rằng A là hình tròn có tâm là gốc và bán kính a. Giả sử
r
√
)(
2
2
2
1
xx
là khoảng cách từ x đến hình tròn. Khi đó lại phân biệt hai
trường hợp , chúng ta có:
1. Nếu
rau
thì
),( ux
= 1.
2. Nếu
rau
thì
)2/()(arccos
1
1),(
222
ruuraux
Các công thức này áp dụng cho các giá trị của u từ 0 đến a.
19
CHƢƠNG 3: PHÂN TÍCH MẪU ẢNH TRÊN MÁY TÍNH
3.1. Lập trình xử lý hàm H(t)
Chúng ta lập trình để xử lý hàm H(t) ứng với mẫu ảnh hình vẽ của 65 cây thông
đen Nhật Bản. Đối với các mẫu ảnh khác, các tham số sẽ được thay thế tương ứng.
Program HamH;
Uses Graph,crt;
Const
tfi = 'Pic_In.ini';
maxn = 65;
S = 100;
dochia1 = 0.025;
sdchia = 56;
Type
toado = record x,y : real end;
Dathuc = Record
Bac:Integer;
Heso:Array[0 20] of Real;
End;
VAR
P:Dathuc;
Dx,Dy: Integer;
Xorg,Yorg:Integer;
A,A1,A2,A3,A4 : Array [0 maxn+1] of toado;
kc :Array [0 maxn,0 maxn] of Real;
H1,U,L : Array [0 sdchia] of Real;
R : Array [0 sdchia+1] of Integer;
N : Integer;
fi1,f01 : Text;
(*===============================================*)
20
Procedure InitGraphics;
Var Gd,Gm:integer;
Begin
Gd:=Detect;
InitGraph(Gd, Gm, ' ');
If GraphResult<>GrOK Then Halt(1);
End;
(*==============================================*)
Procedure Vehetruc(XO,YO,Dx1,Dx2,Dy1,Dy2:Integer);
Begin
Line(XO-Dx1, YO, XO+Dx2, YO); {Truc hoanh}
Line(XO+Dx2-5, YO-5, XO+Dx2, YO);
Line(XO+Dx2-5, YO+5, XO+Dx2, YO);
Line(XO, YO-Dy2, XO, YO+Dy1); {Truc tung}
Line(XO, YO-Dy2, XO-5, YO-Dy2+5);
Line(XO, YO-Dy2, XO+5, YO-Dy2+5);
Outtextxy(XO-15,YO-Dy2,'y');
Outtextxy(XO+Dx2-15,YO+5,'x');
Outtextxy(XO-10,YO+5,'O');
End;
(*==============================================*)
Function FileExists(FileName: String): Boolean;
Var
F2: file;
Begin
{$I-}
Assign(F2, FileName);
Reset(F2);
Close(F2);
{$I+}