(Luận văn thạc sĩ) phương pháp khoảng cách trong phân tích thống kê mẫu điểm không gian

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (767.64 KB, 68 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-------------------

ĐÀO THỊ TUYẾT THANH

PHƢƠNG PHÁP KHOẢNG CÁCH TRONG
PHÂN TÍCH THỐNG KÊ MẪU ĐIỂM KHÔNG GIAN
Chuyên ngành: Lý thuyết xác suất và thống kê toán học
Mã số: 60.46.15

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS. TS. ĐÀO HỮU HỒ

Hà Nội, Năm 2013

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-------------------

ĐÀO THỊ TUYẾT THANH

PHƢƠNG PHÁP KHOẢNG CÁCH TRONG
PHÂN TÍCH THỐNG KÊ MẪU ĐIỂM KHÔNG GIAN
Chuyên ngành: Lý thuyết xác suất và thống kê toán học
Mã số: 60.46.15

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS. TS. ĐÀO HỮU HỒ

Hà Nội, Năm 2013

1

MỞ ĐẦU
Q trình điểm khơng gian được phát triển mạnh mẽ từ các thập niên 60 – 70
– 80 của thế kỷ trước và vẫn được các nhà khoa học khơng ngừng quan tâm cho đến
nay.
Ngồi ý nghĩa khoa học rất rõ ràng và sáng sủa, q trình điểm khơng gian
cịn có rất nhiều ứng dụng. Nhiều hiện tượng trên thực tiễn chúng ta gặp là các q
trình điểm khơng gian. Do đó ngồi việc nghiên cứu lý thuyết các q trình điểm
khơng gian, các nhà khoa học cịn rất quan tâm tới bài tốn phân tích thống kê các
q trình điểm khơng gian. Nghĩa là làm sao ta nhận biết được một q trình điểm
khơng gian ta gặp trong thực tế là q trình điểm khơng gian nào, chúng có những
tính chất gì,… Cụ thể hơn: chúng ta có một mẫu ảnh về một hiện tượng nào đó.
Liệu mẫu ảnh này có tính ngẫu nhiên khơng gian hồn tồn hay khơng, hoặc q
trình điểm khơng gian đang xét có phải là q trình Poisson hay khơng. Để trả lời
câu hỏi trên ngồi phương pháp mang tính hàn lâm truyền thống, từ thập niên 80 –
90 của thế kỷ 20, với sự phát triển rất mạnh mẽ của tin học, một phương pháp
nghiên cứu mới xuất hiện trong nghiên cứu của thống kê tốn học là chúng ta mơ
phỏng các q trình điểm khơng gian mà ta quan tâm, sau đó ta xét một vài đặc
trưng nào đó của quá trình này. So sánh các đặc trưng của quá trình mơ phỏng với
các đặc trưng của mẫu ảnh ta có, nếu thấy chúng phù hợp với nhau, ta sẽ kết luận về
mẫu ảnh ta đang xét.
Các đặc trưng được nhắc đến trên, trong luận văn này chính là các khoảng

cách: khoảng cách giữa các biến cố, khoảng cách từ biến cố tới biến cố gần nhất,
khoảng cách từ một điểm tới biến cố gần nhất, số trung bình khoảng cách nhỏ hơn t
của một biến cố cố định bất kỳ.
Ngoài phần mở đầu, phần kết luận và danh mục tài liệu tham khảo, luận văn
“Phƣơng pháp khoảng cách trong phân tích thống kê mẫu điểm khơng gian”,
gồm ba chương:
Chương 1: Q trình điểm khơng gian: Các khái niệm và kết quả cơ bản.

I

Chương này giới thiệu một số khái niệm về mẫu điểm khơng gian, đặc biệt là
tính ngẫu nhiên khơng gian hoàn toàn và một số đặc trưng cấp 1, cấp 2 của q trình
điểm khơng gian.
Chương 2: Các phương pháp khoảng cách.
Chương này luận văn giới thiệu đến các kết quả lý thuyết về q trình điểm
khơng gian. Cụ thể là các hàm phân phối của các khoảng cách đối với q trình
điểm Poisson. Đó là hàm phân phối của khoảng cách giữa các biến cố, khoảng cách
lân cận gần nhất, khoảng cách từ điểm tới các biến cố gần nhất, ước lượng tính chất
cấp 2.
Chương 3: Phân tích mẫu ảnh trên máy tính.
Trong chương này, luận văn đã xây dựng các chương trình để xử lý một mẫu
ảnh đã cho. Mỗi mẫu ảnh được xử lý dựa trên bốn tiêu chuẩn liên quan tới bốn
khoảng cách giữa các biến cố. Dựa trên các kết quả nhận được khi sử dụng các phần
mềm đã được xây dựng trong chương 3 này, chúng tơi đã phân tích và đưa đến kết
luận về tính ngẫu nhiên khơng gian hồn tồn của ba mẫu ảnh điển hình: mẫu ngẫu
nhiên, mẫu kết tập, mẫu có quy tắc.
Mặc dù đã rất cố gắng, nhưng do vấn đề được đề cập trong luận văn là tương
đối phức tạp, do thời gian có hạn và do trình độ cịn hạn chế, vì vậy luận văn khơng
tránh khỏi những thiếu sót. Tác giả luận văn mong muốn nhận được sự góp ý kiến

của các thầy cơ và các bạn đồng nghiệp để luận văn được hoàn chỉnh hơn.

II

MỤC LỤC
Lời mở đầu

I

Lời cảm ơn

III

Chƣơng 1: Quá trình điểm không gian: Các khái niệm cơ bản ……………............. 1
1.1 Mẫu điểm khơng gian……………………………………………………………….. 1
1.2 Tính ngẫu nhiêu khơng gian hồn tồn (tính CSR)………………………………… 3
1.3 Tiêu chuẩn Monte Carlo…………………………………………………………….. 4
1.4 Q trình điểm khơng gian………………………………………………………….. 5
1.4.1 Q trình đơn biến………………………………………………………………… 6
1.4.2 Quá trình Poisson thuần nhất……………………………………………………… 8
Chƣơng 2: Các phƣơng pháp khoảng cách…………………………………………... 10
2.1 Khoảng cách giữa các biến cố………………………………………………............. 10
2.2 Khoảng cách lân cận gần nhất………………………………………………............. 13
2.3 Khoảng cách từ điểm tới các biến cố gần nhất……………………………………… 14
2.4 Ước lượng tính chất cấp hai: ước lượng hàm K(t)…………………………………..

15

Chƣơng 3: Phân tích mẫu ảnh trên máy tính………………………………………... 19

3.1 Lập trình xử lý hàm H(t)…………………………………………………….............

19

3.2 Lập trình xử lý hàm G(t)…………………………………………………….............

30

3.3 Lập trình xử lý hàm F(t)……………………………………………………………..

39

3.4 Lập trình xử lý hàm K(t)…………………………………………………….............

48

3.5 Phân tích xử lý ba mẫu ảnh cụ thể…………………………………………………... 54
Kết luận ………………………………………………………………………………...

62

Tài liệu tham khảo …………………………………………………………………….. 63

IV

CHƢƠNG1: Q TRÌNH ĐIỂM KHƠNG GIAN:
CÁC KHÁI NIỆM VÀ KẾT QUẢ CƠ BẢN
1.1 Mẫu điểm không gian
Trong nghiên cứu thống kê chúng ta thường gặp các tình huống mà dữ liệu

cho dưới dạng tập các điểm, được phân bố ngẫu nhiên trong một miền của không
gian, chẳng hạn như các ảnh chụp từ trên cao cho ta các vị trí của các cây trong một
khu rừng, hoặc vị trí các tổ chim, hoặc vị trí của các nhân tế bào trong một phần mô
nhỏ, … vv.
Chúng ta gọi những tập như vậy là mẫu điểm không gian và coi vị trí của các
phần tử đó là các biến cố để phân biệt chúng với các điểm tùy ý khác trong miền
được nói đến.
Sau đây ta xem xét một số ví dụ cụ thể về mẫu điểm khơng gian.
1.2

1

0.8

0.6

0.4

0.2
S…

0
0

0.2

0.4

0.6

0.8

1

1.2

Hình 1.1: Vị trí của 65 cây thơng đen Nhật Bản

Hình 1.1, do Numata đưa ra (xem [12]),thể hiện vị trí của 65 cây thơng đen
Nhật Bản trong một hình vng với cạnh 5,7m.

1

1.2

1

0.8

0.6

0.4

0.2
S…

0
0

0.2

0.4

0.6

0.8

1

1.2

Hình 1.2: Vị trí của 62 cây gỗ đỏ

Hình 1.2, do Strauss đưa ra(xem [14]), thể hiện vị trí 62 cây gỗ đỏ trên một
hình vng với cạnh 23m.
Nhận thấy ở hai mơ hình này có sự khác biệt rất rõ rệt. Hình 1.1 thể hiện một
cấu trúc khơng rõ ràng và có thể xem như là một mơ hình ngẫu nhiên hồn tồn.
Trong khi đó ở hình 1.2, việc mọc thành cụm một cách rõ rệt của các cây gỗ đỏ.
Chúng ta miêu tả mẫu điểm giống như hình 1.2 là mẫu kết tập.
1.2
1
0.8
0.6
0.4
0.2
S

0
0

0.2

0.4

0.6

0.8

1

Hình 1.3: Vị trí nhân của 42 tế bào sinh học

2

1.2

Hình 1.3, do Ripley đưa ra (xem [14]), lại là một mẫu điểm khác, nó thể hiện
nhân của 42 tế bào sinh học. Sự phân bố của các nhân tế bào có vẻ có quy tắc.
Qua 3 ví dụ trên ta có thể hình thành một sự phân loại các mẫu điểm khơng
gian như sau: mẫu có quy tắc, mẫu ngẫu nhiên, mẫu kết tập.
Ta giả sử các miền được xét đến đều là miền phẳng trong không gian hai
chiều. Nhưng về nguyên tắc ta có thể mở rộng cho các khơng gian khác.
1.2 Tính ngẫu nhiên khơng gian hồn tồn (tính CSR)
Trước hết ta nêu định nghĩa của tính ngẫu nhiên khơng gian hồn tồn
(Complete Spatial Randomness: CSR).Đó là tính độc lập tứ phía. Nghĩa là số các
biến cố của mẫu điểm rơi vào k tập Borel rời nhau lập nên k biến ngẫu nhiên độc
lập (xem [15]) .
Giả thiết về tính ngẫu nhiên khơng gian hồn tồn khẳng định rằng:

i) Số biến cố trong một miền phẳng A với diện tích A , tuân theo phân phối
Poisson với giá trị trung bình λ A .
ii ) Cho n biến cố Xi trong miền A thì các Xi được xem là một mẫu ngẫu
nhiên độc lập cỡ n có phân phối đều trên A.
Trong i) hằng số λ là cường độ hay là số trung bình các biến cố trên mỗi đơn
vị diện tích. Theo i), nếu tính chất CSR thỏa mãn thì cường độ của các biến cố
khơng thay đổi quá mức cho phép. Theo ii), khi tính CSR thỏa mãn thì khơng có sự
ảnh hưởng lẫn nhau giữa các biến cố. Nghĩa là tính độc lập trong ii) sẽ bị vi phạm
nếu sự tồn tại của một biến cố tại X hoặc là khuyến khích hoặc là hạn chế sự tồn tại
của các biến cố khác trong lân cận của X.

Hình 1.4: 100 biến cố trong một hình vng đơn vị
3

Hình 1.4 cho ta mẫu điểm ngẫu nhiên khơng gian hoàn toàn của 100 biến cố
trên một đơn vị diện tích. Những hình ảnh ấn tượng về sự kết tập là khơng có. Cũng
cần lưu ý tới sự giống nhau bề ngồi với hình 1.1.
Ta quan tâm đến tính CSR bởi nó cho ta một ý tưởng chuẩn hóa, điều tưởng
chừng khơng thể đạt được trong thực tế, và có thể trở thành tiện lợi cho xấp xỉ đầu tiên.
Hầu hết các phân tích bắt đầu với việc kiểm tra tính CSR, bởi nó có những
ưu điểm sau:
- Một mẫu thỏa mãn tính CSR khơng bác bỏ những ưu điểm của các phương
pháp phân tích thống kê chính thức.
- Các tiêu chuẩn được dùng như là công cụ để khám phá tập số liệu hơn là để
bác bỏ tính CSR.
- Tính CSR tác động như là một phân chia giả thiết để phân biệt mẫu điểm có
quy tắc và mẫu điểm kết tập.
1.3 Tiêu chuẩn Monte Carlo
Ngay cả đối với mơ hình ngẫu nhiên đơn giản của mẫu ảnh khơng gian cũng

dẫn đến các phân phối lý thuyết khó, cho nên để kiểm định mơ hình đối với các số
liệu người ta sử dụng rộng rãi các tiêu chuẩn Monte Carlo (xem [6]).
Tiêu chuẩn này được dùng để đánh giá tính CSR của một mẫu điểm khơng
gian. Nội dung của tiêu chuẩn như sau:
Ta xét một thống kê U nào đó.
+ Giả sử u1 là giá trị quan sát của U từ mẫu điểm đã cho.
+ Giả sử ui ( i = 2, …, s ) là các giá trị tương ứng của U sinh ra bởi các mẫu
ngẫu nhiên độc lập,thỏa mãn giả thiết H nào đó (giả thiết H trong luận văn này
chính là tính CSR).
+ Giả sử u( j ) là giá trị lớn nhất thứ j trong số ui , i = 1,2,…, s.
Khi đó với giả thiết H ta có:
P(u1  u ( j ) ) 

1
, j = 1,2,…, s.
s

Nếu u1 được xếp vào vị trí lớn thứ k hoặc cao hơn thì ta bác bỏ giả thiết H.
Thực hiện như vậy ta nhận được tiêu chuẩn một phía với mức ý nghĩa

4

k
.
s

Ta giả thiết các giá trị ui là khác nhau, do đó hạng (hay vị trí) của u1 trong
dãy u i là rõ ràng.
Hope (xem [9])đã cho một số ví dụ để chỉ ra rằng sự tổn thất lực lượng nhận

được từ tiêu chuẩn Monte Carlo là rất nhỏ, vì vậy giá trị s không nhất thiết phải lớn
lắm. Với tiêu chuẩn một phía mức ý nghĩa thơng thường là 5% thì s = 100 là đủ.
Tổn thất lực lượng liên quan đến nghiên cứu của Mairiott về “ vùng giới hạn
mờ “(xem [10])mà nó xuất hiện bởi giá trị của u1 có thể có ý nghĩa trong phương
pháp kiểm tra cổ điển nhưng khơng có ý nghĩa trong phương pháp kiểm tra Monte
Carlo và ngược lại. Giả sử hàm phân phối của U với giả thiết H là F(u). Đối với tiêu
chuẩn một phía 5% với s = 20k ta có
 s  1
1  F (u1 r F (u1 )s 1r (1.1)
r



P(bác bỏ H/ u1)   

Ta có F (u1 )  P(U  u1 ) , như ta đã biết nếu u1 có thứ hạng lớn nhất thứ k hoặc
cao hơn thì giả thiết H bị bác bỏ. Như vậy với s – 1 giá trị ui (i = 2, … , s) nếu có r
giá trị lớn hơn u1 thì sẽ có s – r – 1 giá trị nhỏ hơn hoặc bằng u1. Theo công thức xác
suất Bernoulli ta nhận được công thức (1.1)
Với phương pháp kiểm tra cổ điển khi s → ∞ , P(bác bỏ H/ u1) tiến tới 1
hoặc 0 tương ứng với F(u1) lớn hơn hoặc nhỏ hơn 0,95.
1.4 Quá trình điểm khơng gian
Một q trình điểm khơng gian là một cơ cấu ngẫu nhiên mà nó sinh ra một
tập hợp đếm được các biến cố xi trong mặt phẳng.
Chúng ta sẽ làm việc với các quá trình dừng và đẳng hướng.
Tính dừng của q trình có nghĩa là tất cả các tính chất của q trình sẽ bất
biến đối với phép tịnh tiến, cịn tính đẳng hướng nghĩa là các tính chất của q trình
sẽ bất biến đối với phép quay.
Các phương pháp thống kê đối với mẫu điểm không gian, thường là liên
quan đến việc so sánh giữa các mơ tả tóm tắt thực nghiệm của dữ liệu và mơ tả tóm

tắt lý thuyết tương ứng của một mơ hình q trình điểm.
Điều này dẫn tới việc xây dựng các tiêu chuẩn của tính ngẫu nhiên khơng
gian hồn toàn liên quan đến việc so sánh giữa dạng phân phối lý thuyết của khoảng

5

cách nào đó và hàm phân phối tương ứng trong một mẫu quan sát của n biến cố. Vì
vậy chúng ta sẽ xem xét các mơ tả tóm tắt lý thuyết của q trình điểm. Ta tập trung
vào các tính chất mà dẫn đến các phương pháp thống kê thuận tiện. Chúng ta có các
ký hiệu sau:
E[X] là kỳ vọng của biến ngẫu nhiên X.
N(A) là số các biến cố trong miền phẳng A.
Nj (A) là số các biến cố loại j trong A (trong quá trình đa biến) .
A là diện tích của A.

dx là một miền nhỏ chứa điểm x.
x  y là khoảng cách Euclid giữa điểm x và y.

1.4.1Quá trình đơn biến
Trước hết, ta định nghĩa tính chất cấp một và tính chất cấp hai của q trình
điểm khơng gian.
Tính chất cấp một được mơ tả bởi hàm cường độ

 EN (dx)



 dx 


 ( x)  lim 
dx 0

Đối với quá trình dừng, λ(x) được coi là hằng số λ, tức là số các biến cố trên
một đơn vị diện tích.
Tính chất cấp hai mơ tả bởi hàm cường độ cấp hai:

 EN (dx) N (dy )


dx dy



dy 0 

2 ( x, y )  lim 
dx 0

Hàm cường độ có điều kiện là: c ( x / y) 

 2 ( x, y )
 ( y)

Đối với quá trình dừng, λ2(x,y) ≡ λ2(x – y). Trong q trình dừng,đẳng
hướng thì λ2(x – y) có thể viết là λ2(t) với t  x  y
Một đặc trưng khác của tính chất cấp hai của một quá trình dừng, đẳng
hướng là hàm K(t), được định nghĩa như sau:
K (t ) 

1



EN 0 (t )

(1.2)

6

với N0 (t) là số các biến cố khác trong khoảng cách t của một biến cố tùy ý.
Ta thiết lập mối quan hệ giữa K(t) và λ2 (t) như sau:
Giả sử q trình của chúng ta là có trật tự, nghĩa là các biến cố trùng nhau
không thể xảy ra. Chính xác hơn, PN (dx)  1có cấp nhỏ hơn so với dx . Điều này
có nghĩa là E[N(dx)] ~ PN (dx)  1 theo nghĩa là tỷ số của hai số lượng này có xu
hướng tiến đến 1 nếu dx  0 .
Vì:
EN (dx)  1.PN (dx)  1  p.PN (dx)  1  PN (dx)  1  p.0( dx )  PN (dx)  1

Tương tự, giả sử EN (dx) N (dy)~ PN (dx)  N (dy)  1. Với các giả thiết này, số
trung bình của các biến cố khác trong khoảng cách t của một biến cố tùy ý có thể
được tính bằng phép lấy tích phân cường độ có điều kiện trên một hình trịn có tâm
là gốc và bán kính t. Do đó :
K (t ) 


1

EN 0 (t )

1



2 t



   ( x / 0) xdxd
c

0 0



.


2

2

1

2 t

 2 ( x)
 ( x / 0) 2 ( x)

xdxd  (do c ( x / 0)  2

)

 (0)

0 0

 

t



2

( x) xdx (1.3)

0

hoặc ngược lại
2 (t ) 

2 '
K (t ) (1.4)
2 t

Theo một quan điểm lý thuyết, đôi khi ta làm việc với λ2(t) sẽ tiện lợi hơn là
làm việc với K(t), và như là một thay thế nhỏ chúng ta định nghĩa hàm mật độ hiệp
phương sai :

 (t )  2 (t )  2 (1.5)

Đối với việc phân tích dữ liệu, K(t) thuận lợi hơn λ2(t) ở chỗ nó có thể ước
lượng một cách dễ dàng hơn từ các dữ liệu. Về cơ bản K(t) và λ2(t) liên quan đến
hàm phân phối và hàm mật độ xác suất của các khoảng cách giữa các cặp biến cố
7

trong mẫu điểm, và đặc biệt trong các mẫu nhỏ, nó thuận lợi ta người đầu tiên có
thể ước lượng mà không cần phải xem phân phối thực nghiệm tương ứng mịn đến
mức nào.
Một thuận lợi khác của hàm K là nó bất biến đối với phép làm mỏng ngẫu
nhiên. Bởi vậy, chúng ta hiểu rằng, nếu mỗi biến cố của một q trình được giữ lại
hoặc khơng tương ứng với dãy phép thử Bernoulli độc lập thì hàm K của quá trình
làm mỏng nhận được sẽ đồng nhất với hàm K của quá trình ban đầu. Theo (1.2),
hàm K được định nghĩa là tỷ số của hai đại lượng là EN 0 (t ) và λ. Hiệu quả của sự
mỏng là mỗi phần tử bội là p, xác suất sự giữ lại cho một biến cố bất kỳ là tỷ số
khơng đổi.
1.4.2 Q trình Poisson thuần nhất
Q trình Poisson thuần nhất trên mặt phẳng là nền tảng lý thuyết của q
trình điểm khơng gian được xây dựng. Nó biểu diễn cơ chế ngẫu nhiên đơn giản
nhất có thể để sản sinh ra các mẫu điểm không gian và trong ứng dụng nó được sử
dụngnhư là một tiêu chuẩn lý tưởng của tính ngẫu nhiên khơng gian hồn tồn. Q
trình Poisson được định nghĩa một cách thuận lợi bởi những vấn đề sau, nó tương
ứng với định nghĩa tính ngẫu nhiên khơng gian hồn tồn.
i) Đối với λ > 0, với bất kỳ miền phẳng hữu hạn A, N(A) tuân theo luật phân
phối Poisson với trung bình λ A
ii) Với N(A) = n đã cho, n biến cố trong A lập nên một mẫu ngẫu nhiên độc
lập phân phối đều trong A.
Để chứng minh rằng i) và ii) là tự phù hợp, ta đưa ra tính chất iii):

iii) Cho hai miền rời nhau A và B, các biến ngẫu nhiên N(A) và N(B) độc lập.
Thật vậy, từ i) và ii) ta suy ra iii).
Đặt C  A  B là hợp của hai miền rời nhau A và B.
Đặt p  A / C và q  1  p  B / C
Khi đó, áp dụng ii) cho miền C ta suy ra:

  x  y x y
y
 p q
P  N ( A)  x, N ( B) 
 n  
N (C )

  x 
8

Với x, y nguyên và 0  x  n , y  n  x
Theo i) ta có phân phối đồng thời của N(A) và N(B) là:
x 
PN ( A)  x, N ( B)  y  
 x

y  x y    C ( C ) n 
 p q e

n! 



 e  A ( A ) x  e  B ( B ) y 



x!
y!




(1.6)

với x,y: ngun, khơng âm.
Điều đó chứng tỏ N(A), N(B) có phân phối Poisson độc lập. Ta nhận được
iii). Ngược lại tính cộng tính của các biến ngẫu nhiên phân phối Poisson độc lập X
và Y và phân phối nhị thức có điều kiện của X với điều kiện X + Y đã cho sẽ cho ta
tính i) và ii) đối với mọi miền là hợp của hai miền rời nhau mà trên đó tính i) và ii)
thỏa mãn. Điều đó chứng minh tính tự phù hợp mà ta yêu cầu.
Tham số λ của quá trình Poisson là cường độ của nó. Từ tính độc lập iii) ta
suy ra
2 (t )  2 : t  0 (1.7)

Do (1.3) nên K (t )   t 2 : t  0 (1.8)
Đặt G(y) là hàm phân phối của khoảng cách từ một biến cố tùy ý tới biến cố
khác gần nhất với nó. F(x) là hàm phân phối của khoảng cách từ một điểm tùy ý tới
biến cố gần nhất. Đối với quá trình Poisson các hàm phân phối lân cận gần nhất
G(y) và F(x) là đồng nhất, bởi vì việc tồn tại một biến cố tại một điểm đặc biệt,
chẳng hạn x0, sẽ khơng ảnh hưởng gì đến phân phối của số lượng biến cố còn lại
trong hình trịn với tâm x0. Từ i) suy ra:





F ( x)  G( x)  P N ( x 2 )  0  1  exp(  x 2 ) : x  0 (1.9)

Để mô phỏng một thể hiện riêng của quá trình Poisson trên A với điều kiện
N(A) bằng một giá trị cố định, chúng ta cần tạo ra các biến cố độc lập theo một hàm
phân phối đều trên A. Các dạng khó sử dụng của miền A có thể được điều chỉnh bởi
sự mơ phỏng các quá trình trên một miền lớn hơn với một dạng phù hợp chẳng hạn
là hình chữ nhật hoặc hình tròn, và chỉ giữ lại các biến cố nằm trong A.

9

CHƢƠNG2: CÁC PHƢƠNG PHÁP KHOẢNG CÁCH
Việc kiểm định tính CSR là một điều kiện tiên quyết tối thiểu đối với mọi cố
gắng nghiêm túc để mơ hình hóa một mẫu quan sát được. Vì vậy trong chương này
chúng ta sẽ xây dựng các tiêu chuẩn để nhận biết tính CSR dựa trên các khoảng
cách giữa các biến cố với nhau, khoảng cách tới biến cố gần nhất, khoảng cách giữa
một điểm cố định tới các biến cố ….
Các tiêu chuẩn dựa trên phương pháp đồ thị sẽ mang đến cho chúng ta những
kết quả bất ngờ thú vị. Giá trị của phương pháp đồ thị mang lại khá nhiều thông tin
và nhiều trường hợp ta không cần dùng đến phương pháp khác nữa. Dùng mức ý
nghĩa đạt được để đánh giá mức độ thỏa mãn tính CSR. Trường hợp khơng thỏa
mãn ta sẽ kết hợp thông tin của các tiêu chuẩn bổ sung khác để chỉ ra bản chất của
mọi sự khơng thỏa mãn tính CSR của một mẫu điểm.
2.1 Khoảng cách giữa các biến cố.
Giả sử ta có một mẫu điểm gồm n biến cố trong một miền A, khi đó ta có
C n2 

1
n(n  1) khoảng cách giữa các biến cố. Ký hiệu tịj là khoảng cách giữa hai biến
2

cố i và j trong miền A. Phân phối lý thuyết của khoảng cách T giữa hai biến cố độc
lập và phân phối đều trong A, phụ thuộc vào kích thước và hình dạng của A, nhưng
có thể biểu diễn được dưới dạng kiểu khi A là hình vng hoặc hình trịn (xem [7]).
Đối với một hình vng đơn vị, hàm phân phối của T là:
 2 8t 3 t 4
t 

:0  t 1


3
2
H (t )  
4
2
1/ 2
2
 1  2t 2  t  4(t  1) (2t  1)  2t 2 arcsin( 2t 2  1)

2
3
3

(2.1)
: 1 t  2

Còn đối với một đường trịn bán kính đơn vị, hàm phân phối là:
1
t2
t2
 2
t
H (t )  1  2(t  1) arccos    t (1  ) 1 
 
2
4
2



 với 0  t  2 (2.2)



Bây giờ chúng ta phát triển tiêu chuẩn CSR dựa trên khoảng cách giữa hai biến cố.

10

Giả sử đối với miền A đang xét, hàm phân phối H(t) đã biết. Tính tốn hàm
phân phối thực nghiệm (viết tắt là EDF) của khoảng cách giữa các biến cố.Gọi hàm
đó là Hˆ 1 (t ) .Hàm Hˆ 1 (t ) chính là tỷ lệ quan sát được của các khoảng cách giữa các
biến cố tij không vượt quá t, vì vậy
Hˆ 1 (t ) 

2
# (t ij  t )
n(n  1)

trong đó # (t ij  t ) là số lượng của các tij mà nhỏ hơn hay bằng t.
Bây giờ ta vẽ đồ thị của Hˆ 1 (t ) đối với H(t), nghĩa là Hˆ 1 (t ) là tung độ cịn H(t)
là hồnh độ. Nếu dữ liệu của mẫu điểm đang xét là tương thích với CSR thì đồ thị
xấp xỉ tuyến tính, tức là đồ thị vẽ ra sẽ là đường xấp xỉ thẳng, bởi vì về mặt lý
thuyết khi có tính CSR thỏa mãn thì hàm Hˆ 1 (t ) sẽ bằng hàm H(t).
Để đánh giá mức độ có ý nghĩa hoặc sự xa rời tính tuyến tính, biện pháp
thuận lợi là phân phối mẫu Hˆ 1 (t ) với giả thiết tính CSR được thỏa mãn.Nhưng điều
đó khá phức tạp bởi vì sự phụ thuộc giữa các khoảng cách giữa các biến cố với một
điểm biên chung. Do đó chúng ta tiến hành như sau:
+ Ta mô phỏng s – 1 mẫu điểm gồm n biến cố trong miền A với kích thước
và hình dạng như mẫu điểm đang xét với giả thiết thỏa mãn tính CSR. Đó là s – 1
mơ phỏng của n biến cố độc lập và có phân phối đều trong A.
+ Với một mẫu mô phỏng ta tính hàm phân phối thực nghiệm Hˆ i (t ) , i =
2,3,…, s
+ Xác định các bao mô phỏng trên dưới tương ứng:
Bao mô phỏng trên là U(t) = max{ Hˆ i (t ) , i = 2,3, …, s }
Bao mô phỏng dưới là L(t) = min { Hˆ i (t ) , i = 2,3, …, s }

(2.3)
(2.4)

Các bao mô phỏng này được vẽ đối với H(t) và có tính chất là với tính CSR
và với mỗi t
1
P( Hˆ 1 (t )  U (t ))  P( Hˆ 1 (t )  L(t ))  (2.5)
s

11

Các bao mơ phỏng giúp ta đánh giá, giải thích đồ thị của Hˆ 1 (t ) đối với H(t).
Hai trong nhiều phép xấp xỉ để xây dựng tiêu chuẩn Monte Carlo chính xác của
CSR như sau:
i) Chọn t0 và xác định ui  Hˆ i (t 0 ) . Như đã nói trong 1.3 thứ hạng của u1
trong dãy ui , i = 1, 2 …, s cung cấp một cơ sở của tiêu chuẩn, bởi vì với tính CSR
thì tất cả các hạng của u1 là như nhau.
ii ) Xác định ui là thước đo của sự khác biệt giữa Hˆ i (t ) và H(t) trên toàn
khoảng biến thiên t, chẳng hạn
ui   ( Hˆ i (t )  H (t )) 2 dt (2.6)

và một lần nữa chúng ta lại áp dụng tiêu chuẩn dựa trên hạng của u1.
Phép xấp xỉ đầu tiên có ý nghĩa chỉ khi t0 có thể được lựa chọn một cách
ngẫu nhiên, trong khi đó cách thứ hai có vẻ khách quan hơn.
Nếu miền A là một miền mà đối với nó hàm phân phối lý thuyết H(t) chưa
biết thì việc kiểm tra tính CSR vẫn có thể được thực hiện nếu trong (2.6), H(t) được
thay thế bởi H i (t ) 

1
 Hˆ j (t ) .
s  1 j i

Các ui khơng cịn độc lập khi mà tính CSR đã được thỏa mãn nhưng vẫn đảm
bảo tất cả các hạng của u1 có cùng xác suất như nhau. Tương tự, phương pháp đồ thị
bao gồm việc vẽ đồ thị của các hàm Hˆ 1 (t ) , U(t) và L(t) đối với H 1 (t ) . Chú ý vì
H 1 (t ) chỉ bao gồm các mơ phỏng của tính CSR mà khơng có dữ liệu ban đầu nên nó

cho một ước lượng khơng chệch của H(t).
Sau khi đã có đồ thị các hàm Hˆ 1 (t ) , U(t) và L(t) ta tiến hành quan sát dáng
điệu của Hˆ 1 (t ) đối với U(t) và L(t). Nếu đồ thị hàm Hˆ 1 (t ) xấp xỉ một đường thẳng và
nằm giữa đồ thị bao mô phỏng trên U(t) và đồ thị bao mô phỏng dưới L(t), có nghĩa
là Hˆ 1 (t ) vẫn nằm trong vùng dao động của tính CSR, khi đó ta chấp nhận giả thiết
H: mẫu điểm có tính CSR. Ngược lại, ta bác bỏ giả thiết H, nghĩa là mẫu điểm
không có tính CSR.

12

Để nhận được các kết quả trình bày trên chúng ta phải nhờ đến sự giúp đỡ
của máy tính điện tử.
Lập trình để xử lý bài tốn trên, sau đó áp dụng vào các mẫu điểm ở hình
1.1, 1.2, 1.3 sẽ được thực hiện ở chương sau.
2.2 Khoảng cách lân cận gần nhất
Cho n biến cố trong miền A. Đặt yi là khoảng cách từ biến cố thứ i đến biến
cố khác gần nó nhất trong A. yi được gọi là khoảng cách lân cận gần nhất. Như vậy
ta sẽ có n giá trị yi trên miền A. Chúng ta có thể tính được EDF, giả sử Gˆ 1 ( y) ,
khoảng cách lân cận gần nhất bằng cách tương tự với việc tính tốn được sử dụng
tại mục 2.1 để có được Hˆ 1 (t ) . Vì vậy: Gˆ 1 ( y) 

1
# ( yi  y ).
n

Trong thực tế, tương tác giữa các biến cố tồn tại chỉ ở một mức nhỏ. Chẳng
hạn cây cối tìm kiếm ánh sáng mặt trời và chất dinh dưỡng thông qua ngọn cây hoặc
hệ thống rễ. Trong trường hợp này, khoảng cách lân cận gần nhất cung cấp cho ta
một công cụ khách quan tập trung vào khoảng cách nhỏ giữa các biến cố trong khi

ngưỡng khoảng cách chính xác chưa được xác định trước.
Sự phân bố lý thuyết của khoảng cách lân cận gần nhất Y dưới tính CSR phụ
thuộc vào n và miền A không thể biểu diễn dưới dạng hiểu bởi sự phức tạp của hiệu
ứng biên. Nếu bỏ qua hiệu ứng biên và nếu ký hiệu A là diện tích của A thì ta sẽ
nhận được biểu thức xấp xỉ. Khi đó

y 2
A

là xác suất để một biến cố tùy ý nằm trong

khoảng cách y của một biến cố xác định với giả thiết về tính CSR. Do đó các biến
cố được xác lập một cách độc lập nên hàm phân phối xấp xỉ của Y là:
1

G( y)  1  (1  y 2 A ) n1

Với n lớn, ta đặt λ bằng một xấp xỉ khác nữa là   n A
G( y)  1  exp( y 2 ) : y  0 (2.7)

13

1

ta có:

Hàm phân phối thực nghiệm Gˆ 1 ( y) có thể so sánh với các bao mô phỏng
trên và dưới nhận được từ các hàm phân phối thực nghiệm mô phỏng Gˆ i ( y ) , i = 2,
… , s; một cách chính xác như trong mục 2.1.

Ta có thể dùng (2.7) làm phân phối lý thuyết, nhưng đó chỉ là xấp xỉ nên
người ta thích dùng trung bình mẫu Gi ( y ) của các hàm phân phối thực nghiệm Gˆ i ( y )
i = 2,… , s; dựa trên các mơ phỏng.
Các cơ sở có thể đối với tiêu chuẩn Monte Carlo là
+ Chọn ui là giá trị trung bình của mẫu y của n khoảng cách lân cận gần nhất
+ Hoặc chọn y0 , đặt ui  Gˆ i ( y0 )
+ Hoặc chọn





2
ui   Gˆ i ( y)  Gi ( y) dy

trong đó Gi ( y) 

1
 Gˆ j ( y)
s  1 j i

Bước cuối cùng là vẽ đồ thị các hàm Gˆ i ( y ) , U(y), L(y) trên cùng một hệ tọa
độ với hoành độ là G1 ( y) , các tung độ tương ứng là Gˆ 1 ( y) , U(y), L(y). Việc đánh
giá hàm phân phối thực nghiệm của các khoảng cách lân cận gần nhất G1 ( y) ứng
với mẫu điểm đã cho cũng tương tự như việc đánh giá hàm Hˆ 1 (t ) ở mục 3.1.
Việc lập trình để xử lý bài tốn trên, sau đó áp dụng vào các mẫu điểm được
giới thiệu ở 1.1 sẽ được bàn đến ở chương sau.
2.3 Khoảng cách từ điểm tới các biến cố gần nhất
Giả sử ta có m điểm mẫu trong miền A. xi là khoảng cách từ một điểm
mẫu (trong m điểm mẫu trên) tới biến cố gần nhất trong n biến cố trong A. Hàm

1
phân phối thực nghiệm Fˆ1 ( x) 
# ( xi  x ). Hàm Fˆ1 ( x) đo khoảng trống trong A
m

theo nghĩa là 1- Fˆ ( x) là ước lượng diện tích B(x) của miền B(x) bao gồm tất cả các
điểm trong A mà có khoảng cách ít nhất là x tới mỗi một trong n biến cố trong A.

14

Lập luận tương tự như khi dẫn tới (2.7) dưới giả thiết về tính CSR ta nhận được
biểu thức xấp xỉ:
F ( x)  1  exp( x 2 ) : x  0 (2.8)

trong đó   n A

1

Lotwick mơ tả một thuật tốn dựa trên ngơn ngữ cơ bản Dirichlet của GreenSibson để tính tốn chính xác B(x) A là hình chữ nhật. Trên thực tế khi dùng m
điểm trong lưới đều kxk sẽ cho một xấp xỉ thích hợp nếu k lớn một cách hợp lý.
Diggle và Matern đã đưa ra lời khuyên là k  n (xem [8]).

Hình 2.1:Đồ thị thực nghiệm Fˆ ( x) của các tế bào sinh học

Hình (2.1) chỉ ra rằng với mẫu điểm hình 1.3- nhân của 42 tế bào sinh học
mức độ xấp xỉ được dùng là k = 7 ≈

42 ; k = 14; k = 96.

Với sự phát triển của khoa học tính tốn thì việc lựa chọn k lớn khơng phải là một
trở ngại. Nhìn vào hình 2.1 ta thấy nếu k lớn ta sẽ nhận được đường cong Fˆ ( x) trơn.
Tương tự như đã làm trong khoảng cách lân cận gần nhất, tiêu chuẩn Monte
Carlo của CSR có thể dựa trên thống kê:





2
ui   Fˆi ( x)  Fi ( x) dx (2.9)

2.4 Ƣớc lƣợng tính chất cấp hai: ƣớc lƣợng hàm K(t)
Đối với các lý do được đưa ra trong mục 1.4.2, chúng ta sẽ tập trung vào ước
lượng hàm K. Từ ước lượng Kˆ (t ), chúng ta luôn sử dụng (1.4) để nhận được ước
15

lượng cho hàm 2 (t ). Chọn một dải độ rộng h > 0 làm phép xấp xỉ





1
Kˆ ' (t )  Kˆ (t  h)  Kˆ (t )
h

sẽ dẫn tới ước lượng
ˆ2 (t )  ˆ 2 (2 t ) 1 Kˆ ' (t )

Điều này tạo ra một ước lượng giống như tổ chức đồ thị của 2 (t ) tại các
khoảng độ rộng h trong t. Stoyan và Stoyan (xem [16]) đã đưa ra một phiên bản
nhân trơn và sau nàyđã được sử dụng bởi một số tác giả Moller, Syversveen và
Waagepetersen (xem [11]).
Trong mục 1.4.2 chúng ta đã định nghĩa hàm K(t) bởi K (t )  EN 0 (t ) tính
chất cấp hai của quá trình dừng, đẳng hướng, ở đây cường độ λ là số lượng trung
n
bình của các biến cố trên một đơn vị diện tích, ˆ 

A

Tương tự như vậy, do E (t )  EN 0 (t ) là kỳ vọng của các biến cố khác trong
khoảng cách t một biến cố tùy ý, chúng ta có thể xây dựng một công thức ước lượng
cho E(t) như sau:
+ Đặt uij  xi  x j
1 n
~
+Xác định E (t )   I (uij  t ) (2.10)
n i 1 j i

Ở đây, I(.) ký hiệu là hàm chỉ tiêu.
~

Dạng công thức ước lượng E (t ) trong (2.10) thể hiện một cách chính xác
rằng hàm K được liên kết chặt chẽ với phân bố khoảng cách giữa các biến cố mà ta
~

đã sử dụng trong phân tích ở mục 1.2. Tuy nhiên E (t ) là ước lượng chệch âm đối
với E(t) vì hiệu ứng biên. Đối với biến cố được nhắc đến trong khoảng cách t của

biên của A, số lượng các biến cố khác trong khoảng cách t quan sát được cần thiết
phải loại trừ mỗi biến cố nào mà có thể xảy ra trong khoảng cách t nhưng bên ngoài
A. Một vài phương pháp đã được đề xuất cho việc này, phương pháp sau chúng ta
sử dụng là của Ripley (xem [13])
+ Đặt  ( x, u) là tỷ lệ chu vi của vòng tròn tâm x và bán kính u nằm trong A.
16

+ Ký hiệu ij   ( xi , uij )
Khi đó đối với q trình dừng, đẳng hướng,  ij là xác suất có điều kiện để
một biến cố được quan sát, biết rằng nó ở khoảng cách u ij từ biến cố thứ i là xi. Xem
hình 2.2 và chú ý rằng nói chung ij   ji .

Hình 2.2: Ước lượng của Ripley (1976) cho hàm K(t)
1 n
1
Như vậy ước lượng không chệch cho E(t) là Eˆ (t )   I t (uij )
n i 1 j i ij

+ Thay cường độ chưa biết λ bởi

n 1
, chúng ta nhận được ước lượng của
A

Ripley(xem [13]) cho K(t)
Kˆ (t ) 

n
1

1
A  I t (uij ) (2.11)
n(n  1) i 1 j i ij

1
Thực ra ,trong biểu thức Kˆ (t ) ,Ripley sử dụng 2 hơn là
n

1
.
n(n  1)

Ước lượng của Ripley là xấp xỉ không chệch với t đủ nhỏ, hạn chế trên t là
cần thiết bởi vì trọng lượng  ij có thể tiến tới vô cùng khi t tăng. Trong thực tế đây
không phải là vấn đề nghiêm trọng. Chẳng hạn, khi A là hình vng đơn vị giới hạn
trên lý thuyết của t là

1
2

≈ 0,7 nhưng Kˆ (t ) sẽ hiếm khi được yêu cầu với các giá

trị t lớn như vậy

17

Các phần mềm Splancs kết hợp một thuật toán được viết bởi Barry
Rowlingson cho cách tính  ( x, u) khi A là một đa giác tùy ý. Công thức rõ ràng của
 ( x, u) có thể được viết ra đối với các dạng đơn giản của miền A, chẳng hạn hình

chữ nhật, hình trịn và chúng dễ sử dụng nếu hiệu quả tính tốn là tối quan trọng.
+ Trước tiên ta xét trường hợp A là hình chữ nhật (0,a)x(0,b)
+ Đặt x  ( x1 , x2 )
+ Đặt d1  min( x1 , a  x1 ) , d 2  min( x2 , b  x2 )
Như vậy, d1 và d2 là khoảng cách từ điểm x đến biên thẳng đứng và nằm
ngang gần nhất của A. Để tính  ( x, u) chúng ta cần phân biệt hai trường hợp
1. Nếu u 2  d12  d 22 thì

 ( x, u)  1 

1



arccosmin( d1 , u) / u  arccosmin( d 2 , u) / u

2. Nếu u 2  d12  d 22 thì

 ( x, u)  0,75 

1
arccos( d1 / u)  arccos( d 2 / u)(2.12)
2

Nhận thấy rằng (2.12) chính xác  ( x, u) = 1khi u  min( d1 , d 2 ) . Các công
thức trên áp dụng cho các giá trị của u trong khoảng 0  u  0,5 min(a,b), mà như đã
nhận xét ở trên, là đủ dùng đối với việc ứng dụng thực tế.
Bây giờ giả sử rằng A là hình trịn có tâm là gốc và bán kính a. Giả sử
r  √ ( x12  x22 ) là khoảng cách từ x đến hình trịn. Khi đó lại phân biệt hai

trường hợp , chúng ta có:
1. Nếu u  a  r thì  ( x, u) = 1.
2. Nếu u  a  r thì  ( x, u)  1 

1





arccos (a 2  r 2  u 2 ) /( 2ru)



Các công thức này áp dụng cho các giá trị của u từ 0 đến a.

18

CHƢƠNG 3: PHÂN TÍCH MẪU ẢNH TRÊN MÁY TÍNH
3.1. Lập trình xử lý hàm H(t)
Chúng ta lập trình để xử lý hàm H(t) ứng với mẫu ảnh hình vẽ của 65 cây thông
đen Nhật Bản. Đối với các mẫu ảnh khác, các tham số sẽ được thay thế tương ứng.
Program HamH;
Uses Graph,crt;
Const
tfi = 'Pic_In.ini';
maxn = 65;
S

= 100;

dochia1 = 0.025;
sdchia = 56;
Type
toado = record x,y : real end;
Dathuc = Record
Bac:Integer;
Heso:Array[0..20] of Real;
End;
VAR
P:Dathuc;
Dx,Dy: Integer;
Xorg,Yorg:Integer;
A,A1,A2,A3,A4 : Array [0.. maxn+1] of toado;
kc
H1,U,L

:Array [0.. maxn,0..maxn] of Real;
: Array [0.. sdchia] of Real;

R

: Array [0.. sdchia+1] of Integer;

N

: Integer;

fi1,f01

: Text;

(*===============================================*)

19

Procedure InitGraphics;
Var Gd,Gm:integer;
Begin
Gd:=Detect;
InitGraph(Gd, Gm, ' ');
If GraphResult<>GrOK Then Halt(1);
End;
(*==============================================*)
Procedure Vehetruc(XO,YO,Dx1,Dx2,Dy1,Dy2:Integer);
Begin
Line(XO-Dx1, YO, XO+Dx2, YO); {Truc hoanh}
Line(XO+Dx2-5, YO-5, XO+Dx2, YO);
Line(XO+Dx2-5, YO+5, XO+Dx2, YO);
Line(XO, YO-Dy2, XO, YO+Dy1); {Truc tung}
Line(XO, YO-Dy2, XO-5, YO-Dy2+5);
Line(XO, YO-Dy2, XO+5, YO-Dy2+5);
Outtextxy(XO-15,YO-Dy2,'y');
Outtextxy(XO+Dx2-15,YO+5,'x');
Outtextxy(XO-10,YO+5,'O');
End;
(*==============================================*)

Function FileExists(FileName: String): Boolean;
Var
F2: file;
Begin
{$I-}
Assign(F2, FileName);
Reset(F2);
Close(F2);
{$I+}
20

(Luận văn thạc sĩ) phương pháp khoảng cách trong phân tích thống kê mẫu điểm không gian

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về