Tải bản đầy đủ (.docx) (79 trang)

Phương pháp khoảng cách trong phân tích thống kê mẫu điểm không gian

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (557.94 KB, 79 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-------------------

ĐÀO THỊ TUYẾT THANH

PHƢƠNG PHÁP KHOẢNG CÁCH TRONG
PHÂN TÍCH THỐNG KÊ MẪU ĐIỂM KHÔNG GIAN
Chuyên ngành: Lý thuyết xác suất và thống kê toán học
Mã số: 60.46.15

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS. TS. ĐÀO HỮU HỒ

Hà Nội, Năm 2013


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-------------------

ĐÀO THỊ TUYẾT THANH

PHƢƠNG PHÁP KHOẢNG CÁCH TRONG
PHÂN TÍCH THỐNG KÊ MẪU ĐIỂM KHÔNG GIAN
Chuyên ngành: Lý thuyết xác suất và thống kê toán học
Mã số: 60.46.15

LUẬN VĂN THẠC SĨ KHOA HỌC



NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS. TS. ĐÀO HỮU HỒ

Hà Nội, Năm 2013

1


MỞ ĐẦU
Quá trình điểm không gian được phát triển mạnh mẽ từ các thập niên 60 – 70
– 80 của thế kỷ trước và vẫn được các nhà khoa học không ngừng quan tâm cho đến
nay.
Ngoài ý nghĩa khoa học rất rõ ràng và sáng sủa, quá trình điểm không gian
còn có rất nhiều ứng dụng. Nhiều hiện tượng trên thực tiễn chúng ta gặp là các quá
trình điểm không gian. Do đó ngoài việc nghiên cứu lý thuyết các quá trình điểm
không gian, các nhà khoa học còn rất quan tâm tới bài toán phân tích thống kê các
quá trình điểm không gian. Nghĩa là làm sao ta nhận biết được một quá trình điểm
không gian ta gặp trong thực tế là quá trình điểm không gian nào, chúng có những
tính chất gì,… Cụ thể hơn: chúng ta có một mẫu ảnh về một hiện tượng nào đó.
Liệu mẫu ảnh này có tính ngẫu nhiên không gian hoàn toàn hay không, hoặc quá
trình điểm không gian đang xét có phải là quá trình Poisson hay không. Để trả lời
câu hỏi trên ngoài phương pháp mang tính hàn lâm truyền thống, từ thập niên 80 –
90 của thế kỷ 20, với sự phát triển rất mạnh mẽ của tin học, một phương pháp
nghiên cứu mới xuất hiện trong nghiên cứu của thống kê toán học là chúng ta mô
phỏng các quá trình điểm không gian mà ta quan tâm, sau đó ta xét một vài đặc
trưng nào đó của quá trình này. So sánh các đặc trưng của quá trình mô phỏng với
các đặc trưng của mẫu ảnh ta có, nếu thấy chúng phù hợp với nhau, ta sẽ kết luận về
mẫu ảnh ta đang xét.
Các đặc trưng được nhắc đến trên, trong luận văn này chính là các khoảng

cách: khoảng cách giữa các biến cố, khoảng cách từ biến cố tới biến cố gần nhất,
khoảng cách từ một điểm tới biến cố gần nhất, số trung bình khoảng cách nhỏ hơn t
của một biến cố cố định bất kỳ.
Ngoài phần mở đầu, phần kết luận và danh mục tài liệu tham khảo, luận văn
“Phƣơng pháp khoảng cách trong phân tích thống kê mẫu điểm không gian”,
gồm ba chương:
Chương 1: Quá trình điểm không gian: Các khái niệm và kết quả cơ bản.

I


Chương này giới thiệu một số khái niệm về mẫu điểm không gian, đặc biệt là
tính ngẫu nhiên không gian hoàn toàn và một số đặc trưng cấp 1, cấp 2 của quá
trình điểm không gian.
Chương 2: Các phương pháp khoảng cách.
Chương này luận văn giới thiệu đến các kết quả lý thuyết về quá trình điểm
không gian. Cụ thể là các hàm phân phối của các khoảng cách đối với quá trình
điểm Poisson. Đó là hàm phân phối của khoảng cách giữa các biến cố, khoảng cách
lân cận gần nhất, khoảng cách từ điểm tới các biến cố gần nhất, ước lượng tính chất
cấp 2.
Chương 3: Phân tích mẫu ảnh trên máy tính.
Trong chương này, luận văn đã xây dựng các chương trình để xử lý một mẫu
ảnh đã cho. Mỗi mẫu ảnh được xử lý dựa trên bốn tiêu chuẩn liên quan tới bốn
khoảng cách giữa các biến cố. Dựa trên các kết quả nhận được khi sử dụng các phần
mềm đã được xây dựng trong chương 3 này, chúng tôi đã phân tích và đưa đến kết
luận về tính ngẫu nhiên không gian hoàn toàn của ba mẫu ảnh điển hình: mẫu ngẫu
nhiên, mẫu kết tập, mẫu có quy tắc.
Mặc dù đã rất cố gắng, nhưng do vấn đề được đề cập trong luận văn là tương
đối phức tạp, do thời gian có hạn và do trình độ còn hạn chế, vì vậy luận văn không
tránh khỏi những thiếu sót. Tác giả luận văn mong muốn nhận được sự góp ý kiến

của các thầy cô và các bạn đồng nghiệp để luận văn được hoàn chỉnh hơn.

II


MỤC LỤC
Lời mở đầu
Lời cảm ơn
Chƣơng 1: Quá trình điểm không gian: Các khái niệm cơ bản …………….............
1.1 Mẫu điểm không gian………………………………………………………………..
1.2 Tính ngẫu nhiêu không gian hoàn toàn (tính CSR)…………………………………
1.3 Tiêu chuẩn Monte Carlo……………………………………………………………..
1.4 Quá trình điểm không gian…………………………………………………………..
1.4.1 Quá trình đơn biến…………………………………………………………………
1.4.2 Quá trình Poisson thuần nhất………………………………………………………
Chƣơng 2: Các phƣơng pháp khoảng cách…………………………………………...
2.1 Khoảng cách giữa các biến cố……………………………………………….............
2.2 Khoảng cách lân cận gần nhất……………………………………………….............
2.3 Khoảng cách từ điểm tới các biến cố gần nhất………………………………………
2.4 Ước lượng tính chất cấp hai: ước lượng hàm K(t)…………………………………..
Chƣơng 3: Phân tích mẫu ảnh trên máy tính………………………………………...
3.1 Lập trình xử lý hàm H(t)…………………………………………………….............
3.2 Lập trình xử lý hàm G(t)…………………………………………………….............
3.3 Lập trình xử lý hàm F(t)……………………………………………………………..
3.4 Lập trình xử lý hàm K(t)…………………………………………………….............
3.5 Phân tích xử lý ba mẫu ảnh cụ thể…………………………………………………...
Kết luận ………………………………………………………………………………...
Tài liệu tham khảo ……………………………………………………………………..

IV



CHƢƠNG1: QUÁ TRÌNH ĐIỂM KHÔNG GIAN:
CÁC KHÁI NIỆM VÀ KẾT QUẢ CƠ BẢN
1.1 Mẫu điểm không gian
Trong nghiên cứu thống kê chúng ta thường gặp các tình huống mà dữ liệu
cho dưới dạng tập các điểm, được phân bố ngẫu nhiên trong một miền của không
gian, chẳng hạn như các ảnh chụp từ trên cao cho ta các vị trí của các cây trong một
khu rừng, hoặc vị trí các tổ chim, hoặc vị trí của các nhân tế bào trong một phần mô
nhỏ, … vv.
Chúng ta gọi những tập như vậy là mẫu điểm không gian và coi vị trí của các
phần tử đó là các biến cố để phân biệt chúng với các điểm tùy ý khác trong miền
được nói đến.
Sau đây ta xem xét một số ví dụ cụ thể về mẫu điểm không gian.
1.2

1

0.8

0.6

0.4

0.2
S…

0

0


0.2

0.4

0.6

0.8

1

1.2

Hình 1.1: Vị trí của 65 cây thông đen Nhật Bản

Hình 1.1, do Numata đưa ra (xem [12]),thể hiện vị trí của 65 cây thông đen
Nhật Bản trong một hình vuông với cạnh 5,7m.

1


1.2

1

0.8

0.6

0.4


0.2
S…

0
0

0.2

0.4

0.6

0.8

1

1.2

Hình 1.2: Vị trí của 62 cây gỗ đỏ

Hình 1.2, do Strauss đưa ra(xem [14]), thể hiện vị trí 62 cây gỗ đỏ trên một
hình vuông với cạnh 23m.
Nhận thấy ở hai mô hình này có sự khác biệt rất rõ rệt. Hình 1.1 thể hiện một
cấu trúc không rõ ràng và có thể xem như là một mô hình ngẫu nhiên hoàn toàn.
Trong khi đó ở hình 1.2, việc mọc thành cụm một cách rõ rệt của các cây gỗ đỏ.
Chúng ta miêu tả mẫu điểm giống như hình 1.2 là mẫu kết tập.
1.2
1
0.8

0.6
0.4
0.2

0

0.2

0.4

0.6

0.8

1

Hình 1.3: Vị trí nhân của 42 tế bào sinh học

2

1.2


Hình 1.3, do Ripley đưa ra (xem [14]), lại là một mẫu điểm khác, nó thể hiện
nhân của 42 tế bào sinh học. Sự phân bố của các nhân tế bào có vẻ có quy tắc.
Qua 3 ví dụ trên ta có thể hình thành một sự phân loại các mẫu điểm không
gian như sau: mẫu có quy tắc, mẫu ngẫu nhiên, mẫu kết tập.
Ta giả sử các miền được xét đến đều là miền phẳng trong không gian hai
chiều. Nhưng về nguyên tắc ta có thể mở rộng cho các không gian khác.
1.2 Tính ngẫu nhiên không gian hoàn toàn (tính CSR)

Trước hết ta nêu định nghĩa của tính ngẫu nhiên không gian hoàn toàn
(Complete Spatial Randomness: CSR).Đó là tính độc lập tứ phía. Nghĩa là số các
biến cố của mẫu điểm rơi vào k tập Borel rời nhau lập nên k biến ngẫu nhiên độc
lập (xem [15]) .
Giả thiết về tính ngẫu nhiên không gian hoàn toàn khẳng định rằng:
i) Số biến cố trong một miền phẳng A với diện tích A , tuân theo phân phối

Poisson với giá trị trung bình λ A .
ii ) Cho n biến cố Xi trong miền A thì các Xi được xem là một mẫu ngẫu

nhiên độc lập cỡ n có phân phối đều trên A.
Trong i) hằng số λ là cường độ hay là số trung bình các biến cố trên mỗi đơn
vị diện tích. Theo i), nếu tính chất CSR thỏa mãn thì cường độ của các biến cố
không thay đổi quá mức cho phép. Theo ii), khi tính CSR thỏa mãn thì không có sự
ảnh hưởng lẫn nhau giữa các biến cố. Nghĩa là tính độc lập trong ii) sẽ bị vi phạm
nếu sự tồn tại của một biến cố tại X hoặc là khuyến khích hoặc là hạn chế sự tồn tại
của các biến cố khác trong lân cận của X.

Hình 1.4: 100 biến cố trong một hình vuông đơn vị
3


Hình 1.4 cho ta mẫu điểm ngẫu nhiên không gian hoàn toàn của 100 biến cố
trên một đơn vị diện tích. Những hình ảnh ấn tượng về sự kết tập là không có. Cũng
cần lưu ý tới sự giống nhau bề ngoài với hình 1.1.
Ta quan tâm đến tính CSR bởi nó cho ta một ý tưởng chuẩn hóa, điều tưởng
chừng không thể đạt được trong thực tế, và có thể trở thành tiện lợi cho xấp xỉ đầu tiên.

Hầu hết các phân tích bắt đầu với việc kiểm tra tính CSR, bởi nó có những
ưu điểm sau:

- Một mẫu thỏa mãn tính CSR không bác bỏ những ưu điểm của các phương

pháp phân tích thống kê chính thức.
- Các tiêu chuẩn được dùng như là công cụ để khám phá tập số liệu hơn là để

bác bỏ tính CSR.
- Tính CSR tác động như là một phân chia giả thiết để phân biệt mẫu điểm có

quy tắc và mẫu điểm kết tập.
1.3 Tiêu chuẩn Monte Carlo
Ngay cả đối với mô hình ngẫu nhiên đơn giản của mẫu ảnh không gian cũng
dẫn đến các phân phối lý thuyết khó, cho nên để kiểm định mô hình đối với các số
liệu người ta sử dụng rộng rãi các tiêu chuẩn Monte Carlo (xem [6]).
Tiêu chuẩn này được dùng để đánh giá tính CSR của một mẫu điểm không
gian. Nội dung của tiêu chuẩn như sau:
Ta xét một thống kê U nào đó.
+ Giả sử u1 là giá trị quan sát của U từ mẫu điểm đã cho.
+ Giả sử ui ( i = 2, …, s ) là các giá trị tương ứng của U sinh ra bởi các mẫu

ngẫu nhiên độc lập,thỏa mãn giả thiết H nào đó (giả thiết H trong luận văn này
chính là tính CSR).
+ Giả sử u( j ) là giá trị lớn nhất thứ j trong số ui , i = 1,2,…, s.

Khi đó với giả thiết H ta có:

1
Nếu u1 được xếp vào vị trí lớn thứ k hoặc cao hơn thì ta bác bỏ giả thiết H.

k
4



Ta giả thiết các giá trị ui là khác nhau, do đó hạng (hay vị trí) của u 1 trong
dãy {ui }là rõ ràng.
Hope (xem [9])đã cho một số ví dụ để chỉ ra rằng sự tổn thất lực lượng nhận
được từ tiêu chuẩn Monte Carlo là rất nhỏ, vì vậy giá trị s không nhất thiết phải lớn
lắm. Với tiêu chuẩn một phía mức ý nghĩa thông thường là 5% thì s = 100 là đủ.
Tổn thất lực lượng liên quan đến nghiên cứu của Mairiott về “ vùng giới hạn
mờ “(xem [10])mà nó xuất hiện bởi giá trị của u 1 có thể có ý nghĩa trong phương
pháp kiểm tra cổ điển nhưng không có ý nghĩa trong phương pháp kiểm tra Monte
Carlo và ngược lại. Giả sử hàm phân phối của U với giả thiết H là F(u). Đối với tiêu
chuẩn một phía 5% với s = 20k ta có
P(bác bỏ H/ u1) =
Ta có F(u1 ) = P(U ≤ u1 ) , như ta đã biết nếu u 1 có thứ hạng lớn nhất thứ k
hoặc cao hơn thì giả thiết H bị bác bỏ. Như vậy với s – 1 giá trị u i (i = 2, … , s) nếu
có r giá trị lớn hơn u1 thì sẽ có s – r – 1 giá trị nhỏ hơn hoặc bằng u 1. Theo công
thức xác suất Bernoulli ta nhận được công thức (1.1)
Với phương pháp kiểm tra cổ điển khi s → ∞ , P(bác bỏ H/ u 1) tiến tới 1
hoặc 0 tương ứng với F(u1) lớn hơn hoặc nhỏ hơn 0,95.
1.4 Quá trình điểm không gian
Một quá trình điểm không gian là một cơ cấu ngẫu nhiên mà nó sinh ra một
tập hợp đếm được các biến cố xi trong mặt phẳng.
Chúng ta sẽ làm việc với các quá trình dừng và đẳng hướng.
Tính dừng của quá trình có nghĩa là tất cả các tính chất của quá trình sẽ bất
biến đối với phép tịnh tiến, còn tính đẳng hướng nghĩa là các tính chất của quá trình
sẽ bất biến đối với phép quay.
Các phương pháp thống kê đối với mẫu điểm không gian, thường là liên
quan đến việc so sánh giữa các mô tả tóm tắt thực nghiệm của dữ liệu và mô tả tóm
tắt lý thuyết tương ứng của một mô hình quá trình điểm.
Điều này dẫn tới việc xây dựng các tiêu chuẩn của tính ngẫu nhiên không

gian hoàn toàn liên quan đến việc so sánh giữa dạng phân phối lý thuyết của khoảng

5


cách nào đó và hàm phân phối tương ứng trong một mẫu quan sát của n biến cố. Vì
vậy chúng ta sẽ xem xét các mô tả tóm tắt lý thuyết của quá trình điểm. Ta tập trung
vào các tính chất mà dẫn đến các phương pháp thống kê thuận tiện. Chúng ta có các
ký hiệu sau:
E[X] là kỳ vọng của biến ngẫu nhiên X.
N(A) là số các biến cố trong miền phẳng A.
Nj (A) là số các biến cố loại j trong A (trong quá trình đa biến) .
A là diện tích của A.

dx là một miền nhỏ chứa điểm x.
x − y là khoảng cách Euclid giữa điểm x và y.

1.4.1Quá trình đơn biến
Trước hết, ta định nghĩa tính chất cấp một và tính chất cấp hai của quá trình
điểm không gian.
Tính chất cấp một được mô tả bởi hàm cường độ

λ(x) = lim

Đối với quá trình dừng, λ(x) được coi là hằng số λ, tức là số các biến cố trên
một đơn vị diện tích.
Tính chất cấp hai mô tả bởi hàm cường độ cấp hai:

λ


2

(x, y) =

Hàm cường độ có điều kiện là: λc (x / y) =
Đối với quá trình dừng, λ2(x,y) ≡ λ2(x – y). Trong quá trình dừng,đẳng
hướng thì λ2(x – y) có thể viết là λ2(t) với t = x − y
Một đặc trưng khác của tính chất cấp hai của một quá trình dừng, đẳng
hướng là hàm K(t), được định nghĩa như sau:


K (t) =

6


với N0 (t) là số các biến cố khác trong khoảng cách t của một biến cố tùy ý.
Ta thiết lập mối quan hệ giữa K(t) và λ2 (t) như sau:
Giả sử quá trình của chúng ta là có trật tự, nghĩa là các biến cố trùng nhau
không thể xảy ra. Chính xác hơn, P{N (dx) > 1}có cấp nhỏ hơn so với dx . Điều này
có nghĩa là E[N(dx)] ~ P{N (dx) = 1} theo nghĩa là tỷ số của hai số lượng này có xu
hướng tiến đến 1 nếu dx → 0 .
Vì:
E[N (dx)]= 1.P{N (dx) = 1}+ p.P{N (dx) 〉 1}= P{N (dx) = 1}+ p.0( dx ) → P{N (dx)}= 1

Tương tự, giả sử E[N(dx)N(dy)]~ P{N(dx) = N(dy) = 1}. Với các giả thiết này, số
trung bình của các biến cố khác trong khoảng cách t của một biến cố tùy ý có thể
được tính bằng phép lấy tích phân cường độ có điều kiện trên một hình tròn có tâm
là gốc và bán kính t. Do đó :


1

K (t) = λ E[N0 (t)]
1
λ

2π t

∫∫00

λ (x / 0)xdxdθ
c

.

2 π

= λ

2

∫t λ2 (x)xdx (1.3)

0

hoặc ngược lại
λ (t) =
2

λ2


K

'

(t) (1.4)

2π t

Theo một quan điểm lý thuyết, đôi khi ta làm việc với λ 2(t) sẽ tiện lợi hơn là
làm việc với K(t), và như là một thay thế nhỏ chúng ta định nghĩa hàm mật độ hiệp
phương sai :


(t) = λ2 (t) − λ2 (1.5)

Đối với việc phân tích dữ liệu, K(t) thuận lợi hơn λ 2(t) ở chỗ nó có thể ước
lượng một cách dễ dàng hơn từ các dữ liệu. Về cơ bản K(t) và λ 2(t) liên quan đến
hàm phân phối và hàm mật độ xác suất của các khoảng cách giữa các cặp biến cố
7

=


trong mẫu điểm, và đặc biệt trong các mẫu nhỏ, nó thuận lợi ta người đầu tiên có
thể ước lượng mà không cần phải xem phân phối thực nghiệm tương ứng mịn đến
mức nào.
Một thuận lợi khác của hàm K là nó bất biến đối với phép làm mỏng ngẫu
nhiên. Bởi vậy, chúng ta hiểu rằng, nếu mỗi biến cố của một quá trình được giữ lại
hoặc không tương ứng với dãy phép thử Bernoulli độc lập thì hàm K của quá trình

làm mỏng nhận được sẽ đồng nhất với hàm K của quá trình ban đầu. Theo (1.2),
hàm K được định nghĩa là tỷ số của hai đại lượng là E[N0 (t)]và λ. Hiệu quả của sự
mỏng là mỗi phần tử bội là p, xác suất sự giữ lại cho một biến cố bất kỳ là tỷ số
không đổi.
1.4.2 Quá trình Poisson thuần nhất
Quá trình Poisson thuần nhất trên mặt phẳng là nền tảng lý thuyết của quá
trình điểm không gian được xây dựng. Nó biểu diễn cơ chế ngẫu nhiên đơn giản
nhất có thể để sản sinh ra các mẫu điểm không gian và trong ứng dụng nó được sử
dụngnhư là một tiêu chuẩn lý tưởng của tính ngẫu nhiên không gian hoàn toàn. Quá
trình Poisson được định nghĩa một cách thuận lợi bởi những vấn đề sau, nó tương
ứng với định nghĩa tính ngẫu nhiên không gian hoàn toàn.
i) Đối với λ > 0, với bất kỳ miền phẳng hữu hạn A, N(A) tuân theo luật phân

phối Poisson với trung bình λ A
ii) Với N(A) = n đã cho, n biến cố trong A lập nên một mẫu ngẫu nhiên độc

lập phân phối đều trong A.
Để chứng minh rằng i) và ii) là tự phù hợp, ta đưa ra tính chất iii):
iii) Cho hai miền rời nhau A và B, các biến ngẫu nhiên N(A) và N(B) độc

lập. Thật vậy, từ i) và ii) ta suy ra iii).
Đặt C = A ∪ B là hợp của hai miền rời nhau A và B.
Đặt p = A / C và q = 1 − p = B / C
Khi đó, áp dụng ii) cho miền C ta suy ra:

P





N ( A) = x, N (B) =


Với x, y nguyên và 0 ≤ x ≤ n , y = n − x
Theo i) ta có phân phối đồng thời của N(A) và N(B) là:
x+y
P{N ( A) = x, N (B) = y}= 







e



 e−λ A (λ A ) x

=



x!








e







với x,y: nguyên, không âm.
Điều đó chứng tỏ N(A), N(B) có phân phối Poisson độc lập. Ta nhận được
iii). Ngược lại tính cộng tính của các biến ngẫu nhiên phân phối Poisson độc lập X
và Y và phân phối nhị thức có điều kiện của X với điều kiện X + Y đã cho sẽ cho ta
tính i) và ii) đối với mọi miền là hợp của hai miền rời nhau mà trên đó tính i) và ii)
thỏa mãn. Điều đó chứng minh tính tự phù hợp mà ta yêu cầu.
Tham số λ của quá trình Poisson là cường độ của nó. Từ tính độc lập iii) ta
suy ra
λ2 (t) = λ2 : t 〉 0 (1.7)

Do (1.3) nên K (t) = π t 2 : t 〉 0 (1.8)
Đặt G(y) là hàm phân phối của khoảng cách từ một biến cố tùy ý tới biến cố
khác gần nhất với nó. F(x) là hàm phân phối của khoảng cách từ một điểm tùy ý tới
biến cố gần nhất. Đối với quá trình Poisson các hàm phân phối lân cận gần nhất
G(y) và F(x) là đồng nhất, bởi vì việc tồn tại một biến cố tại một điểm đặc biệt,
chẳng hạn x0, sẽ không ảnh hưởng gì đến phân phối của số lượng biến cố còn lại
trong hình tròn với tâm x0. Từ i) suy ra:
F(x) = G(x) = P{N(π x2 ) > 0}=1− exp(−πλ x2 ) : x > 0 (1.9)

Để mô phỏng một thể hiện riêng của quá trình Poisson trên A với điều kiện

N(A) bằng một giá trị cố định, chúng ta cần tạo ra các biến cố độc lập theo một hàm
phân phối đều trên A. Các dạng khó sử dụng của miền A có thể được điều chỉnh bởi
sự mô phỏng các quá trình trên một miền lớn hơn với một dạng phù hợp chẳng hạn
là hình chữ nhật hoặc hình tròn, và chỉ giữ lại các biến cố nằm trong A.


9


CHƢƠNG2: CÁC PHƢƠNG PHÁP KHOẢNG CÁCH
Việc kiểm định tính CSR là một điều kiện tiên quyết tối thiểu đối với mọi cố
gắng nghiêm túc để mô hình hóa một mẫu quan sát được. Vì vậy trong chương này
chúng ta sẽ xây dựng các tiêu chuẩn để nhận biết tính CSR dựa trên các khoảng
cách giữa các biến cố với nhau, khoảng cách tới biến cố gần nhất, khoảng cách giữa
một điểm cố định tới các biến cố ….
Các tiêu chuẩn dựa trên phương pháp đồ thị sẽ mang đến cho chúng ta những
kết quả bất ngờ thú vị. Giá trị của phương pháp đồ thị mang lại khá nhiều thông tin
và nhiều trường hợp ta không cần dùng đến phương pháp khác nữa. Dùng mức ý
nghĩa đạt được để đánh giá mức độ thỏa mãn tính CSR. Trường hợp không thỏa
mãn ta sẽ kết hợp thông tin của các tiêu chuẩn bổ sung khác để chỉ ra bản chất của
mọi sự không thỏa mãn tính CSR của một mẫu điểm.
2.1 Khoảng cách giữa các biến cố.
Giả sử ta có một mẫu điểm gồm n biến cố trong một miền A, khi đó ta có

1

Cn2 = 2 n(n −1) khoảng cách giữa các biến cố. Ký hiệu tịj là khoảng cách giữa hai biến

cố i và j trong miền A. Phân phối lý thuyết của khoảng cách T giữa hai biến cố độc
lập và phân phối đều trong A, phụ thuộc vào kích thước và hình dạng của A, nhưng

có thể biểu diễn được dưới dạng kiểu khi A là hình vuông hoặc hình tròn (xem [7]).
Đối với một hình vuông đơn vị, hàm phân phối của T là:

πt2 −



H (t) = 



1

− 2t





3

Còn đối với một đường tròn bán kính đơn vị, hàm phân phối là:

H (t) = 1 +


Bây giờ chúng ta phát triển tiêu chuẩn CSR dựa trên khoảng cách giữa hai biến cố.

10



Giả sử đối với miền A đang xét, hàm phân phối H(t) đã biết. Tính toán hàm
phân phối thực nghiệm (viết tắt là EDF) của khoảng cách giữa các biến cố.Gọi hàm
ˆ
H1 (t) .Hàm

đó là
biến cố tij không vượt quá t, vì vậy

ˆ
H1 (t) =

trong đó # (tij
Bây giờ ta vẽ đồ thị của H1 (t) đối với H(t), nghĩa là
là hoành độ. Nếu dữ liệu của mẫu điểm đang xét là tương thích với CSR thì đồ thị
xấp xỉ tuyến tính, tức là đồ thị vẽ ra sẽ là đường xấp xỉ thẳng, bởi vì về mặt lý

ˆ
thuyết khi có tính CSR thỏa mãn thì hàm H 1 (t) sẽ bằng hàm H(t).
Để đánh giá mức độ có ý nghĩa hoặc sự xa rời tính tuyến tính, biện pháp

ˆ
thuận lợi là phân phối mẫu với giả thiết tính CSR được thỏa mãn.Nhưng điều H1 (t)
đó khá phức tạp bởi vì sự phụ thuộc giữa các khoảng cách giữa các biến cố với một
điểm biên chung. Do đó chúng ta tiến hành như sau:
+ Ta mô phỏng s – 1 mẫu điểm gồm n biến cố trong miền A với kích thước

và hình dạng như mẫu điểm đang xét với giả thiết thỏa mãn tính CSR. Đó là s – 1
mô phỏng của n biến cố độc lập và có phân phối đều trong A.
+ Với một mẫu mô phỏng ta tính hàm phân phối thực nghiệm

2,3,…, s
+ Xác định các bao mô phỏng trên dưới tương ứng:
Bao mô phỏng trên là U(t) = max{ H i (t) , i = 2,3, …, s }
Bao mô phỏng dưới là L(t) = min { H i (t) , i = 2,3, …, s }
Các bao mô phỏng này được vẽ đối với H(t) và có tính chất là với tính CSR
và với mỗi t
ˆ
P(H1

(t) >

11


Hˆ 1 (t)
Các bao mô phỏng giúp ta đánh giá, giải thích đồ thị của

đối với H(t).

Hai trong nhiều phép xấp xỉ để xây dựng tiêu chuẩn Monte Carlo chính xác của
CSR như sau:
i) Chọn t0 và xác định
trong dãy ui , i = 1, 2 …, s cung cấp một cơ sở của tiêu chuẩn, bởi vì với tính CSR
thì tất cả các hạng của u1 là như nhau.
ii ) Xác định
khoảng biến thiên t, chẳng hạn
ˆ
ui = ∫(Hi (t) − H (t))
và một lần nữa chúng ta lại áp dụng tiêu chuẩn dựa trên hạng của u1.
Phép xấp xỉ đầu tiên có ý nghĩa chỉ khi t 0 có thể được lựa chọn một cách

ngẫu nhiên, trong khi đó cách thứ hai có vẻ khách quan hơn.
Nếu miền A là một miền mà đối với nó hàm phân phối lý thuyết H(t) chưa
biết thì việc kiểm tra tính CSR vẫn có thể được thực hiện nếu trong (2.6), H(t) được

Hˆ 1 (t)

thay thế bởi

Các ui không còn độc lập khi mà tính CSR đã được thỏa mãn nhưng vẫn đảm
bảo tất cả các hạng của u1 có cùng xác suất như nhau. Tương tự, phương pháp đồ thị
bao gồm việc vẽ đồ thị của các hàm

, U(t) và L(t) đối với H1 (t) . Chú ý vì

H1 (t) chỉ bao gồm các mô phỏng của tính CSR mà không có dữ liệu ban đầu nên nó

cho một ước lượng không chệch của H(t).

Sau khi đã có đồ thị các hàm

ˆ
H1

điệu của
nằm giữa đồ thị bao mô phỏng trên U(t) và đồ thị bao mô phỏng dưới L(t), có nghĩa


ˆ
H1


(t) đố

(t) vẫn nằm trong vùng dao động của tính CSR, khi đó ta


H: mẫu điểm có tính CSR. Ngược lại, ta bác bỏ giả thiết H, nghĩa là mẫu điểm

không có tính CSR.

12


Để nhận được các kết quả trình bày trên chúng ta phải nhờ đến sự giúp đỡ
của máy tính điện tử.
Lập trình để xử lý bài toán trên, sau đó áp dụng vào các mẫu điểm ở hình
1.1, 1.2, 1.3 sẽ được thực hiện ở chương sau.
2.2 Khoảng cách lân cận gần nhất
Cho n biến cố trong miền A. Đặt y i là khoảng cách từ biến cố thứ i đến biến
cố khác gần nó nhất trong A. yi được gọi là khoảng cách lân cận gần nhất. Như vậy
ta sẽ có n giá trị yi trên miền A. Chúng ta có thể tính được EDF, giả sử
khoảng cách lân cận gần nhất bằng cách tương tự với việc tính toán được sử dụng
tại mục 2.1 để có được
Trong thực tế, tương tác giữa các biến cố tồn tại chỉ ở một mức nhỏ. Chẳng
hạn cây cối tìm kiếm ánh sáng mặt trời và chất dinh dưỡng thông qua ngọn cây hoặc
hệ thống rễ. Trong trường hợp này, khoảng cách lân cận gần nhất cung cấp cho ta
một công cụ khách quan tập trung vào khoảng cách nhỏ giữa các biến cố trong khi
ngưỡng khoảng cách chính xác chưa được xác định trước.
Sự phân bố lý thuyết của khoảng cách lân cận gần nhất Y dưới tính CSR phụ
thuộc vào n và miền A không thể biểu diễn dưới dạng hiểu bởi sự phức tạp của hiệu
ứng biên. Nếu bỏ qua hiệu ứng biên và nếu ký hiệu A là diện tích của A thì ta sẽ

nhận được biểu thức xấp xỉ. Khi đó

πy 2

là xác suất để một biến cố tùy ý nằm trong

A

khoảng cách y của một biến cố xác định với giả thiết về tính CSR. Do đó các biến
cố được xác lập một cách độc lập nên hàm phân phối xấp xỉ của Y là:
G( y) = 1 − (1 −πy 2 A −1 )n−1

Với n lớn, ta đặt λ bằng một xấp xỉ khác nữa là λ = n A −1 ta có:
G( y) = 1 − exp(−λπy 2 ) : y ≥ 0 (2.7)

13


Hàm phân phối thực nghiệm G1 ( y) có thể so sánh với các bao mô phỏng
trên và dưới nhận được từ các hàm phân phối thực nghiệm mô phỏng Gi ( y) , i = 2,
… , s; một cách chính xác như trong mục 2.1.
Ta có thể dùng (2.7) làm phân phối lý thuyết, nhưng đó chỉ là xấp xỉ nên
người ta thích dùng trung bình mẫu Gi ( y) của các hàm phân phối thực nghiệm Gi ( y)
i = 2,… , s; dựa trên các mô phỏng.
Các cơ sở có thể đối với tiêu chuẩn Monte Carlo là
+ Chọn ui là giá trị trung bình của mẫu
+ Hoặc chọn y0 , đặt
+ Hoặc chọn

(


ˆ

ui = ∫ G i

trong đó

Bước cuối cùng là vẽ đồ thị các hàm Gi ( y) , U(y), L(y) trên cùng một hệ tọa
độ với hoành độ là
giá hàm phân phối thực nghiệm của các khoảng cách lân cận gần nhất G1 ( y) ứng
với mẫu điểm đã cho cũng tương tự như việc đánh giá hàm
Việc lập trình để xử lý bài toán trên, sau đó áp dụng vào các mẫu điểm được
giới thiệu ở 1.1 sẽ được bàn đến ở chương sau.
2.3 Khoảng cách từ điểm tới các biến cố gần nhất
Giả sử ta có m điểm mẫu trong miền A. xi là khoảng cách từ một điểm
mẫu (trong m điểm mẫu trên) tới biến cố gần nhất trong n biến cố trong A. Hàm
phân phối thực nghiệm

theo nghĩa là 1điểm trong A mà có khoảng cách ít nhất là x tới mỗi một trong n biến cố trong A.


14


Lập luận tương tự như khi dẫn tới (2.7) dưới giả thiết về tính CSR ta nhận được
biểu thức xấp xỉ:
F(x) = 1 − exp(−πλx2 ) : x ≥ 0 (2.8)


Lotwick mô tả một thuật toán dựa trên ngôn ngữ cơ bản Dirichlet của GreenSibson để tính toán chính xác B(x) A là hình chữ nhật. Trên thực tế khi dùng m điểm

trong lưới đều kxk sẽ cho một xấp xỉ thích hợp nếu k lớn một cách hợp lý. Diggle
và Matern đã đưa ra lời khuyên là k = n (xem [8]).

ˆ

Hình 2.1:Đồ thị thực nghiệm của các tế bào sinh học F
(x)

Hình (2.1) chỉ ra rằng với mẫu điểm hình 1.3- nhân của 42 tế bào sinh học
mức độ xấp xỉ được dùng là k = 7 ≈ 42 ; k = 14; k = 96.
Với sự phát triển của khoa học tính toán thì việc lựa chọn k lớn không phải là một

trở ngại. Nhìn vào hình 2.1 ta thấy nếu k lớn ta sẽ nhận được đường cong
Tương tự như đã làm trong khoảng cách lân cận gần nhất, tiêu chuẩn Monte
Carlo của CSR có thể dựa trên thống kê:

(

ˆ

ui = ∫ Fi (x) − Fi

2.4 Ƣớc lƣợng tính chất cấp hai: ƣớc lƣợng hàm K(t)
Đối với các lý do được đưa ra trong mục 1.4.2, chúng ta sẽ tập trung vào ước

ˆ
lượng hàm K. Từ ước lượng chúng ta luôn sử dụng (1.4) để nhận được ước K (t),
15



×