Tải bản đầy đủ (.doc) (16 trang)

TIỂU LUẬN MÔN CƠ SƠ DỮ LIỆU NÂNG CAO PHƯƠNG PHÁP PHÂN TÍCH CỤM TRONG KHAI PHÁ DỮ LIỆU KHÔNG GIAN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (296.45 KB, 16 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
 & 
Bài tập lớn Cơ sở dữ liệu nâng cao
Đề tài: Phương pháp phân tích cụm trong khai phá dữ liệu
không gian
Giảng viên : PGS.TS Nguyễn Hà Nam
Nhóm thực hiện : Nhóm 19
Sinh viên thực hiện : Khúc Ngọc Hiệp
Nguyễn Quang Minh
Hà Nội – 3/2012
1
Mục lục
Mục lục 2
Danh sách hình vẽ 3
Giới thiệu 4
1.Cơ sở dữ liệu không gian 5
1.1 Định nghĩa 5
1.2 Các đặc điểm của cơ sở dữ liệu không gian 5
2.Khai phá dữ liệu không gian 8
2.1 Định nghĩa 8
2.2 Đặc điểm của khai phá dữ liệu không gian 8
3.Phân tích phân cụm 11
3.1 Giới thiệu về phân tích phân cụm 11
3.2 Các thuật toán phân cụm 12
3.3 Phân cụm theo phân bố 12
4.Kết luận 15
5.Tài liệu tham khảo 16
2
Danh sách hình vẽ
Hình 1: Kiểu dữ liệu không gian trong Oracle Spatial 6


Hình 2: Kiểu dữ liệu không gian trong DB2 Spatial Extender 6
Hình 3: Thứ tự đánh chỉ số trong R-tree 7
Hình 4: Mối liên hệ không gian giữa các mức trong R-tree 7
Hình 5: Các hình với hình dạng đặc biệt 12
Hình 6: Phương pháp phân cụm EM-clustering 14
3
Giới thiệu
Cơ sở dữ liệu không gian là cơ sở dữ liệu được thiết kế để xử lý dữ liệu không gian, nó thường
được sử dụng cho rất nhiều lĩnh vực từ dữ liệu không gian địa lý đến kiến thức về công nghệ y
học, và các cơ sở dữ liệu không gian được sử dụng ngày càng nhiều. Lượng dữ liệu không gian
được thu thập cũng tăng vô cùng nhanh theo hàm mũ. Độ phức tạp của các dữ liệu được chứa
đựng trong các cơ sở dữ liệu có nghĩa là con người không thể phân tích một cách hoàn toàn các
dữ liệu đã được thu thập. Các kỹ thuật khai phá dữ liệu đã được sử dụng với các cơ sở dữ liệu
quan hệ để khám phá các thông tin chưa biết, tìm các kết quả không mong đợi và các tương
quan. Các cơ sở dữ liệu vô cùng lớn đòi hỏi các kỹ thuật mới để phân tích dữ liệu và khám phá
những các mẫu như trên. Các thuật toán tìm kiếm truyền thống có thể vẫn có câu trả lời cho một
số phần của thông tin, tuy nhiên các kỹ thuật cũ đã hoàn toàn không thể thực hiện các tìm kiếm
cho các mẫu chưa biết đến trong dữ liệu.
Phần sau đây của báo cáo sẽ tìm hiểu về cơ sở dữ liệu không gian, các kỹ thuật trong khai phá dữ
liệu không gian để giải quyết bài toán ở trên, và đi sâu vào tìm hiểu các thuật toán phân cụm ứng
dụng trong khai phá dữ liệu không gian.
4
1. Cơ sở dữ liệu không gian
1.1 Định nghĩa
Cơ sở dữ liệu không gian là một loại đặc biệt của cơ sở dữ liệu mà nó được tối ưu hóa để lưu trữ
và truy vấn các dữ liệu liên quan đến các đối tượng trong không gian bao gồm điểm, đường, đa
giác và mặt. Trong khi các cơ sở dữ liệu điển hình có thể hiểu các kiểu dữ liệu dạng số và ký tự,
cơ sở dữ liệu không gian phải có các chức năng được xây dựng thêm để xử lý các dữ liệu không
gian.
Güting (1994) định nghĩa cơ sở dữ liệu không gian là một kiểu của cơ sở dữ liệu mà có các đặc

tính sau:
• Là một cơ sở dữ liệu
• Có các kiểu dữ liệu không gian trong mô hình dữ liệu và ngôn ngữ truy vấn của nó
• Hỗ trợ các kiểu dữ liệu không gian và cung cấp ít nhất là chỉ số không gian (spatial
indexing) và một thuật toán hiệu quả cho phép kết không gian (spatial joins).
1.2 Các đặc điểm của cơ sở dữ liệu không gian
Cơ sở dữ liệu không gian cho phép quản lý và xử lý các dữ liệu liên quan đến bản đồ. Phần sau
đây sẽ nói về các đặc điểm của nó, bao gồm các kiểu dữ liệu không gian, đánh chỉ số không gian
(spatial indexing) và phép kết không gian.
Các kiểu dữ liệu không gian
Các cơ sở dữ liệu truyền thống được thiết kế để quản lý và xử lý dữ liệu chữ-số thể hiện bởi
chuỗi các ký tự, giá trị số, ngày tháng và giá trị đúng sai. Nó không có sự chuẩn bị để hỗ trợ để
lưu trữ và xử lý dữ liệu không gian mà được thể hiện bởi các điểm, đường, đa giác và bề mặt.
Các cơ sở dữ liệu hướng đối tượng và cơ sở dữ liệu quan hệ cho phép người dùng định nghĩa các
kiểu dữ liệu trừu tượng mô tả cấu trúc cột phức tạp trong cơ sở dữ liệu. Một vài nhà cung cấp
phần mềm cơ sở dữ liệu đã sử dụng khả năng này để định nghĩa các kiểu dữ liệu không gian cho
phép sản phẩm của họ quản lý và xử lý tốt các dữ liệu không gian.
Mỗi nhà cung cấp phần mềm cơ sở dữ liệu cài đặt một cách khác nhau, ví dụ Oracle Spatial có
chín kiểu dữ liệu không gian cơ bản bao gồm điểm, đường thẳng, đường cong, đường phức hợp,
đa giác, đa giác cong, đa giác phức hợp, hình tròn và hình chữ nhật. Trong khi đó, DB2 Spatial
Extender của IBM lại sử dụng thuật ngữ hình học để mô tả các kiểu dữ liệu không gian của nó
với điểm, đa điểm, đường, đa đường, đa giác, hợp đa giác và ellipse.
5
Trong khi các thuật ngữ được sử dụng khác nhau, các mô hình dữ liệu cơ bản và các hàm và
phép toán lại khá là nhất quán.
Hình 1: Kiểu dữ liệu không gian trong Oracle Spatial
Hình 2: Kiểu dữ liệu không gian trong DB2 Spatial Extender
Đánh chỉ số dữ liệu không gian
Đánh chỉ số dữ liệu không gian cũng có mục đích tương tự như trong các cơ sở dữ liệu truyền
thống, là để nhanh chóng tìm kiếm được giá trị mong muốn từ cơ sở dữ liệu không gian, tuy

nhiên nó phức tạp hơn rất nhiều vì nó phải làm việc với không gian hai chiều hơn là một mảng
các dữ liệu dạng ký tự trong các bảng.
Một khái niệm cơ bản trong đánh chỉ số không gian đó là nó sử dụng xấp xỉ bởi đó quá trình truy
cập dữ liệu không gian dần dần thu hẹp vùng tìm kiếm của nó cho đến khi tìm thấy đối tượng
mong muốn. Có rất nhiều phương pháp đánh chỉ số được sử dụng cho các cơ sở dữ liệu không
gian , một trong số những phương pháp được sử dụng nhiều nhất là R-tree.
6
Hình 3: Thứ tự đánh chỉ số trong R-tree
Hình 4: Mối liên hệ không gian giữa các mức trong R-tree
Phép kết không gian (spatial joins)
Phép kết không gian là một truy vấn trong đó nó so sánh hai hay nhiều hình dựa vào vị trí của
chúng. Về mặt chức năng, phép kết không gian có mục đích tương tự với các phép kết trong cơ
sở dữ liệu thông thường , tuy nhiên nó bổ sung thêm các toán tử không gian như là nằm trên
(overlay), đan xen (intersect), chứa, hợp. Trong thực tế, phép kết không gian là truy vấn quan
trọng nhất trong các truy vấn không gian vì nó cung cấp cơ chế để so sánh hai hay nhiều lớp
trong các hàm phân tích không gian như là phân tích một đối tượng có nằm trên đối tượng khác
hay không.
7
2. Khai phá dữ liệu không gian
Cơ sở dữ liệu không gian đầu tiên được thiết kế và cài đặt chủ yếu để quản lý dữ liệu. Vì quá
trình phát triển tập trung vào cấu trúc dữ liệu và xử lý giao dịch, các hệ thống đầu tiên này
thường yếu về các chức năng phân tích dữ liệu, với kết quả là chúng hiếm khi được sử dụng để
hỗ trợ thực thi và quản lý ra quyết định.
Sự tích hợp tăng cường của các cơ sở dữ liệu không gian với xu hướng chính của công nghệ cơ
sở dữ liệu đã ngày càng cho thấy tầm quan trọng và giá trị của dữ liệu không gian trong các quá
trình ra quyết định trong các tổ chức. Xu hướng mới nổi lên này trong việc sử dụng dữ liệu
không gian để hỗ trợ ra quyết định được hưởng lợi rất nhiều từ sự tiến bộ song song trong khai
phá tri thức trong các cơ sở dữ liệu lớn sử dụng khái niệm và kỹ thuật hiện nay thường được biết
đến như là khai phá dữ liệu hoặc khám phá kiến thức trong cơ sở dữ liệu.
2.1 Định nghĩa

Khai phá dữ liệu không gian là một lĩnh vực ứng dụng đặc biệt của khai phá dữ liệu. Nó được đặt
nền móng từ khai phá dữ liệu truyền thống và dựa chủ yếu vào các công nghệ khai phá dữ liệu
tổng quát để điều khiển các thuộc tính của dữ liệu không gian.
Khai phá dữ liệu không gian là quá trình khám phá các mẫu đáng chú ý, có ích tiềm tàng, chưa
biết trước từ các tập dữ liệu không gian lớn. Phân tích các mẫu đáng chú ý và có ích từ các tập
dữ liệu không gian khó hơn rất nhiều so với việc phân tích các mẫu tương ứng từ các dữ liệu
chữ-số truyền thống bởi vì sự phức tạp của các kiểu dữ liệu không gian và các mối quan hệ
không gian.
Để sử dụng các kỹ thuật và khái niệm của khai phá dữ liệu trong lĩnh vực không gian, chúng ta
phải cải tiến chúng về cả lý thuyết và kỹ thuật để phù hợp với các tính chất của dữ liệu không
gian và đáp ứng được yêu cầu của người sử dụng trong ra quyết định không gian.
2.2 Đặc điểm của khai phá dữ liệu không gian
Khai phá dữ liệu không gian phức tạp hơn khai phá dữ liệu truyền thống rất nhiều do đặc thù của
dữ liệu không gian:
• Cấu trúc dữ liệu không gian. Dữ liệu không gian thường mang thông tin về vị trí và địa
hình, thường được tổ chức bằng các cấu trúc đánh chỉ số phức tạp và được truy xuất bởi
các phương pháp truy xuất không gian.
8
• Tập dữ liệu không gian. Các cơ sở dữ liệu không gian luôn chứa một lượng lớn dữ liệu
thật sự và nó thường có định dạng và chất lượng hỗn tạp và đòi hỏi một lượng tính toán
đáng kể để làm sạch và lựa chọn chúng để sử dụng trong khai phá dữ liệu.
• Thu thập dữ liệu không gian. Rất nhiều dữ liệu không gian được sử dụng ngày nay đã
được thu thập bằng cách lấy mẫu và được cung cấp tạm thời dưới dạng tập hợp. Đặc tính
này có nghĩa là những thông tin hay thay đổi có thể bị mất bởi vì thiết kế lấy mẫu và
phiên dịch trong thu thập dữ liệu, tính toán và các quá trình biên dịch.
• Phụ thuộc không gian. Các đặc điểm của không gian thường liên hệ với nhau về bản
chất, vì vậy thường là khó hoặc không thể khám phá ra các kiến thức ẩn trong dữ liệu nếu
không có kiến thức trước về các đặc tính của tập dữ liệu cần phân tích. Kiến thức đó
thường không dễ để tìm thấy.
• Tính tạm thời của dữ liệu không gian. Đặc điểm của không gian là liên hệ và kết nối

với nhau về mặt thời gian. Bởi vì dữ liệu không gian ghi lại trạng thái của các đặc điểm
chỉ tại một thời điểm nhất định, thông tin của trạng thái trước đó rất hiếm khi được ghi lại
và lưu giữ trong cơ sở dữ liệu không gian.
Các nhân tố khác liên quan đến những kỹ thuật và khái niệm của kiến thức không gian. Nó bao
gồm:
• Các kỹ thuật khai phá dữ liệu không gian. Khai phá dữ liệu không gian đòi hỏi tính
toán hình học và các phép toán không gian, điều này chỉ có thể có trong cơ sở dữ liệu
không gian, điều đó ngụ ý rằng khai phá dữ liệu không gian đòi hỏi tích hợp chặt chẽ và
dựa chủ yếu trên các kỹ thuật cơ sở dữ liệu không gian phức tạp.
• Các mô hình khái niệm dữ liệu không gian. Sự thiếu hụt rõ ràng một mô hình chung
được chấp nhận của địa lý học đã gây ra những khó khan trong hình thức hóa miền dữ
liệu không gian. Điều này đã tạo ra các cách cài đặt khác nhau của các cơ sở dữ liệu
không gian từ những cơ sở dữ liệu chính.
Khai phá dữ liệu không gian vì vậy được mô tả bởi cả sự phức tạp cố hữu của của dữ liệu không
gian và sự phức tạp trong các kỹ thuật cài đặt. Nó khác so với khai phá dữ liệu truyền thống theo
những cách sau:
• Khai phá dữ liệu không gian liên quan tới kiến thức không gian trong không gian địa lý
hai hoặc ba chiều, trong khi khai phá dữ liệu truyền thống chỉ liên quan tới kiến thức
trong một không gian riêng rẽ.
• Không giống như khai phá dữ liệu truyền thống, khai phá dữ liệu không gian không chỉ
làm việc với các dữ liệu rõ ràng dạng chữ-số, mà nó còn phải làm việc với các dữ liệu mở
rộng như điểm, đường, vùng, mặt…
• Khai phá dữ liệu không gian tập trung vào khám phá kiến thức cục bộ, nhưng khai phá dữ
liệu truyền thống lại có xu hướng khám phá dữ liệu toàn cục
9
• Khai phá dữ liệu không gian dựa chủ yếu vào khái niệm về lân cận
• Các vị từ trong khai phá dữ liệu không gian (nằm trên, gần, đan xen, nằm trong…) là ẩn
và với số lượng lớn, trong khi đó các vị từ của khai phá dữ liệu truyền thống (bằng, lớn
hơn, nhỏ hơn …) là rõ ràng và giới hạn.
10

3. Phân tích phân cụm
Ở phần trước chúng ta đã tìm hiểu về khai phá dữ liệu không gian. Để khai phá thành công một
cơ sở dữ liệu không gian được thu thập với số lượng vô cùng lớn đòi hỏi phải có các kỹ thuật bổ
trợ cho thao tác và làm sạch dữ liệu để chuẩn bị cho phân tích chúng. Có ba phương pháp được
đưa ra và phát triển để hỗ trợ chuẩn bị dữ liệu bao gồm phân lớp dữ liệu không gian, phân tích xu
hướng không gian và phân cụm dữ liệu không gian.
Các thuật toán phân lớp dữ liệu không gian và phân tích xu hướng không gian được phát triển và
kiểm thử, tuy nhiên nó đòi hỏi tính toán rất lớn đặc biệt là với tập lớn dữ liệu. Phương pháp thú
vị nhất và được phát triển rất tốt để thao tác và làm sạch dữ liệu không gian để chuẩn bị cho phân
tích khai phá dữ liệu không gian được chỉ ra là sử dụng phân tích phân cụm. Phần sau đây sẽ tìm
hiểu chi tiết về phương pháp phân cụm dữ liệu không gian.
3.1 Giới thiệu về phân tích phân cụm
Phân tích cụm hay phân cụm là công việc gán một tập các đối tượng lại thành các nhóm (cụm)
sao cho các đối tượng trong cùng một cụm là giống nhau (theo một tiêu chí nào đó) hơn so với
các đối tượng nằm trong các cụm khác.
Phân cụm là một trong những nhiệm vụ chính của khai phá dữ liệu, và là một kỹ thuật chung cho
phân tích dữ liệu thống kê được sử dụng trong nhiều lĩnh vực, bao gồm học máy (machine
learning), nhận dạng mẫu, phân tích ảnh, phục hồi thông tin, và thông tinh sinh học.
Phân tích cụm bản thân nó không phải là một thuật toán riêng, mà là một nhiệm vụ chung cần
được giải quyết. Nó có thể đạt được bằng rất nhiều các thuật toán khác nhau, khác nhau từ trong
khái niệm về cái gì tạo thành một cụm và làm thế nào để tìm được nó một cách hiệu quả.
Các khái niệm chính về cụm bao gồm một nhóm với các khoảng cách ngắn giữa các thành viên
trong nhóm, là các vùng dày đặc của không gian dữ liệu hoặc các phân bố thống kê nhất định.
Phân cụm vì vậy mà được phát biểu một cách hệ thống là một bài toán tối ưu với nhiều mục tiêu.
Thuật toán phân cụm phù hợp và các bố trí tham số (bao gồm các giá trị như là khoảng cách, mật
độ hay số lượng cụm mong muốn) phụ thuộc vào các tập dữ liệu riêng và mục tiêu sử dụng của
kết quả. Phân tích phân cụm vì vậy mà không phải là một công việc tự động, trong quá trình lặp
của quá trình khai phá kiến thức hoặc quá trình lặp của tối ưu hóa với nhiều mục tiêu mà liên
quan đến các phép thử (trial and error), nó thường cần phải thay đổi các tiền xử lý và các tham số
cho đến khi đạt được kết quả mong đợi.

11
3.2 Các thuật toán phân cụm
Có rất nhiều phương pháp được đưa ra để tiến hành phân cụm, tuy nhiên có thể chia thành ba
loại chính bao gồm phân cụm thứ bậc, phân cụm dựa vào tâm, phân cụm theo phân bố và phân
cụm theo mật độ.
Mặc dù có sự tương đồng giữa phân cụm dữ liệu không gian và phân cụm dữ liệu truyền thống,
tuy nhiên các cơ sở dữ liệu lớn và các cơ sở dữ liệu không gian có các yêu cầu riêng cho các
thuật toán phân cụm:
1. Cần các thuật toán hiệu quả và mở rộng được vì phải làm việc với một lượng lớn dữ liệu.
2. Các thuật toán phải có thể xác định được các hình không theo quy luật, bao gồm các vết
lõm, các kẽ hở và các hình lồng nhau.
Hình 5: Các hình với hình dạng đặc biệt
3. Các phương pháp phân cụm không nhạy cảm với lượng lớn nhiễu.
4. Các thuật toán không nhạy cảm với thứ tự của dữ liệu vào, tức là kết quả phân tích phân
cụm không phụ thuộc vào thứ tự của dữ liệu.
5. Không yêu cầu có kiến thức trước về dữ liệu hoặc yêu cầu số lượng cụm để tạo ra, và vì
vậy không yêu cầu miền kiến thức đầu vào từ người sử dụng.
Các phương pháp phân cụm khác nhau đều có những mặt mạnh và mặt yếu riêng của mình. Phần
dưới đây sẽ trình bày chi tiết về phương pháp phân cụm theo phân bố.
3.3 Phân cụm theo phân bố
Phân cụm theo phân bố là một quá trình lặp đối với dữ liệu đầu vào. Mỗi bảng ghi đầu vào được
đọc liên tiếp. Sự giống nhau của mỗi bản ghi với một trong những cụm đã tồn tại được tính toán.
Đầu tiên, chưa có cụm nào tồn tại. Nếu sự giống nhau lớn nhất đối với mỗi cụm vượt qua
ngưỡng, bản ghi này được thêm vào cụm tương ứng. Các thuộc tính của cụm thay đổi cho phù
hợp. Nếu mức độ giống nhau được tính toán không lớn hơn ngưỡng, hoặc nếu chưa có cụm nào,
một cụm mới sẽ được tạo ra chứa bản ghi này. Ta có thể định trước số lượng tối đa các cụm,
cũng như là ngưỡng giống nhau để so sánh.
12
Phân cụm theo phân bố sử dụng tiêu chuẩn gà chọi để quản lý tính toán của độ giống nhau giữa
các bản ghi, giữa bản ghi với các cụm và giữa các cụm với các cụm. Tiêu chuẩn gà chọi đánh giá

tính đồng nhất của mỗi cụm đã được phát hiện và và tính đồng nhất giữa các cụm đã được phát
hiện. Quá trình lặp để phát hiện các cụm sẽ dừng lại sau khi một hoặc nhiều lần quét qua dữ liệu
đầu vào nếu không có thêm thời gian để quét lần nữa hoặc nếu sự cải thiện của các cụm theo tiêu
chuẩn gà chọi không biện minh cho một lần quét mới.
Thông thường, dữ liệu nhân khẩu học bao gồm số lượng lớn của các biến chủng loại, vì vậy rất
phù hợp với phương pháp phân cụm theo phân bố.
Mô hình phân cụm này liên hệ chặt chẽ với các thống kê dựa trên dựa trên các mô hình phân bố.
Các cụm có thể được định nghĩa thành các đối tượng thuộc về cùng một phân bố một cách dễ
dàng. Một thuộc tính rất đẹp của cách tiếp cận này là nó rất giống với cách các tập dữ liệu nhân
tạo được tạo ra: bằng cách lấy mẫu ngẫu nhiên các đối tượng từ một phân bố.
Trong khi nền móng lý thuyết của phương pháp này là tuyệt vời, chúng lại có một vấn đề chính
được biết đến như là overfitting, nếu không có các ràng buộc được đưa ra cho độ phức tạp mô
hình.
Phương pháp đáng chú ý nhất được biết đến là thuật toán tối ưu hóa mong muốn (expectation-
maximization hay ngắn gọn là EM-clustering). Ở đây, tập dữ liệu thường được mô hình hóa là
một số cố định (để loại trừ overfitting) của các phân phối Gauss, được khởi tạo ngẫu nhiên và
các tham số của nó được tối ưu hóa qua các bước lặp để phù hợp hơn với tập dữ liệu. Điều này sẽ
hội tụ về một tối ưu hóa cục bộ, vì vậy nhiều lần chạy khác nhau sẽ cho các kết quả khác nhau.
13
Hình 6: Phương pháp phân cụm EM-clustering
Phân cụm theo phân bố cung cấp một phương pháp phân cụm nhanh và tự nhiên cho các cơ sở
dữ liệu lớn. Nó tự động quyết định được số lượng cụm cần phải tạo ra. Tuy nhiên, sử dụng thuật
toán này sẽ đẩy thêm gánh nặng cho người sử dụng: phải chọn một mô hình dữ liệu phù hợp để
tối ưu.
14
4. Kết luận
Trong khuôn khổ của bài tập lớn, nhóm đã tìm hiểu về cơ sở dữ liệu không gian, các kỹ thuật
trong khai phá dữ liệu không gian và đã đi sâu vào tìm hiểu các phương pháp phân cụm ứng
dụng trong khai phá dữ liệu không gian.
Có rất nhiều thuật toán khác nhau để phân cụm dữ liệu không gian, tuy nhiên do thời gian có hạn

nên nhóm mới chỉ tìm hiểu được thuật toán phân cụm theo phân bố. Hướng phát triển của nhóm
là tìm hiểu thêm một số thuật toán phân cụm khác để so sánh hiệu quả của các thuật toán với
nhau cho dữ liệu không gian.
15
5. Tài liệu tham khảo
/>[AGGR98] Agrawal, Rakesh, Johannes Gehrke, Dimitrios Gunopulos and Prahhakar Raghavan. (1998). Automatic
Subspace Clustering of High Dimensional Data for Data Mining Applications. Proceedings of the 1998 ACM-
SIGMOD International Conference on Management of Data, Seattle, Washington, June 1998.
[AKKS99] Ankerst, Mihael, Gabi Kastenmüller, Hans-Peter Kriegel and Thomas Seidl. (1999). 3D Shape Histograms
for Similarity Search and Classification in Spatial Databases. 6
th
International Symposium on Spatial Databases (SSD
99). Hong Kong, China. (LNCS vol. 1651, pp. 207-226.)
[BBK00] Bohm, Christian, Bernhard Braunmuller, and Hans-Peter Kriegel. (2000). The Pruning Power: Theory and
Heuristics for Mining Databases with Multiple k-Nearest-Neighbor Queries. Proceedings of the International
Conference on Data Warehousing and Knowledge Discovery (DaWaK 2000), Greenwich, UK.
[CSWO00] Chawla, Sanjay, Shashi Shekhar, Weili Wu and Uygar Ozesmi. (2000). Modeling Spatial Dependencies for
Mining Geospatial Data: An Introduction. In Harvey Miller and Jiawei Han, editors, Geographic data mining and
Knowledge Discovery (GKD), 1999.
16

×