Tải bản đầy đủ (.pdf) (5 trang)

Phương pháp phân cụm dữ liệu không gian và ứng dụng trong việc xác định vị trí tối ưu đặt máy ATM

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (202.77 KB, 5 trang )

Phương pháp phân cụm dữ liệu không gian và
ứng dụng trong việc xác định vị trí tối ưu đặt
máy ATM

Nguyễn Sơn

Trường Đại học Công nghệ
Luận văn Thạc sĩ ngành: Hệ thống Thông tin; Mã số: 60 48 05
Người hướng dẫn: PGS.TS Đặng Văn Đức
Năm bảo vệ: 2011

Abstract: Tổng quan về Hệ thông tin Địa lý (GIS) và khai phá dữ liệu không gian.
Khái quát về phân cụm dữ liệu và một số phương pháp phân cụm dữ liệu không gian.
Xây dựng chương trình thử nghiệm ứng dụng phân cụm dữ liệu không gian hỗ trợ tìm
vị trí tối ưu đặt máy ATM trong khu vực nội thành Hà Nội, đánh giá các kết quả đạt
được cũng như những hạn chế còn tồn tại.

Keywords: Khai thác dữ liệu; Công nghệ thông tin; ATM; Dữ liệu

Content
CHƯƠNG 1. MỞ ĐẦU
Khai phá dữ liệu không gian hay còn gọi là khai phá tri thức từ dữ liệu không gian là
một lĩnh vực có nhu cầu rất cao. Bởi lẽ dữ liệu đầu vào ở đây bao gồm một khối lượng dữ liệu
không gian khổng lồ đã được thu thập từ nhiều ứng dụng khác nhau, từ thiết bị viễn thám đến
hệ thống thông tin địa lý, từ bản đồ số, từ các hệ thống quản lý và đánh giá môi trường,
…Việc phân tích và khai thác lượng thông tin khổng lồ này ngày càng tạo ra các thách thức
và khó khăn, đòi hỏi phải có các nghiên cứu sâu hơn để tìm ra các kỹ thuật khai phá dữ liệu
hiệu quả hơn.
Trong những năm gần đây, việc nghiên cứu về khai phá dữ liệu đã có xu hướng chuyển
từ cơ sở dữ liệu quan hệ và cơ sở dữ liệu giao dịch sang cơ sở dữ liệu không gian. Sự thay đổi
này không những giúp hiểu được dữ liệu không gian mà còn giúp khám phá được mối quan


hệ giữa dữ liệu không gian và phi không gian, các mô hình dựa trên tri thức không gian,
phương pháp tối ưu câu truy vấn, tổ chức dữ liệu trong cơ sở dữ liệu không gian, Khai phá
dữ liệu không gian được sử dụng nhiều trong các hệ thống thông tin địa lý (GIS), viễn thám,
khai phá dữ liệu ảnh, ảnh y học, rô bốt dẫn đường, … Khám phá tri thức từ dữ liệu không gian
có thể được thực hiện dưới nhiều hình thức khác nhau như sử dụng các quy tắc đặc trưng và
quyết định, trích rút và mô tả các cấu trúc hoặc cụm nổi bật, kết hợp không gian, …
Các bài toán truyền thống của một hệ thông tin địa lý có thể trả lời các câu hỏi kiểu như:
- Những con phố nào dẫn đến Nhà hát lớn Hà Nội ?

2
- Những căn nhà nào nằm trong vùng quy hoạch mở rộng phố?
Khai phá dữ liệu không gian có thể giúp trả lời cho các câu hỏi dạng:
- Xu hướng của các dòng chảy, các đứt gãy địa tầng ?
- Nên bố trí các trạm tiếp sóng điện thoại di động như thế nào?
- Những vị trí nào là tối ưu để đặt các máy ATM ?
Một trong những bài toán liên quan đến dữ liệu không gian, cụ thể là dữ liệu địa lý có ý
nghĩa thực tế cao là bài toán xác định vị trí tối ưu cho việc đặt các máy ATM của các ngân
hàng. Hiện nay, cùng với chủ trương xây dựng Chính phủ điện tử và thúc đẩy giao dịch điện
tử ở Việt Nam, việc thanh toán đang chuyển dần từ sử dụng tiền mặt sang thanh toán qua tài
khoản, đồng thời với nhu cầu sử dụng thẻ tín dụng ngày càng tăng, các ngân hàng trong nước
sử dụng tối đa mọi lợi thế để cạnh tranh, thu hút khách hàng. Một trong các cách để cạnh
tranh hiệu quả là thông qua việc thiết lập các trạm ATM để khách hàng có thể tự thực hiện các
giao dịch của mình một cách thuận tiện.
Tính đến cuối năm 2010, số lượng trạm ATM đã đạt gần 8000 máy, số thẻ ATM được
phát hành là hơn 12 triệu thẻ bởi hơn 40 tổ chức ngân hàng. Tuy nhiên, việc phát triển hệ
thống các trạm ATM chưa được quy hoạch theo chiến lược bài bản, vị trí đặt các trạm ATM
vẫn còn nhiều bất cập như tình trạng thừa hoặc thiếu ATM ở một số khu vực, do đó chưa khai
thác được hết tiềm năng của hình thức giao dịch này.
Xuất phát từ nhu cầu thực tế đó, luận văn giới thiệu một số phương pháp phân cụm dữ
liệu trong khai phá cơ sở dữ liệu không gian được sử dụng hiện nay. Trên cơ sở đó cài đặt thử

nghiệm một ứng dụng sử dụng kỹ thuật phân cụm dữ liệu địa lý, trong đó khai thác thông tin
địa lý của các đối tượng địa lý có tầm ảnh hưởng quan trọng đến vị trí đặt các máy ATM như:
các siêu thị, trung tâm thương mại, khách sạn, nhà hàng, khu đông dân cư, đường giao
thông… để hỗ trợ giải quyết bài toán tìm vị trí tối ưu đặt các máy ATM trong thành phố Hà
Nội.
Luận văn được chia thành các chương mục sau:
- Chương 1: Mở đầu, giới thiệu bài toán
- Chương 2: Tổng quan về Hệ thông tin Địa lý (GIS) và khai phá dữ liệu không gian.
- Chương 3: Một số phương pháp phân cụm dữ liệu không gian
- Chương 4: Xây dựng chương trình thử nghiệm ứng dụng phân cụm dữ liệu không gian
hỗ trợ tìm vị trí tối ưu đặt máy ATM trong khu vực nội thành Hà Nội.
- Chương 5: Kết luận, đánh giá

References
Tiếng Việt


[DVD01]
Đặng Văn Đức (2001), Hệ thống thông tin địa lý, NXB Khoa học và kỹ thuật,
Hà Nội.




3
Tiếng Anh


[BEKS90]
Beckmann N., Kriegel P., Schneider R., Seeger B. (1990), “The R*-tree: An

efficient and Robust Access Method for Points and Rectangles”, SIGMOD
90.

[DAVRA05]
Davidson, I., & Ravi, S. (2005). “Clustering with constraints: Feasibility
issues and the k-means algorithm”. Proc. of SIAM Int. Conf. of Data Mining.

[DAVRA04]
Davidson, I., & Ravi, S. (2004). “Towards efficient and improved
hierarchical clustering with instance and cluster level constraints”.
Department of Computer Science, University at Albany.

[DOBKI85]
Dobkin, D. P., & Kirkpatrick, D. G. (1985). “A Linear algorithm for
determining the separation of convex polyhedra”, Journal Algorithm, 6, ,
381-392.

[EGFRA94]
Egenhofer, M. J., & Franzosa, R. (1994). “On the equivalence of topological
relations”, International Journal of Geographical Information Systems , 133-
152.

[EGMA95]
Egenhofer, M. J., & Mark, D. M. (1995). “Modeling conceptual
neighborhoods of topological line-region relations”, International Journal of
Geographical Information Systems , 555-565.

[EGCFE94]
Egenhofer, M. J., Clementini, E., & Felice, P. D. (1994), “Topological
relations between regions with holes”, International Journal of Geographical

Information Systems , 129-144.

[ESFKS00]
Ester, M., Frommelt, A., Kriegel, H P., & Sander, J. (2000), “Spatial data
mining: database primitives, algorithms and efficient DBMS support”, Data
Mining and Knowledge Discovery , 193-216.

[ESKSX96]
Ester, M., Kriegel, H P., Sander, J., & Xu, X. (1996), “A density-based
algorithm for discovering clusters in large spatial databases with noise”,
Second Int. Conf. on Knowledge Discovery and Data Mining , (pp. 226-231).
Portland, Oregon.

[ESKS01]
Ester, Hans-Peter Kriegel, Jörg Sander (2001), “Algorithms and Applications
for Spatial Data Mining”, Published in Geographic Data Mining and
Knowledge Discovery, Research Monographs in GIS, Taylor and Francis.

[FSSU96]
M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, and Ramasamy
Uthurusamy (1996), Advances in Knowledge Discovery and Data Mining.
AAAI Press/ The MIT Press.

[HAKT01]
Han, J., Kamber, M., & Tung, A. (2001), “Spatial clustering methods in data
mining: A Survey”. In Geographic Data Mining and Knowledge Discovery
(pp. 1 - 29). Taylor and Francis.


4

[HAKT06]
Han, J., & Kamber (2006). Data Mining: Concepts and Techniques. San
Fransisco, CA: Morgan Kaufmann Publishers.

[HAN95]
Hanan S (1995), “Spatial Data Structures”, ACM Press, pp. 361-385

[HK06]
Jiawei Han and Micheline Kamber (2006), Data Mining: Concepts and
Techniques. University of Illinois, Morgan Kaufmann Publishers.

[JOSAS09]
Joshi, D., Samal, A., & Soh, L K. (2009), “A Dissimilarity Function for
Clustering Geospatial Polygons”, 17th International Conference on Advances
in Geographic Information Systems (ACM SIGSPATIAL GIS 2009), (pp.
384-387). Seattle, WA.

[JOSAS10]
Joshi, D., Samal, A., & Soh, L K. (2010), “A Dissimilarity Function for
Polygons”, Journal of Geographic Systems in Decemeber.

[JOS11]
Deepti Joshi (2011), Polygonal Spatial Clustering, Dissertation for the
Degree of Doctor of Philosophy, The Graduate College at the University of
Nebraska, USA.

[KAHAK99]
Karypis G., Han E H, Kumar V., CHAMELEON (1999): “A Hierarchical
Clustering Algorithm Using Dynamic Modeling”, Computer 32.


[OCT97]
Octavian P.(1997), Data Structures for Spatial Database Systems.

[ODC03]
Oracle (2003), Oracle Data Mining Concepts 10g Release 1 (10.1), Oracle
Corporation.

[RAJI02]
Raymond T. Ng, Jiawei Han, CLARANS (2002): “A Method for Clustering
Objects for Spatial Data Mining”, IEEE, 9-10.

[ROTE91]
Rote, G. (1991) “Computing the minimum Hausdorff distance between two
point sets on a line under translation”. Information Processing Letters , 123-
127.

[SOGHA08]
Song Y-C., O’Grady M. J., O’Hare G. M. P. (2008), “Research and
Application of Clustering Algorithm for Arbitrary Data Set”, IEEE.

[TAPA04]
Tao Y., Papadias D. (2004), “Performance Analysis of R*-trees with
Arbitrary Node Extents”, IEEE.

[TOB79]
Tobler, W. (1979). “Cellular Geography, Philosophy in Geography”.
Dordrecht, Reidel: Gale and Olsson, Eds.

[THISU08]
Thirumurugan S., Suresh L. (2008), Statistical Spatial Clustering using

Spatial Data mining, IET Conference, pp. 26-29.

[WAYM97]
Wang W., Yang J., Muntz R., STING (1997): “A Statistical Information Grid
Approach to Spatial Data Mining”.


5
[WAHA03]
Wang, X., & Hamilton, H. J. (2003), “DBRS- A Density-Based Spatial
Clustering Method with Random Sampling”, 7th PAKDD, (pp. 563-575).
Seoul, Korea.


Web sites


[SLI.AU]



×