Tải bản đầy đủ (.pdf) (3 trang)

Một số vấn đề về phân cụm dữ liệu và ứng dụng trong ngành BHXH

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (183.64 KB, 3 trang )

Một số vấn đề về phân cụm dữ liệu và ứng
dụng trong ngành BHXH

Phạm Đăng Khoa

Trường Đại học Công nghệ
Luận văn ThS chuyên ngành: Công nghệ thông tin; Mã số: 1 01 10
Người hướng dẫn: TS Đỗ Năng Toàn
Năm bảo vệ: 2007

Abstract: Trình bày tổng quan về phân cụm dữ liệu và một số khái niệm liên quan,
trình bày các giai đoạn của quá trình phát hiện tri thức và đề cập đến các kỹ thuật
hướng tiếp cận chính trong khai phá dữ liệu, những khái niệm liên quan đến phân cụm
dữ liệu; Phân tích chi tiết các vấn đề cơ bản trong phân cụm dữ liệu, tóm tắt các đặc
trưng của các phương pháp phân cụm dữ liệu được sử dụng phổ biến và một số thuật
toán; Áp dụng một thuật toán phân cụm dữ liệu vào khai phá dữ liệu của ngành bảo
hiểm xã hội
Keywords: Cơ sở dữ liệu, Ngành bảo hiểm xã hội, Phân cụm dữ liệu

Content
PHẦN MỞ ĐẦU
Cùng với sự phát triển của xã hội, sự phát triển của lĩnh vực Công nghệ thông tin
trong thời gian qua, nhu cầu về thông tin để đáp ứng các yêu cầu hàng ngày của con người
trên mọi lĩnh vực ngày càng phát triển. Do vậy, khối lượng thông tin lưu trữ lại ngày càng
tăng làm cho kho dữ liệu tri thức chung của con người ngày càng trở nên vô tận. Vấn đề đặt
ra ở đây là làm thế nào để chúng ta có thể khai thác được tối đa nguồn tri thức dồi dào và vô
tận đó.
Khám phá tri thức và khai phá dữ liệu đang nổi lên nhanh chóng và trở thành một
trong những hướng nghiên cứu chính liên quan tới nhiều lĩnh vực khoa học máy tính và công
nghệ tri thức kết hợp với cơ sở dữ liệu, thống kê, học máy và những lĩnh vực có liên quan để
trích chọn những thông tin giá trị và tri thức trong khối lượng dữ liệu lớn. Khám phá tri thức


là cách tiếp cận chung để phân tích và rút ra tri thức hữu ích từ cơ sở dữ liệu sử dụng các kỹ
thuật hoàn toàn tự động. Các kỹ thuật chính được áp dụng trong lĩnh vực này phần lớn được
kế thừa từ lĩnh vực cơ sở dữ liệu, học máy, trí tuệ nhân tạo, lí thuyết thông tin, xác suất thống
kê và tính toán hiệu năng cao.
Phân cụm dữ liệu là quá trình tìm kiếm và phát hiện ra các cụm hoặc các mẫu dữ liệu
tự nhiên trong cơ sở dữ liệu lớn. Trong thời gian gần đây, trong lĩnh vực phân cụm dữ liệu,
tập trung chủ yếu vào nghiên cứu, phân tích các mô hình dữ liệu phức tạp như dữ liệu văn
bản, web, hình ảnh, và đặc biệt là mô hình hỗn hợp để áp dụng chúng trong phân cụm dữ
liệu.
Xuất phát trong hoàn cảnh đó, luận văn lựa chọn đề tài “Một số vấn đề về phân cụm
dữ liệu và ứng dụng trong ngành bảo hiểm xã hội”. Luận văn nhằm nghiên cứu một số vấn đề
về khám phá tri thức trong cơ sở dữ liệu và tập trung vào các kỹ thuật phân cụm dữ liệu. Trên
cơ sở đó đề cập đến một ứng dụng thực tế trên cơ sở khám phá tri thức và khai phá dữ liệu
trên cơ sở dữ liệu của ngành bảo hiểm xã hội.
Luận văn gồm Phần mở đầu, Phần kết luận và 3 chương nội dung, cụ thể như sau:
Chương 1: Trình bày tổng quan về phân cụm dữ liệu và một số khái niệm liên quan,
đồng thời cũng trình bày các giai đoạn của quá trình phát hiện tri thức và đề cập đến các kỹ
thuật hướng tiếp cận chính trong khai phá dữ liệu, những khái niệm liên quan đến phân cụm
dữ liệu.
Chương 2: Phân tích chi tiết các vấn đề cơ bản trong phân cụm dữ liệu, tóm tắt các
đặc trưng của các phương pháp phân cụm dữ liệu được sử dụng phổ biến và một số thuật toán
phân cụm dữ liệu.
Chương 3: Áp dụng một thuật toán phân cụm dữ liệu vào khai phá dữ liệu của ngành
bảo hiểm xã hội.

References
Tài liệu tiếng Việt:
[1] Phan Đình Diệu (1999), Lôgic trong Các Hệ Tri Thức, NXB Đại học Quốc gia Hà Nội,
Hà Nội.
[2] Đinh Mạnh Tường (2003), Trí tuệ nhân tạo, NXB Đại học Quốc gia Hà Nội, Hà Nội.

Tài liệu tiếng Anh:
[3] J.A. Hartigan, Clustering Algorithms. John Wiley & Sons, Inc., 1975.
[4] A.K. Jain, R.C. Dubes, Algorithms for clustering data, Prentice Hall, Englewood Cliffs,
NJ, 1988.
[5] K.A. Kaufman, R.S. Michalski, L. Kerschberg, Mining for knowledge in databases: Goals
and general description of the INLEN system, In Knowledge Discovery in Databases,
AAAI/MIT, Cambridge, MA, 1991.
[6] A. Ketterlin, P. Gancarski, J.J. Korczak, Conceptual Clustering in Structured Databases: a
Practical Approach, In Proc. of the 1
st
Int’l Conf. On Knowledge Discovery and Data
Mining, Quebec, Montreal, 1995.
[7] M. Manago, Y. Kodratoff, Induction of Decision Trees from Complex Structured Data, In
Knowledge Discovery in Databases, AAAI/The MIT press, pp. 289-306, 1991.
[8] P. Cheeseman, J. Stutz, Bayesian Classification (AutoClass): theory and results, Advances
in Knowledge Discovery and Data Mining, U.M. Fayyad, G. Piatetsky-Shapiro, P.
Smyth, R. Uthurusamy (Ed.), AAAI/MIT Press, Cambridge, MA, pp. 153-180, 1996.
[9] P. Domingos, Linear-time rule induction, In Proc. of the 2
nd
Int'l Conf. on Knowledge
Discovery and Data Mining, Portland, Oregon, 1996.
[10] M. Ester, H-P. Kriegel, J. Sander, X. Xu, A Density-Based Algorithm for Discovering
Clusters in Large Spatial Databases with Noise, In proceedings of the Second
Knowledge Discovery and Data Mining conference, Portland, Oregon, 1996.
[11] T. Zhang, R. Ramakrishnan, and M. Livny. “BIRCH: A new data clustering Algorithm
and its applications.” Data Mining and Knowledge Discovery. 1997.




×