Tải bản đầy đủ (.pdf) (5 trang)

Tóm tắt dữ liệu quan hệ sử dụng phương pháp phân cụm bán giám sát dựa trên giải thuật di truyền

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (548.28 KB, 5 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

ĐỖ THỊ HOÀ

TÓM TẮT DỮ LIỆU QUAN HỆ SỬ DỤNG PHƯƠNG
PHÁP PHÂN CỤM BÁN GIÁM SÁT DỰA TRÊN
GIẢI THUẬT DI TRUYỀN

LUẬN VĂN THẠC SĨ

Hà Nội – 2011


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

ĐỖ THỊ HOÀ

TÓM TẮT DỮ LIỆU QUAN HỆ SỬ DỤNG PHƯƠNG
PHÁP PHÂN CỤM BÁN GIÁM SÁT DỰA TRÊN
GIẢI THUẬT DI TRUYỀN

Ngành: Công nghệ phần mềm
Mã số: 60 48 10

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS. HOÀNG XUÂN HUẤN


Hà Nội – 2011


5

MỤC LỤC
LỜI CẢM ƠN ................................................................................................................3
LỜI CAM ĐOAN ..........................................................................................................4
MỤC LỤC ...................................................................................................................... 5
DANH MỤC BẢNG BIỂU ........................................................................................... 8
MỞ ĐẦU ......................................................................................................................... 9
CHƯƠNG 1:
TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU..................................11
Giới thiệu ................................................................................................................. 11
Biểu diễn dữ liệu ...................................................................................................... 12
Độ tương đồng ......................................................................................................... 13
Các phương pháp phân cụm dữ liệu không giám sát ............................................... 15
1.4.1. Các phương pháp phân hoạch ........................................................................ 16
1.4.2. Các phương pháp phân cấp ............................................................................ 19
1.4.3. Phương pháp phân cụm dựa trên mật độ ....................................................... 24
1.4.4. Các phương pháp phân cụm dựa trên lưới..................................................... 27
1.5. Các phương pháp cụm dữ liệu bán giám sát ............................................................ 29
1.5.1. Giới thiệu ........................................................................................................ 29
1.5.2. Thuật toán phân cụm bán giám sát K-means ................................................. 30
1.1.
1.2.
1.3.
1.4.

CHƯƠNG 2:


GIẢI THUẬT DI TRUYỀN .......................................................... 34

2.1. Giới thiệu ................................................................................................................. 34
2.2. Giải thuật di truyền cổ điển ...................................................................................... 34
2.2.1. Phương pháp mã hoá và giải mã.................................................................... 36
2.2.2. Thủ tục chọn lọc ............................................................................................. 36
2.2.3. Quá trình tái tạo. ............................................................................................ 37
2.2.4. Sự hội tụ của GA ............................................................................................. 38
2.2.5. Ví dụ................................................................................................................ 38
2.3. Biểu diễn bằng véc tơ số thực .................................................................................. 40
2.3.1. Các toán tử tương giao chéo .......................................................................... 41
2.3.2. Các toán tử biến dị ......................................................................................... 41
2.3.3. Ứng dụng của GA trong các thuật toán phân cụm ......................................... 41

CHƯƠNG 3:
TÓM TẮT DỮ LIỆU QUAN HỆ SỬ DỤNG PHƯƠNG PHÁP
PHÂN CỤM BÁN GIÁM SÁT DỰA TRÊN GIẢI THUẬT DI TRUYỀN ............43
3.1. Giới thiệu ................................................................................................................. 43
3.2. Chuyển đổi dữ liệu ................................................................................................... 44
3.2.1. Giới thiệu ........................................................................................................ 44
3.2.2. Cơ sở dữ liệu quan hệ ..................................................................................... 45
3.2.3. Quá trình mã hóa các mẫu tin thành số nhị phân .......................................... 46
3.3. Dữ liệu đại diện trong một mô hình không gian Vector .......................................... 50
3.4. Tổng kết dữ liệu bằng cách phân cụm ..................................................................... 51
3.5. Kỹ thuật phân cụm bán giám sát .............................................................................. 52
3.6. Kỹ thuật phân cụm bán giám sát dựa trên giải thuật di truyền ................................ 54


6

3.6.1. Giảm dữ liệu và gieo hạt ................................................................................ 54
3.6.2. Thuật toán phân cụm dựa trên giải thuật di truyền ........................................ 55

CHƯƠNG 4:

KẾT QUẢ THỬ NGHIỆM THUẬT TOÁN ............................... 58

4.1. Giới thiệu ................................................................................................................. 58
4.2. Chương trình và dữ liệu thử nghiệm ........................................................................ 58
4.2.1. Module 1 ......................................................................................................... 58
4.2.2. Module 2 ......................................................................................................... 60
4.3. Kết quả thử nghiệm .................................................................................................. 70

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .................................................................72
TÀI LIỆU THAM KHẢO........................................................................................... 73


TÓM TẮT DỮ LIỆU QUAN HỆ SỬ DỤNG PHƯƠNG PHÁP PHÂN
CỤM BÁN GIÁM SÁT DỰA TRÊN GIẢI THUẬT DI TRUYỀN
Học viên: Đỗ Thị Hòa
Đơn vị công tác: Trường Đại học Công nghiệp TP.HCM
– Cơ sở đào tạo Thái Bình
Email:

GVHD: Hoàng Xuân Huấn
Đơn vị công tác: Khoa CNTT – Trường Đại học Công
nghệ - Đại học QGHN
Email:

Từ khóa: Khai phá dữ liệu, thuật toán phân cụm dữ liệu, giải thuật di truyền, cơ sở dữ liệu quan hệ, Kmeans, tóm tắt dữ

liệu quan hệ.

1. GIỚI THIỆU BÀI TOÁN
Trong việc giải quyết bài toán phân cụm trong khai
phá dữ liệu quan hệ, các phương pháp truyền thống thường
yêu cầu liên kết dữ liệu được lưu trong nhiều bảng thành một
bảng duy nhất. Khi đó, bảng dữ liệu thu được sẽ có kích thước
vô cùng lớn. Để truy vấn, phải sử dụng các phép toán đại số
quan hệ và tối ưu các phép toán này bằng phương pháp tối ưu
truy vấn heuristic tức là tìm cách thực hiện các phép chiếu,
phép chọn trước các phép toán 2 ngôi. Trong một số trường
hợp khi nối nhiều bảng sẽ gây mất thông tin hoặc trùng lặp dữ
liệu. Do đó, chuyển đổi dữ liệu trở thành phức tạp và tóm tắt
dữ liệu thường kém hiệu quả. Mặt khác, việc áp dụng các
phương pháp tóm tắt dữ liệu trong khai phá dữ liệu được lưu
trên nhiều bảng có quan hệ một-nhiều thường bị hạn chế do sự
phức tạp của lược đồ cơ sở dữ liệu.
Để có thể khắc phục được các vấn đề nêu trên, luận
văn nghiên cứu phương pháp tiếp cận: Sử dụng kỹ thuật phần
cụm bán giám sát dựa trên giải thuật di truyền để tóm tắt dữ
liệu được lưu trong nhiều bảng. Nghiên cứu này dựa trên ý
tưởng nghiên cứu của Rayner Alfred. Kết quả của thuật toán
được áp dụng phân cụm cho dữ liệu thử nghiệm năng suất lúa.

2. NỘI DUNG LUẬN VĂN
Để giải quyết vấn đề trên, trong luận văn tôi đã trình
bày cụ thể về các thuật toán phân cụm dữ liệu, đánh giá ưu,
nhược điểm của từng phương pháp, từ đó chọn ta hướng tiếp
cận sử dụng phương pháp phân cụm bán giám sát dựa trên giải
thuật di truyền để tóm tắt dữ liệu.

Đồng thời, trong luận văn tôi cũng đã trình bày một
cách có hệ thống các kiến thức về phân cụm dữ liệu bán giám
sát với dữ liệu đầu vào là các bảng có quan hệ một – nhiều, cụ
thể:
- Cách liên kết các mẫu tin lưu trong nhiều bảng có
quan hệ một – nhiều.
- Cách tạo các vectơ mẫu từ ma trận tần suất là dữ liệu
đầu vào của thuật toán phân cụm bán giám sát.
Bên cạnh đó, luận văn tập chung đi sâu nghiên cứu
cách ứng dụng của giải thuật di truyền vào bài toán phân cụm
bán giám sát. Bao gồm:
- Cách giảm dữ liệu và gieo hạt.
- Cách khởi tạo quần thể các cá thể.

Đặc biệt, trong luận văn tôi đã xây dựng thành công
chương trình tóm tắt dữ liệu quan hệ từ cơ sở dữ liệu quan hệ
chứa nhiều bảng có quan hệ một – nhiều. Nghiên cứu được áp
dụng để tóm tắt dữ liệu quan hệ trên các tập dữ liệu về thử
nghiệm năng suất lúa Trong quá trình xây dựng ứng dụng, tôi
tập trung xây dựng hai module quan trọng đó là:
- Module 1: Tạo vectơ, module này có nhiệm vụ
chuyển đổi tệp dữ liệu chứa ma trận thành dữ liệu
chứa các vectơ tương ứng với các bản ghi đích.
- Module 2: Phân cụm, module này phân cụm các
vectơ đầu vào thành K cụm dựa trên các đặc trưng
của các vectơ. Kết quả thu được cách phân cụm tốt
nhất bằng cách chọn hàm mục tiêu tốt nhất.

3. KẾT LUẬN
Với việc sử dụng thuật toán phân cụm bán giám sát

dựa trên giải thuật di truyền, luận văn đã giới thiệu bài toán
tóm tắt dữ liệu quan hệ từ các bảng có quan hệ một-nhiều.
Nghiên cứu này chỉ ra quá trình chuyển đổi dữ liệu bằng cách
chuyển các đại diện dữ liệu lưu trữ trong cơ sở dữ liệu quan hệ
sang định dạng không gian vectơ thích hợp trong phân cụm.
Luận văn cũng giới thiệu một phương pháp học bán
giám sát để có được các cụm tối ưu. Các kết quả thu được
trong nghiên cứu này cho rằng phân cụm tự động bằng cách
tối ưu sự kết hợp của cụm phân tán và cụm tạp chất sẽ thu
được kết quả tốt so với phân cụm truyền thống. Tuy nhiên, kết
quả tốt nhất có thể đạt được bằng cách tối ưu hoá các giá trị
kết hợp của cả hai cụm phân tán và cụm tạp chất, bằng cách
đặt trọng số bằng nhau vào 2 cụm này
Hướng pháp triển trong tương lai: Trong thời gian
tới, tôi sẽ khảo sát mịn hơn cặp giá trị vô hướng (β, α) trong
hàm mục tiêu (OFF) từ đó tìm cách cực đại hóa hàm mục tiêu.
Việc áp dụng thuật giải di truyền vào quá trình phân cụm tỏ ra
rất hiệu quả, điều này nảy sinh ý tưởng sử dụng giải thuật di
truyền ngay từ giai đoạn tạo dữ liệu đầu vào cho thuật toán
phân cụm.
Một vấn đề tiếp theo là xây dựng tập dữ liệu, đặc biệt
là cơ sở dữ liệu về quản lý sinh viên trong trường đại học và
quản lý khách hàng trong ngân hàng. Việc cải tiến chất lượng
phân cụm cho một tập dữ liệu bất kỳ trong không gian nhiều
chiều cũng là vấn đề mà tôi sẽ quan tâm tới.



×