-16-
Tìm hiểu phương pháp phân tích các thành phần độc lập và ứng dụng
trong khai phá dữ liệu.
Họ và Tên: Nguyễn Khắc Chung
Lớp: K48CC
Mã số sinh viên: 0320034
Giáo viên hướng dẫn:
PGS.TS Nguyễn Ngọc Bình
Cấu trúc bài luận văn gồm 5 chương:
Chương I: Nêu một số vấn đề liên quan
đến khai phá dữ liệu:
-Định nghĩa khai phá dữ liệu: Khai phá dữ
liệu được định nghĩa như là việc đưa ra
những cái mới, những thông tin lý thú từ
các tập dữ liệu lớn. Data mining là lĩnh vực
xuất hiện khá lâu và đã thu hút được nhiều
sự quan tâm, nghiên cứu của các nhà khoa
học.
-Phạm vi ứng dụng của khai phá dữ liệu:
Nêu phạm vi ứng dụng của khai phá
dữ liệu trong các lĩnh vực:
+Phân chia thị trường.
+Dự báo khách hàng.
+Phát hiện gian lận.
....
Phần tiếp theo của chương I là xác định bài
toán và cấu trúc của khóa luận:
Xác định bài toán:
Đề tài mà tôi nghiên cứu và thực
hiện: Tìm hiểu phương pháp phân tích các
thành phần độc lập và ứng dụng trong khai
phá dữ liệu xuất phát từ mong muốn tìm
hiểu những lý thuyết cơ bản về phương
pháp phân tích các thành phần độc lập
Chương II: Tìm hiểu về ICA
2.1 Giới thiệu một số phương pháp:
2.1.1 Sự miêu tả tuyến tính của dữ liệu
đa biến (multivariate data):
2.1.1.1 Tổng quan về tập hợp thống kê
(The general statistical setting):
Phần này chúng ta sẽ nghiên cứu về
phần thống kê tập hợp. Chúng ta giả sử
rằng dữ liệu bao gồm một số các biến mà
chúng được quan sát cùng nhau. Chúng ta
có thể biểu diễn dữ liệu bởi x
i
(t) với i
=1,….,m và t =1,…T. Kích cỡ của m và T
có thể là rất lớn.
Một công thức được đưa ra:
y
i
(t) =
∑
j
w
ij
x
j
(t) với i=1,…,n
j=1,..,m (2.1)
w
ij
là các hệ số mà định nghĩa sự
trình bày.
2.1.1.2. Phương pháp biến đổi chiều:
Một phương pháp thống kê cơ bản
cho việc chọn ma trận W là giới hạn số các
thành phần y
i
là khá nhỏ, có thể chỉ là 1
hoặc 2, và xác định W đến khi y
i
bao gồm
nhiều thông tin trong dữ liệu.
Sự hướng dẫn này đến một kĩ thuật
gọi là phân tích các thành phần chủ yếu
hoặc phân tích tác nhân.
2.1.1.3 Độc lập như là một hướng dẫn
chủ yếu:
Phần này chúng ta sẽ phân tích như
thế nào là độc lập.
2.1.2 Sự chia cắt tài nguyên mù quáng
(không thấy được):
-17-
Phần này chúng ta sẽ quan sát các
hỗn hợp tài nguyên không xác định trước
ví dụ như các tín hiệu trong tự nhiên, âm
thanh thu được từ loa, các tín hiệu điện…
Từ đó chúng ta giới thiệu cơ sở của
việc phân tách tài nguyên độc lập.
2.2 Phân tích các thành phần độc lập:
Phần này chúng ta định nghĩa
phương pháp ICA:
Cho một tập quan sát của các biến
ngẫu nhiên (x
1
(t), x
2
(t),….,x
n
(t)), với t là
thời gian hoặc là các chỉ số mẫu. Giả sử
rằng chúng được tạo như một hỗn hợp
tuyến tính của các thành phần độc lập.
A là ma trận chưa biết.
2.2.2 Các ứng dụng của ICA:
Đưa ra các ứng dụng của ICA :
-Phân tách các nhân tố trong MEG
-Tìm kiếm các nhân tố ẩn trong dữ
liệu tài chính.
- Giảm nhiễu trong các hình ảnh tự
nhiên.
-Viễn thông.
2.3. Độc lập là gì ?
Đưa ra định nghĩa độc lập và các
thuộc tính cơ bản của nó.
Đưa ra định nghĩa tương quan giữa các
biến, các biến Gaussian.
2.4 Sự ước lượng cơ bản của ICA:
Đưa ra các ước lượng cơ bản của
ICA:
-Nongaussian.
-Sự tối thiểu thông tin của nhau.
-Sự ước lượng cho phép có xác
suất tối đa.
2.5 Tiền xử lý cho ICA:
Trong phần này, chúng ta sẽ đưa ra
một số kĩ thuật tiền xử lý để giải quyết vấn
đề ICA ở điều kiện tốt hơn và đơn giản
hơn.
-Centerning
-Whitening
2.6 Thuật toán FastICA:
FastICA có các thuật toán:
- FastICA cho một đơn vị.
- FastICA cho một vài đơn vị
- FastICA và phương pháp chọn
giá trị cho phép có xác suất tối
đa.
Chương III: Ứng dụng của ICA trong
khai phá dữ liệu.
Chương này ta đưa ra ứng dụng của
ICA trong một số lĩnh vực của ICA trong
khai phá dữ liệu:
- Trong khai phá văn bản.
- Tìm cấu trúc trong dữ liệu nhị
phân.
- …
Chương IV: Thực nghiệm
Phần này sẽ đưa ra bài toán trong
khai phá dữ liệu và giải quyết bằng ICA.
Đưa ra ứng dụng lập trình. Đưa ra các
phương pháp triển khai.
Chương V: Tổng kết
Chương này tổng kết những kết quả
đạt được và chưa đạt được trong quá trình
nghiên cứu và thực hiện trong khóa luận.
Từ đó nêu lên các kết quả cần hướng tới và
h
ướng nghiên cứu, phát triển tiếp theo.