NGHIÊN CỨU VÀ CẢI TIẾN KỸ THUẬT KHAI PHÁ DỮ LIỆU LỚN DỰA TRÊN HƯỚNG TIẾP CẬN TRÍCH CHỌN THUỘC TÍNH ĐẶC TRƯNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (268.75 KB, 25 trang )

ĐỀ CƯƠNG NGHIÊN CỨU SINH
NGHIÊN CỨU VÀ CẢI TIẾN KỸ THUẬT KHAI PHÁ
DỮ LIỆU LỚN DỰA TRÊN HƯỚNG TIẾP CẬN TRÍCH
CHỌN THUỘC TÍNH ĐẶC TRƯNG
Ngành : Công nghệ thông tin
Chuyên ngành : Hệ thống thông tin
Người thực hiện : ThS. Hà Văn Sang
Người hướng dẫn : TS. Nguyễn Hà Nam
ĐẠI HỌC QUỐC GIA HÀ NỘI
ĐẠI HỌC CÔNG NGHỆ

1. Đặt vấn đề
2. Nội dung đề cương
3. Dự kiến kế hoạch triển khai
4. Tài liệu tham khảo

•
Khai phá dữ liệu (data mining) là quá trình khám phá
các tri thức mới và các tri thức có ích ở dạng tiềm năng
trong nguồn dữ liệu đã có.
•
Tuy nhiên, một kho (tập) dữ liệu lớn có thể chứa lượng
dữ liệu lên đến terabytes
•
Sư gia tăng của các tập dữ liệu lớn trong nhiều lĩnh vực
đặt ra thách thức cho Data mining
•
Không chỉ tập dữ liệu lớn mà còn các kiểu dữ liệu mới:
–
Data stream trên Web
–

Mạng xã hội
–
Hệ thống sinh học

•
Năm 1997 một số lĩnh vực sử dụng hơn 40 thuộc tính đặc
trưng
•
Năm 2003 hầu hết các bài báo cho thấy các lĩnh vực đã sử
dụng 10
2
tới 10
4
biến (variable)
•
Các kĩ thuật học máy và khai phá dữ liệu có thể không
hiệu quả với dữ liệu có số chiều lớn
•
Giảm chiều dữ liệu:
–
là việc làm giảm chiều của không gian tìm kiếm dữ liệu
–
giảm chi phí thu thập và lưu trữ dữ liệu
–
nâng cao hiệu quả của việc khai phá dữ liệu
–
làm đơn giản hóa các kết quả khai phá dữ liệu
 !
"#$%
Để giảm chiều:

Lựa chọn đặc trưng (Feature Selection)
Trích chọn đặc trưng (Feature Extraction)
!!&' ()
•
Trong nước:
–
Nghiên cứu chưa nhiều
–
Mới chỉ có một số bài báo và luận văn thạc sĩ nghiên cứu
về trích chọn thuộc tính đặc trưng
•
Trên thế giới:
–
Bắt đầu nghiên cứ từ cuối những năm 1997
–
Đến năm 2003 có các bài báo liên quan trong lĩnh vực
học máy. Special issue on “Variable Selection”: Journal
of Machine Learning Research, Vol. 3 Issue 7/8 (10/2003)
–
Những năm gần đây đã có nhiều tổ chức, hội thảo nghiên
cứu về lĩnh vực này.
* 
•
Số lượng thuộc tính lớn theo cấp số nhân làm cho:
–
Việc tính toán cũng như lưu trữ gặp khó khăn
–
Việc nghiên cứu trong nước về lĩnh vực giảm chiều và trích chọn
đặc trưng chưa nhiều
•

Trong luận văn thạc sỹ với đề tài: “Nghiên cứu và ứng dụng
một số mô hình học máy trong việc hỗ trợ đánh giá rủi ro tài
chính” của mình, số liệu chứng khoán tăng lên hàng ngày làm
cho hiệu suất học giảm, độ chính xác dự báo chưa cao
•
Từ những lí do như đã trình bày, tôi xin chọn đề tài:
NGHIÊN CỨU VÀ CẢI TIẾN KỸ THUẬT KHAI PHÁ DỮ LIỆU
LỚN DỰA TRÊN HƯỚNG TIẾP CẬN TRÍCH CHỌN THUỘC
TÍNH ĐẶC TRƯNG
+#$
2.1 Mục tiêu nghiên cứu
2.2 Nội dung nghiên cứu
2.3 Phương pháp nghiên cứu
2.4 Ý nghĩa khoa học
2.5 Dự kiến kết quả nghiên cứu
2.6 Định hướng nghiên cứu
2.7 Những bước tiếp cận và đã làm được
+,-.&&'
•
Tìm hiểu một vài kỹ thuật học máy như mạng nơ ron, SVM,
RandomForest, CART
•
Tìm cách áp dụng kỹ thuật trích chọn đặc trưng để giảm số thuộc tính
trong quá trình học
•
Tăng hiệu năng của các phương pháp học máy sử dụng phương pháp trích
chọn thuộc tính trong khai phá tri thức từ phân tích khối lượng dữ liệu
khổng lồ
++&'
1) Nghiên cứu khái niệm cơ bản về trích chọn thông tin:

•
Giới thiệu sơ lược về lý thuyết sử dụng cho trích chọn như
information gain, heuristic search, ranking methods…
2) Nghiên cứu các thuật toán thuật toán trích chọn:
•
Tìm hiểu các phương pháp trích chọn đang được áp dụng
hiện nay như filter, wrapper, embedded methods. Đánh
giá điểm mạnh, yếu của từng phương pháp.
3) Nghiên cứu xây dựng thuật toán và áp dụng trong quá
trình học máy:
•
Từ việc đánh giá điểm mạnh của các phương pháp trích
chọn đang áp dụng, ta nghiên cứu xây dựng thuật toán
bằng cách cải tiến và kết hợp các phương pháp đã có để
tăng hiệu năng của các phương pháp học máy.
Tiến trình trích chọn đặc trưng
Phân loại
+/"#$%&'
•
Đề tài sẽ kết hợp phương pháp nghiên cứu lý
thuyết với kết quả thực nghiệm
•
Nghiên cứu tổng hợp các kết quả đã công bố
trước đây để tìm ra các ưu nhược điểm
•
Từ đó đề xuất và áp dụng phương pháp mới, kiểm
chứng bằng thực nghiệm và đánh giá so sánh.
•
Áp dụng giải pháp đề xuất vào ứng dụng thực tế
và đánh giá hiệu quả của cách tiếp cận đề nghị

cho ứng dụng cụ thể
+0123)
•
Việc chọn lựa đặc trưng để giảm chìêu dữ liệu có ý nghĩa hết
sức quan trọng khi xử lý số liệu lớn
•
Thuật toán trích chọn nhanh và hiệu quả sẽ làm cho quá trình
học nhanh hơn, độ chính xác cao hơn
•
Lợi ích:
–
cho tham số ước lượng đáng tin cậy hơn
–
giảm chi phí tính toán và bộ nhớ sử dụng
–
nâng cao hiệu suất học và cung cấp kết quả tốt hơn
–
Ngoài ra, đề tài sẽ đóng góp về phương diện lí thuyết cho việc
nghiên cứu trong nước
–
Có thể trở thành một chủ đề hay để giảng dạy trong lĩnh vực
khai phá dữ liệu
2.5 Dự kiến kết quả nghiên cứu
•
Luận án sẽ tập hợp và trình bày đầy đủ phần tổng
quan cũng như các giải pháp đề xuất để nâng cao hiệu
quả của thuật toán
•
Dự kiến kết quả của đồ án bao gồm 2 đến 3 bài báo
đăng ở tạp chí chuyên ngành hoặc hội nghị quốc tế

•
Ứng dụng thuật toán đề xuất và lĩnh vực khai phá dữ
liệu tài chính
2.6 Các nghiên cứu liên quan
•
Lựa chọn đặc trưng là một chủ đề nghiên cứu với ý nghĩa
thiết thực trong nhiều lĩnh vực:
–
như thống kê, nhận dạng mẫu, học máy
–
khai phá dữ liệu (bao gồm khai phá Web, khai phá văn bản, xử
lý hình ảnh)
•
Một số hướng nghiên cứu trên thế giới:
–
Semi-supervised Feature Selection via Spectral Analysis
–
Sparse Linear Discriminant Analysis
–
A Knowledge-Oriented Framework for Gene Selection
–
Linear Dimensionality Reduction for Multi-label Classification
Hướng nghiên cứu trong tương lai
•
Sẽ tiếp tục là lĩnh vực nghiên cứu được nhiều người
quan tâm
•
Một số hướng nghiên cứu trong tương lai:
–
Trích chọn đặc trưng cho dữ liệu có chiều cực lớn

–
Knowledge oriented sparse learning
–
Explanation-based feature selection (EBFS)
2.7 Những bước tiếp cận và đã làm được
•
Trong 3 năm học tập và nghiên cứu tại Đại học Công
nghệ tôi đã có những kiến thức căn bản và nâng cao
về khai phá dữ liệu đặc biệt là trong lĩnh vực xử lí dữ
liệu lớn.
•
Kết quả là tôi đã bảo vệ thành công luận văn thạc sĩ
trong lĩnh vực khái phá dữ liệu với tên đề tài là:
“NGHIÊN CỨU VÀ ỨNG DỤNG MỘT SỐ MÔ
HÌNH HỌC MÁY TRONG VIỆC HỖ TRỢ ĐÁNH
GIÁ RỦI RO TÀI CHÍNH”
2.7 Những bước tiếp cận và đã làm
được
•
Trải qua 6 năm giảng dạy và nghiên cứu, trong lĩnh vực
hệ thống thông tin kinh tế, tôi đã trực tiếp tham gia các
phần việc như:
•
Nghiên cứu và giảng dạy các môn học liên quan đến kĩ
thuật lập trình, tìm kiếm…
•
Nghiên cứu về khai phá dữ liệu trong lĩnh vực tài chính.
•
Viết một số bài báo và kỉ yếu khoa học, tham gia hội
nghị, hội thảo khoa học trong Ngành.

2.7 Những bước tiếp cận và đã làm
được
•
Trong thời gian gần đây tôi đã tích cực tìm kiếm các tài
liệu, bài báo, sách liên quan tới vấn đề trích chọn đặc
trưng.
•
Tìm kiếm được dữ liệu và các thuật toán mới nhất
3. Dự kiến kế hoạch triển khai
•
Thời gian nghiên cứu dự kiến: 3 năm
•
Năm thứ nhất:
–
Tìm kiếm, thu thập những tài liệu, kết quả liên quan
đến đề tài nghiên cứu.
–
Viết phần tổng quan, bổ sung các kiến thức cơ sở về các
nội dung nghiên cứu
–
Phân tích, đánh giá những ưu điểm và nhược điểm của
các phương pháp đã có.
3. Dự kiến kế hoạch triển khai
•
Năm thứ hai:
–
Đề xuất phương pháp thuật toán cũng như tiến hành
các chứng minh, kiểm nghiệm nhỏ để đảm bảo tính
đúng đắn của hướng nghiên cứu.
–

Đề xuất phương pháp và thuật toán cải tiến.
–
Viết báo cáo về các kết quả thu được đăng trên các hội
nghị và tạp chí chuyên ngành.
•
Năm thứ ba:
–
Xây dựng sơ đồ thực nghiệm và đánh giá kết quả.
–
Viết và bảo vệ luận án.
43
•
Guyon, I. & Elisseeff, A. An introduction to variable and feature selection
Journal of Machine Learning Research, 2003, 3, 1157-1182
•
Dy, J. G. & Brodley, C. E. Feature Selection for Unsupervised Learning J.
Mach. Learn. Res., MIT Press, 2004, 5, 845-889
•
He, X.; Cai, D. & Niyogi, P. Weiss, Y.; Schölkopf, B. & Platt, J. (ed.)
Laplacian Score for Feature Selection Advances in Neural Information
Processing Systems 18, MIT Press, 2005
•
Zhao, Z. & Liu, H. Semi-supervised Feature Selection via Spectral
Analysis Proceedings of SIAM International Conference on Data Mining
(SDM), 2007
•
Xu, Z.; Jin, R.; Ye, J.; Lyu, M. R. & King, I. Discriminative semi-
supervised feature selection via manifold regularization IJCAI' 09:
Proceedings of the 21th International Joint Conference on Artificial
Intelligence, 2009

•
Saeys, Y.; Inza, I. & Larrañaga, P. A review of feature selection techniques
in bioinformatics. Bioinformatics, 2007, 23, 2507-2517
43
•
Barak Chizi, Dimension Reduction and Feature Selection, 2005.
•
Zenglin Xu, Rong Jin, Jieping Ye, Michael R. Lyu, and Irwin King.
Discriminative semi-supervised feature selection via manifold
regularization. In IJCAI' 09: Proceedings of the 21th International Joint
Conference on Artificial Intelligence, 2009
•
Zheng Zhao, Advancing Feature Selection Research - ASU Feature
Selection Repository , 2010.
•
Lei Yu, Chris Ding, and Steven Loscalzo. Stable feature selection via
dense feature groups. In Proceedings of the 14th ACM SIGKDD
International Conference on Knowledge Discovery and Data Mining, 2008

NGHIÊN CỨU VÀ CẢI TIẾN KỸ THUẬT KHAI PHÁ DỮ LIỆU LỚN DỰA TRÊN HƯỚNG TIẾP CẬN TRÍCH CHỌN THUỘC TÍNH ĐẶC TRƯNG

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về