Tải bản đầy đủ (.pdf) (29 trang)

TÌM HIỂU VÀ CÀI ĐẶT THUẬT TOÁN PHÁT SINH TẬP PHỔ BIẾN SỬ DỤNG THUẬT TOÁN FP-GROWTH

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (7.49 MB, 29 trang )

ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN






TIỂU LUẬN
KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU

Đề tài: TÌM HIỂU VÀ CÀI ĐẶT THUẬT TOÁN
PHÁT SINH TẬP PHỔ BIẾN SỬ DỤNG THUẬT
TOÁN FP-GROWTH

GVHD: PGS.TS. Đỗ Phúc
Học viên thực hiện:
Phan Đình Duy CH1101060
Lớp: CH CNTT K6
Khóa: 2011

TP.Hồ Chí Minh, tháng 11 năm 2012


LỜI MỞ ĐẦU
Ngày nay, công nghệ thông tin đã phát triển vô cùng mạnh mẽ, cùng với đó là
một lượng rất lớn các thông tin được tạo ra và lưu trữ ở khắp nơi trên thế giới đã tạo
nên các cơ sở dữ liệu khổng lồ. Để khai thác hiệu quả nguồn thông tin từ các cơ sở
dữ liệu lớn hỗ trợ tiến trình ra quyết định, bên cạnh các phương pháp khai thác
thông tin truyền thống, các nhà ngiên cứu đã phát triển các phương pháp, kỹ thuật
và phần mềm mới hỗ trợ các tiến trình khám phá phân tích tổng hợp thông tin. Từ


đó khái niệm khai phá dữ liệu ra đời, nó là một quá trình trích xuất thông tin có mối
quan hệ hoặc có mối tương quan nhất định từ một kho dữ liệu lớn (cực lớn) nhằm
mục đích dự đoán các xu thế, các hành vi trong tương lai, hoặc tìm kiếm những
thông tin hữu ích mà bình thường không thể nhận diện được
Một trong những vấn đề quan trọng trong data mining là tìm ra quy luật giữa
các thông tin để biến chúng thành những tri thức, trong đó phương pháp tìm luật kết
hợp là phương pháp thường được sử dụng nhất. Có rất nhiều thuật toán tìm luật kết
hợp như apriori, apriori cải tiến, sử dụng hash…, các thuật toán này đóng góp vai
trò rất quang trọng cho quá trình tìm kiếm luật kết hợp. Trong hầu hết các bài toán
tìm luật kết hợp thì công đoạn phát sinh tập phổ biến là làm hao tốn nhiều tài
nguyên của máy tính nhất. Do đó để cải tiến bài toán theo cách tốt hơn, trước tiên
chúng ra hãy đặt vấn đề làm giảm chi phí cho công đoạn tìm tập phổ biến này. Để
góp phần cải tiến giải thuật tìm tập phổ biến, trong bài tiểu luận này em sẽ trình bày
quá trình tìm hiểu và thử ngiệm “thuật toán phát sinh tập phổ biến sử dụng FP-
Growth” .
Em xin gửi lời cảm ơn chân thành đến thầy PGS.TS Đỗ Phúc, người đã dành
nhiều thời gian quý báu của mình để truyền đạt cho lớp CH CNTT K6 những kiến
thức bổ ích, lý thú về chuyên đề khai phá dữ liệu và kho dữ liệu. Đây sẽ là những
kiến thức hết sức cần thiết cho hành trang của chúng em trong công việc nghiên cứu
về lĩnh vực tin học.

Học viên thực hiện
Phan Đình Duy
Lớp: CH CNTT K6

×