Tải bản đầy đủ (.pdf) (12 trang)

xây dựng cây fp tree và tìm các tập mục phổ biến bằng thuật toán fpgrow với min sup 3 cho csdl giao dịch sa

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (548.91 KB, 12 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC KINH TẾ - KĨ THUẬT CÔNG NGHIỆP

KHOA CƠNG NGHỆ THƠNG TIN

BÁO CÁO NHĨM 2 MƠN KHAI PHÁ DỮ LIỆU

Giảng viên hướng dẫn : Trần Thanh ĐạiSinh viên thực hiện : Nguyễn Hồng Phước

Nguyễn Thị Hải Phương Nguyễn Tiến Đại Phạm Thị Hà Thu Trần Trung Sơn Đàm Ngọc Huyền Khúc Trần Ánh Ngân Lớp : DHTI14A4HN

Hà Nội, tháng 4 năm 2024 .

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC KINH TẾ - KĨ THUẬT CƠNG NGHIỆP

KHOA CƠNG NGHỆ THƠNG TIN

BÁO CÁO NHĨM 2 MÔN KHAI PHÁ DỮ LIỆU

Giảng viên hướng dẫn : Trần Thanh ĐạiSinh viên thực hiện : Nguyễn Hồng Phước

Nguyễn Thị Hải Phương Nguyễn Tiến Đại Phạm Thị Hà Thu Trần Trung Sơn Đàm Ngọc Huyền Khúc Trần Ánh Ngân Lớp : DHTI14A4HN

Hà Nội, tháng 4 năm 2024 .

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

Lời mở đầu

Trong những năm gần đây, việc nắm bắt được thông tin được coi là cơ sở của mọihoạt động sản xuất, kinh doanh. Cá nhân hoặc tổ chức nào thu thập và hiểu được thôngtin và hành động dựa trên các thông tin được kết xuất từ các thơng tin đã có sẽ đạt đượcthành cơng trong mọi hoạt động. Chính vì lý do đó, việc tạo ra thông tin, tổ chức lưutrữ và khai thác ngày càng trở nên quan trọng và gia tăng không ngừng.

Sự tăng trưởng vượt bậc của các cơ sở dữ liệu (CSDL) trong cuộc sống như:thương mại, quản lý và khoa học đã làm nảy sinh và thúc đẩy sự phát triển của kỹ thuậtthu thập, lưu trữ, phân tích và khai phá dữ liệu... khơng chỉ bằng các phép tốn đơngiản thơng thường như: phép đếm, thống kê... mà địi hỏi cách xử lý thơng minh hơn,hiệu quả hơn. Từ đó các nhà quản lý có được thơng tin có ích để tác động lại quá trìnhsản xuất, kinh doanh của mình... đó là tri thức. Các kỹ thuật cho phép ta khai thác đượctri thức hữu dụng từ CSDL (lớn) được gọi là các kỹ thuật khai phá dữ liệu (DM – DataMining). Khai phá luật kết hợp là một nội dung quan trọng trong khai phá dữ liệu.

Kỹ thuật khám phá tri thức và khai phá dữ liệu đã và đang được nghiên cứu, ứngdụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ thuậtnày tương đối còn mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứngdụng.

Khai phá dữ liệu (Data Mining) được coi là quá trình trích xuất các thơng tin cógiá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các CSDL, kho dữ liệu...Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật ngữ kháccó ý nghĩa tương tự như: Khám phá tri thức từ cơ sở dữ liệu (Knowledge Discovery inDatabase-KDD), trích lọc dữ liệu (knowlegde extraction), phân tích dữ liệu mẫu(data/pattern analysis), khảo cổ dữ liệu (data archaeology), nạo vét dữ liệu (datadredging).

Tiểu luận này trình bày một số vấn đề về khám phá tri thức, khai phá dữ liệu, vàtrình bày rõ vấn đề khai phá luật kết hợp và ứng dụng một số thuật toán khai phá luậtkết hợp trong CSDL.

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

Bài 1: Xây dựng cây Tree và tìm các tập mục phổ biến bằng thuật toán Grow với min_sup=3 cho CSDL giao dịch sau:

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

- Sắp xếp lại thứ tự các danh mụctrong từng giao dịch:

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

- Tìm tập phổ biến của C:

- Vì min_Sup = 3 => Bỏ W : 2

=> Tập phổ biến của C là: { A , C : 3 }; { T , C : 3 }; { A , T , C : 1 }

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

- Tìm tập phổ biến cảu T:

=> Tập phổ biến của T là: { A , T : 4 }; { W , T : 3 }; { A , W , T : 3 }

- Tìm tập phổ biến của W:

=> Tập phổ biến của W là: { A , W : 4 }

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

Bài 2: Sử dụng phương pháp phân loại dữ liệu của Bayesian để xác định mộtsinh viên trẻ với mức thu nhập trung bình, được đánh giá tín dụng bình thường thì cómua hay khơng mua máy tính.

- Biểu diễn bài tốn phân loại :

+ z = (Age = Young , Income = Medium , Student = Yes , Credit_rating = Fair)+ Có hai lớp phân thê :

C1= Yes ( Mua máy tính )C2 = No (Khơng mua máy tính )- Tính giá trị xác suất trước cho mỗi phân lớp :

+ P(c1) = 4/14+ P(c2) = 10/14

- Tính giá trị xác suất của mỗi giá trị thuộc tính đối với mỗi phân lớp :+ P(Age = Young|c1) = 1/4

+ P(Income = Medium |c1) = 2/4

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

+ P(Student = Yes |c1) = 3/4+ P(Credit_rating = Fair|c1) = 1/4+ P(Age = Young|c2) = 5/10+ P(Income = Medium |c2) = 2/10+ P(Student = Yes |c2) = 2/10+ P(Credit_rating = Fair|c2) = 3/10

- Tính xác suất có thể xảy ra của bài toán đối với mỗi phân lớp :+ Đối với phân lớp c1 :

P(z|c1) = P(Age = Young|c1)* P(Income = Medium |c1) *P(Student = Yes |c1) * P(Credit_rating = Fair|c1) = (1/4 * 2/4 * 3/4 *1/4) = 3/128 ≈ 0.023 .

+ Đối với phân lớp c2 :

P(z|c2) = P(Age = Young|c2)* P(Income = Medium |c2) *P(Student = Yes |c2) * P(Credit_rating = Fair|c2) = (5/10*2/10*2/10*3/10 ) = 3/500 ≈ 0.006.

- Xác định phân lớp có thể nhất :+ Đối với phân lớp c1 :

P(c1) * P(z|c1) = 4/14 * 0.023 = 0.006 .+ Đối với phân lớp c2 :

P(c2) * P(z|c2) = 10/14 * 0.006 = 0.0064 .

Nhận xét : Vì P(z|c1) > P(z|c2) => Sinh viên sẽ mua máy tính .

Bài 3: Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại được biểu diễn bởi 2 đặc trưng X,Y như sau.

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

- Tính khoảng cách từ các đối tượng đến tâm của các nhóm: D0; G1(2, 2); G2(3, 2)

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

- Nhóm các đối tượng vào nhóm gần nhất: J1

- Tâm cụm mới:

G1 = (<sup>2+3</sup>

2+22 <sup>)</sup>

= (

5

2<sup>, 2</sup>

)

G2 = (<sup>4 +5</sup>

3+42 <sup>)</sup>

= (

9

- Tính khoảng cách từ các đối tượng đến tâm mới của các nhóm: D2; G1(<sup>5</sup><sub>2</sub>, 2); G2(<sup>9</sup><sub>2</sub>, <sup>7</sup><sub>2</sub>)

√ 412√ 34

3 √ 22

√ 22

√ 22

- Nhóm các đối tượng vào nhóm gần nhất: J2

</div>

×