Tải bản đầy đủ (.docx) (21 trang)

Báo cáo khai phá dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.22 MB, 21 trang )

TRƯỜNG ĐẠI HỌC …
KHOA CÔNG NGHỆ THÔNG TIN

BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN KHAI PHÁ DỮ LIỆU
ĐỀ TÀI: PHÂN LOẠI LOÀI HOA IRIS BẰNG PHÂN LỚP DỮ LIỆU

Sinh viên thực hiện :
Giảng viên hướng dẫn:
Ngành

: CÔNG NGHỆ THÔNG TIN

Chuyên ngành

: CƠNG NGHỆ PHẦN MỀM

Lớp

:

Khóa

:

Hà Nội, Năm 2022


PHIẾU CHẤM ĐIỂM
Sinh viên thực hiện:

Họ và tên



Chữ ký

Ghi chú

Giảng viên chấm:

Họ và tên giảng viên

Chữ ký

Diểm

Ghi chú

Giảng viên chấm 1:

Giảng viên chấm 2:

MỤC LỤC
LỜI MỞ ĐẦU........................................................................................................1
CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ THUẬT TOÁN.....2
1.1. Khái niệm cơ bản về khai phá dữ liệu............................................................2
1.1.1. Khai phá dữ liệu là gì ?................................................................................2
1.1.2 Quy trình khai phá dữ liệu............................................................................3
1.2. Tổng quan về hệ hỗ trợ ra quyết định.............................................................6
1.3. Tổng quan về phân lớp dữ liệu.......................................................................7
CHƯƠNG 2: KỸ THUẬT PHÂN LỚP VÀ THUẬT TOÁN DECISION TREE
.............................................................................................................................10



2.1. Giới thiệu về kỹ thuật phân lớp trong Khai phá dữ liệu...............................10
2.2. Thuật toán Decision Tree..............................................................................10
2.3. Áp dụng và sử dụng thuật tốn Decision tree vào phân loại lồi hoa Iris....13
CHƯƠNG 3: THỰC HIỆN VÀ ĐÁNH GIÁ......................................................14
3.1. Xây dựng mơ hình bằng Weka......................................................................14
KẾT LUẬN.........................................................................................................18


LỜI MỞ ĐẦU
Trong thời đại ngày nay, yếu tố quyết định thành công trong mọi lĩnh vực
luôn gắn liền với việc nắm bắt, thống kê và khai thác thông tin hiệu quả. Dữ liệu
ngày càng lớn nên việc tìm ra những thơng tin tiềm ẩn trong chúng càng khó
khăn hơn.
Khai phá tri thức là một lĩnh vực nghiên cứu mới, mởra một thời kỳ
trong việc tìm ra thơng tin hữu ích. Nhiệm vụ cơ bản của lĩnh vực này là khai
phá tri thức trong cơ sở dữ liệu, khai phá dữ liệu trong cơ sở dữ liệu không
phải là một hệ thống phân tích tự động mà là một quá trình tương tác thường
xuyên giữa con người với cơ sở dữ liệu được sự trợ giúp của nhiều phương pháp
và công cụ tin học.
Em xin bày tỏ sự biết ơn sâu sắc của mình tới Thầy Vũ Văn Định người đã
trực tiếp hướng dẫn, chỉ bảo tận tình, cung cấp tài liệu và phương pháp
nghiên cứu khoa học để chúng em hoàn thành bài tập lớn này. Em xin gửi lời
cảm ơn tới các thầy cô giáo đã dạy dỗ trong quá trình chúng em theo học tại
Trường.
Trong suốt quá trình nghiên cứu, mặc dù đã hết sức cố gắng nhưng chắc chắn
bài của chúng em không tránh khỏi những thiếu sót, rất mong q thầy cơ góp ý
để luận văn được hoàn chỉnh hơn.
Chúng em xin chân thành cảm ơn!


1


CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ THUẬT TOÁN
1.1. Khái niệm cơ bản về khai phá dữ liệu
1.1.1. Khai phá dữ liệu là gì ?
Khai phá dữ liệu (data mining) Là q trình tính tốn để tìm ra các mẫu
trong các bộ dữ liệu lớn liên quan đến các phương pháp tại giao điểm của máy
học, thống kê và các hệ thống cơ sở dữ liệu. Đây là một lĩnh vực liên ngành của
khoa học máy tính. Mục tiêu tổng thể của quá trình khai thác dữ liệu là trích xuất
thơng tin từ một bộ dữ liệu và chuyển nó thành một cấu trúc dễ hiểu để sử dụng
tiếp. Ngồi bước phân tích thơ, nó cịn liên quan tới cơ sở dữ liệu và các khía
cạnh quản lý dữ liệu, xử lý dữ liệu trước, suy xét mơ hình và suy luận thống kê,
các thước đo thú vị, các cân nhắc phức tạp, xuất kết quả về các cấu trúc được
phát hiện, hiện hình hóa và cập nhật trực tuyến. Khai thác dữ liệu là bước phân
tích của quá trình "khám phá kiến thức trong cơ sở dữ liệu" hoặc KDD.
Khai phá dữ liệu là một bước của quá trình khai thác tri thức (Knowledge
Discovery Process), bao gồm:
 Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề (Problem
understanding and data understanding).
 Chuẩn bị dữ liệu (Data preparation), bao gồm các quá trình làm sạch dữ
liệu (data cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu (data
selection), biến đổi dữ liệu (data transformation).
 Khai thác dữ liệu (Data mining): xác định nhiệm vụ khai thác dữ liệu và
lựa chọn kỹ thuật khai thác dữ liệu. Kết quả cho ta một nguồn tri thức thô.
 Đánh giá (Evaluation): dựa trên một số tiêu chí tiến hành kiểm
tra và lọc nguồn tri thức thu được.
 Triển khai (Deployment).
Q trình khai thác tri thức khơng chỉ là một quá trình tuần tự từ bước đầu
tiên đến bước cuối cùng mà là một quá trình lặp và có quay trở lại các bước đã

qua.

2


1.1.2 Quy trình khai phá dữ liệu
Nghiên cứu lĩnh vực
Ta cần nghiên cứu lĩnh vực cần sử dụng Data mining để xác định được
những tri thức cần chắt lọc, từ đó định hướng để tránh tốn thời gian cho những
tri thức không cần thiết.
Tạo tập tin dữ liệu đầu vào
Ta xây dựng tập tin để lưu trữ các dữ liệu đầu vào để máy tính có thể lưu
trữ và xử lý
Tiền xử lý, làm sạch mã hóa
Ở bước này ta tiến hành bỏ bớt những dữ liệu rườm rà, không cần thiết,
tinh chỉnh lại cấu trúc của dữ liệu và mã hóa chúng để tiện cho q trình xử lý.
Rút gọn chiều
Thơng thường một tập dữ liệu có chiều khá lớn sẽ sinh ra một lượng
dữ liệu khổng lồ, ví dụ với n chiều sẽ có 2^n nguyên tố hợp. Do đó, đây là
một bước quan trong giúp giảm đáng kể hao tổn về tài nguyên trong quá
trình xử lý tri thức. Thông thường ta sẽ
dùng Rought
set( để giảm số chiều.
Chọn tác vụ khai thác dữ liệu
Để đạt được mục đích ta cần, ta chọn được tác vụ khai thác dữ liệu cho
phù hợp. Thơng thường có các tác vụ sau:
 Đặc trưng(feature)
 Phân biệt (discrimination)
 Kết hợp(association)
 Phân lớp(classfication)

 Xu thế(trend analysis)
 Gom cụm(clusterity)
 Phân tích độ lệch
 Phân tích độ hiếm
Khai thác dữ liệu: Tìm kiếm tri thức
Sau khi tiến hành các bước trên thì đây là bước chính của cả q trình, ta
sẽ tiến hành khai thác và tìm kiếm tri thức.

3


Đánh giá mẫu tìm được
Ta cần đánh giá lại trong các tri thức tìm được, ta sẽ sử dụng được những
tri thức nào, những tri thức dư thừa, không cần thiết
Biểu diễn tri thức
Ta biểu diễn tri thức vừa thu thập được dưới dạng ngơn ngữ tự nhiên và
hình thức sao cho người dùng có thể hiểu được những tri thức đó
Sử dụng các tri thức vừa khám phá
Ta có thể tham khảo tiến trình KĐ(Knowledge Discovery in Databases)
để hiểu rõ hơn về khai phá dữ liệu:

Hình 2.1. Knowledge Discovery in Databases
Chuẩn bị dữ liệu (data preparation), bao gồm các q trình làm sạch dữ
liệu (data cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu(data
selection), biến đổi dữ liệu(data transformation).
Khai thác dữ liệu(data mining): xác định nhiệm vụ khai thác dữ liệu và
lựa chọn kỹ thuật khai thác dữ liệu. Kết quả cho ta một nguồn tri thức thô.
Đánh giá(evaluation): dựa trên một tiêu chí tiến hành kiểm tra và lọc
nguồn tri thức thu được.
Triển khai(deployment).

Quá trình khai thác tri thức khơng chỉ là một q trình tuần tự từ bước
đầu tiên đến bước cuối mà là một quá trình lặp và có quay trở lại các bước đã
qua.

4


Ứng dụng của khai phá dữ liệu
Phát hiện tri thức và khai phá dữ liệu liên quan đến nhiều ngành,
nhiều lĩnh vực: thống kê, trí tuệ nhân tạo, cơ sở dữ liệu, thuật tốn, tính tốn
song song và tốc độ cao, thu thập tri thức cho các hệ chuyên gia, quan sát dữ
liệu... Đặc biệt phát hiện tri thức và khai phá dữ liệu rất gần gũi với lĩnh vực
thống kê, sử dụng các phương phápthống kê để mơ hình dữ liệu và phát hiện
các mẫu, luật ... Ngân hàng dữ liệu (DataWarehousing) và các cơng cụ phân
tích trực tuyến (OLAP- On Line AnalyticalProcessing) cũng liên quan rất
chặt chẽ với phát hiện tri thức và khai phá dữ liệu.
Khai phá dữ liệu có nhiều ứng dụng trong thực tế, ví dụ như:
 Bảo hiểm, tài chính và thị trường chứng khốn: phân tích tình
hình tài chínhvà dự báo giá của các loại cổ phiếu trong thị trường
chứng khoán. Danh mục vốn và giá, lãi suất, dữ liệu thẻ tín dụng,
phát hiện gian lận, ...

Thống kê, phân tích dữ liệu và hỗ trợ ra quyết định.

Điều trị y học và chăm sóc y tế: một số thơng tin về chuẩn
đốn bệnh lưu trong các hệ thống quản lý bệnh viện. Phân tích mối
liên hệ giữa các triệu chứng bệnh, chuẩn đốn và phương pháp
điều trị (chế độ dinh dưỡng,thuốc, ...)

Sản xuất và chế biến: Quy trình, phương pháp chế biến và

xử lý sự cố.

Text mining và Web mining: Phân lớp văn bản và các trang
Web, tóm tắt vănbản,...

Lĩnh vực khoa học: Quan sát thiên văn, dữ liệu gene, dữ liệu
sinh vật học, tìmkiếm, so sánh các hệ gene và thơng tin di truyền,
mối liên hệ gene và một sốbệnh di truyền, ...

Mạng viễn thơng : Phân tích các cuộc gọi điện thoại và hệ
thống giám sát lỗi, sự cố, chất lượng dịch vụ,…

1.2. Tổng quan về hệ hỗ trợ ra quyết định

5


Hệ hỗ trợ ra quyết định là một hệ thống thơng tin, có nhiệm vụ cung cấp
các thơng tin hỗ trợ cho việc ra quyết định để tham khảo và giải quyết vấn đề.
Hệ hỗ trợ ra quyết định có thể dùng cho các nhân hay tổ chức và có thể hỗ trợ
gián tiếp hoặc trực tiếp.
Trong lĩnh vực y tế, hệ hỗ trợ ra quyết định dựa vào tri thức đã học sẽ cung cấp
thơng tin chuẩn đốn cho nhân viên y tế. Thơng tin này được trích lọc để cung
cấp một cách thơng minh có giá trị cho q trình chuẩn đốn, theo dõi và điều trị
bệnh hiệu quả hơn, từ đó ta thấy một số lợi ích của hệ hỗ trợ ra quyết định trong
y tế như sau:
• Tăng cường chất lượng chuẩn đốn, chăm sóc bệnh nhân.
• Giảm nguy cơ sai sót để tránh các tình huống nguy hiểm cho bệnh nhân.
• Tăng cường hiệu quả ứng dụng công nghệ thông tin vào lĩnh vực y tế để giảm
bớt những thủ tục giấy tờ không cần thiết.


Hình 2.2. Sơ đồ hệ hỗ trợ quyết định

1.3. Tổng quan về phân lớp dữ liệu

6


Ngày nay phân lớp dữ liệu (classification) là một trong những hướng nghiên
cứu chính của khai phá dữ liệu. Thực tế đặt ra nhu cầu là từ một cơ sở dữ liệu
với nhiều thơng tin ẩn con người có thể trích rút ra các quyết định nghiệp vụ
thơng minh. Phân lớp và dự đốn là hai dạng của phân tích dữ liệu nhằm trích
rút ra một mơ hình mơ tả các lớp dữ liệu quan trọng hay dự đoán xu hướng dữ
liệu tương lai. Phân lớp dự đoán giá trị của những nhãn xác định (categorical
label) hay những giá trị rời rạc (discrete value), có nghĩa là phân lớp thao tác với
những đối tượng dữ liệu mà có bộ giá trị là biết trước. Trong khi đó, dự đốn lại
xây dựng mơ hình với các hàm nhận giá trị liên tục. Ví dụ mơ hình phân lớp dự
báo thời tiết có thể cho biết thời tiết ngày mai là mưa, hay nắng dựa vào những
thông số về độ ẩm, sức gió, nhiệt độ,… của ngày hơm nay và các ngày trước đó.
Hay nhờ các luật về xu hướng mua hàng của khách hàng trong siêu thị, các nhân
viên kinh doanh có thể ra những quyết sách đúng đắn về lượng mặt hàng cũng
như chủng loại bày bán… Một mơ hình dự đốn có thể dự đốn được lượng tiền
tiêu dùng của các khách hàng tiềm năng dựa trên những thông tin về thu nhập và
nghề nghiệp của khách hàng. Trong những năm qua, phân lớp dữ liệu đã thu hút
sự quan tâm các nhà nghiên cứu trong nhiều lĩnh vực khác nhau như học máy
(machine learning), hệ chuyên gia (expert system), thống kê (statistics)... Công
nghệ này cũng ứng dụng trong nhiều lĩnh vực khác nhau như: thương mại, nhà
băng, maketing, nghiên cứu thị trường, bảo hiểm, y tế, giáo dục... Phần lớn các
thuật toán ra đời trước đều sử dụng cơ chế dữ liệu cư trú trong bộ nhớ (memory
resident), thường thao tác với lượng dữ liệu nhỏ. Một số thuật toán ra đời sau

này đã sử dụng kỹ thuật cư trú trên đĩa cải thiện đáng kể khả năng mở rộng của
thuật toán với những tập dữ liệu lớn lên tới hàng tỉ bản ghi.
Quá trình phân lớp dữ liệu gồm hai bước:
• Bước thứ nhất (learning)
Q trình học nhằm xây dựng một mơ hình mơ tả một tập các lớp dữ liệu
hay các khái niệm định trước. Đầu vào của q trình này là một tập dữ liệu
có cấu trúc được mơ tả bằng các thuộc tính và được tạo ra từ tập các bộ giá
trị của các thuộc tínhđó. Mỗi bộ giá trị được gọi chung là một phần tử dữ liệu
(data tuple), có thể là các mẫu (sample), ví dụ (example), đối tượng (object),
bản ghi (record) hay trường hợp (case). Khoá luận sử dụng các thuật ngữ này
với nghĩa tương đương. Trong tập dữ liệu này, mỗi phần tử dữ liệu được giả

7


sử thuộc về một lớp định trước, lớp ở đây là giá trị của một thuộc tính được
chọn làm thuộc tính gán nhãn lớp hay thuộc tính phân lớp (class label
attribute). Đầu ra của bước này thường là các quy tắc phân lớp dưới dạng
luật dạng if-then, cây quyết định, cơng thức logic, hay mạng nơron. Q
trình này được mơ tả như trong hình 2.3

Hình 2.3. Quá trình phân lớp dữ liệu - (a) Bước xây dựng mơ hình phân lớp
• Bước thứ hai (classification)
Bước thứ hai dùng mơ hình đã xây dựng ở bước trước để phân lớp dữ
liệu mới. Trước tiên độ chính xác mang tính chất dự đốn của mơ hình
phân lớp vừa tạo ra được ước lượng. Holdout là một kỹ thuật đơn giản để
ước lượng độ chính xác đó. Kỹ thuật này sử dụng một tập dữ liệu kiểm tra
với các mẫu đã được gán nhãn lớp. Các mẫu này được chọn ngẫu nhiên và
độc lập với các mẫu trong tập dữ liệu đào tạo. Độ chính xác của mơ hình
trên tập dữ liệu kiểm tra đã đưa là tỉ lệ phần trăm các các mẫu trong tập dữ

liệu kiểm tra được mơ hình phân lớp đúng (so với thực tế). Nếu độ chính
xác của mơ hình được ước lượng dựa trên tập dữ liệu đào tạo thì kết quả
thu được là rất khả quan vì mơ hình ln có xu hướng “q vừa” dữ liệu.
Quá vừa dữ liệu là hiện tượng kết quả phân lớp trùng khít với dữ liệu thực
tế vì q trình xây dựng mơ hình phân lớp từ tập dữ liệu đào tạo có thể đã
kết hợp những đặc điểm riêng biệt của tập dữ liệu đó. Do vậy cần sử dụng
một tập dữ liệu kiểm tra độc lập với tập dữ liệu đào tạo. Nếu độ chính xác
của mơ hình là chấp nhận được, thì mơ hình được sử dụng để phân lớp

8


những dữ liệu tương lai, hoặc những dữ liệu mà giá trị của thuộc tính phân
lớp là chưa biết.

Hình 2.4. Quá trình phân lớp dữ liệu - (b1)Ước lượng độ chính xác của mơ hình

Hình 2.5. Q trình phân lớp dữ liệu - (b2) Phân lớp dữ liệu mới
Trong mô hình phân lớp, thuật tốn phân lớp giữ vai trị trung tâm, quyết
định tới sự thành cơng của mơ hình phân lớp. Do vậy chìa khóa của vấn đề phân
lớp dữ liệu là tìm ra được một thuật tốn phân lớp nhanh, hiệu quả, có độ chính
xác cao và có khả năng mở rộng được. Trong đó khả năng mở rộng được của
thuật toán được đặc biệt trú trọng và phát triển.

CHƯƠNG 2: KỸ THUẬT PHÂN LỚP VÀ THUẬT TOÁN DECISION
TREE
9


2.1. Giới thiệu về kỹ thuật phân lớp trong Khai phá dữ liệu

Phân lớp là dạng phân tích dữ liệu nhằm rút trích các mơ hình mơ tả các lớp
dữ liệu hoặc dự đốn xu hướng dữ liệu.
Q trình gồm hai bước:
- Bước học (giai đoạn huấn luyện): xây dựng bộ phân lớp (classifier)
bằng việc phân tích/học tập huấn luyện.
- Bước phân lớp (classification): phân lớp dữ liệu/đối tượng mới nếu độ
chính xác của bộ phân lớp được đánh giá là có thể chấp nhận được
(acceptable)
Tổng quan về phân lớp dữ liệu:

Hình 3.1. Tổng quan về phân lớp dữ liệu
2.2. Thuật tốn Decision Tree
Decision Tree là một cơng cụ khá phổ biến để phân lớp và dự báo, được đánh
giá cao:
- Tốc độ học tương đối nhanh so với các phương pháp khác.
- Có thể chuyển thành luật một cách dễ dàng.
- Sự chính xác cũng khá tốt.
- Địi hỏi tiền xử lý đơn giản.

10


Thuật toán Decision Tree được thực hiện qua các bước sau:
- B1. Tạo một nút T gồm tất cả các mẫu.
- B2. Nếu tất cả các mẫu trong T có nhãn “Yes” thì gán nhãn nút T là
“Yes” và dừng.
- B3. Nếu tất cả các mẫu trong T có nhãn “No” thì gán nhãn nút T là
“No” và dừng.
- B4. Nếu mẫu trong T có cả “Yes” và “No” thì
Chọn một thuộc tính X có các giá trị v1, .., vn

Chia tập mẫu theo giá trị của X thành các tập con T1,.., Tn.
Tạo n nút con Ti (i=1..n) với nút cha là nút T
- B5. Thực hiện lặp cho các nút con Ti (i=1..n) và quay lại B2.
Ví dụ minh họa thuật tốn Decision Tree:
Ta có bảng thời tiết quyết định xem có đi chơi tennis hay khơng

Bước 1: Ta thấy có 9 có và 5 khơng trong tổng số 14
Ta sẽ tính Entropy(S) = = 0,94
Sau đó ta tính:
Gain(S, Quang cảnh) = E(S) - E(SNắng) - E(SÂm u) - E(SMưa)

11


= 0,94 - )0,971 - )0,0 - )0,971 = 0,247
Tương tự ta cũng tính Gain(S, Nhiệt độ), Gain(S, Độ ẩm), Gain(S, Gió) theo
thứ tự ta được 0.029, 0.151, 0.048
Bước 2: Ta thấy Gain(S, Quang cảnh) có kết quả cao nhất nên ta chọn Quang
cảnh để tính Entropy
Ta có 2 bảng sau:
1.
Quang cảnh Nhiệt độ
D1
Nắng
Nóng
D2
Nắng
Nóng
D8
Nắng

Ấm áp
D9
Nắng
Mát
D11
Nắng
Ấm áp
Tính Entropy(S) = = 0,97

Độ ẩm
Cao
Cao
TB
TB
TB

Gió
Nhẹ
Mạnh
Mạnh
Nhẹ
Mạnh

Chơi
Khơng
Khơng
Khơng




Sau đó ta tính:
Gain(S, Nhiệt độ) = E(S) - E(SNóng) - E(SẤm áp) - E(SMát)
= 0,97 - )0,0 - )1 - )0,0 = 0,57
Tương tự ta cũng tính Gain(S, Độ ẩm), Gain(S, Gió) theo thứ tự ta được
0.424, 0.024
2.
Quang cảnh Nhiệt độ
D4
Mưa
Ấm áp
D5
Mưa
Mát
D6
Mưa
Mát
D10
Mưa
Ấm áp
D14
Mưa
Ấm áp
Tính Entropy(S) = = 0,97

Độ ẩm
Cao
TB
TB
TB
Cao


Gió
Nhẹ
Nhẹ
Mạnh
Nhẹ
Mạnh

Chơi


Khơng

Khơng

Sau đó ta tính:
Gain(S, Nhiệt độ) = E(S) - E(SẤm áp) - E(SMát)
= 0,97 - )0,91 - )1 = 0,024
Tương tự ta cũng tính Gain(S, Độ ẩm), Gain(S, Gió) theo thứ tự ta được
0.024, 0.97
Bước 3: Kết luận ta có biểu đồ hình cây

12


2.3. Áp dụng và sử dụng thuật toán Decision tree vào phân loại loài hoa Iris
Tập dữ liệu bao gồm 150 chỉ số khác nhau của loài hoa Iris. Tập dữ liệu bao
gồm các thuộc tính:
1. SepalLengthCm
2. SepalWidthCm

3. PetalLengthCm
4. PetalWidthCm
5. Species
Đây là một bài toán phân lớp và chúng ta có thể sử dụng các phương pháp
phân lớp khác như Bayesian, SVM, k-nearest neighbor để phân loại cũng cho
kết quả khả quan. Chúng ra có thể hình dung tập dữ liệu này thông qua biểu diễn
dưới dạng file csv.

13


CHƯƠNG 3: THỰC HIỆN VÀ ĐÁNH GIÁ
3.1. Xây dựng mô hình bằng Weka

Hình 3.1. Nhập dữ liệu vào Weka

14


Hình 3.2. Dữ liệu đưa vào được phân loại

15


Hình 3.3. Các thuộc tính bộ dữ liệu lồi hoa Iris của 150 dữ liệu

Hình 3.4. Đầu ra phân lớp

16



 Đầu ra phân lớp:
Các thuộc tính:
1. SepalLengthCm
2. SepalWidthCm
3. PetalLengthCm
4. PetalWidthCm
5. Species

Hình 3.5. Sơ đồ sau khi phân lớp

17


KẾT LUẬN
Sau thời gian thực hiện, chúng em đã thực hiện được một số kết quả sau:
 Tìm hiểu được về khai phá dữ liệu


Vai trò của khai phá dữ liệu



Tìm hiểu về thuật tốn Decision Tree

Chúng em đã tìm hiểu lý thuyết xác suất đến thuật toán Decision Tree. Tuy
độ chính xác cịn chưa cao do bản chất của phương pháp cũng như tập dữ liệu
chưa đủ lớn mong thầy cơ giúp đỡ để bài tốn của chúng em được hoàn thiện

18




Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×