phân lớp dựa vào cây quyết định giải thuật ID3

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.74 MB, 28 trang )

v

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN

BÀI TẬP LỚN
MÔN: KHO DỮ LIỆU VÀ CÁC PHƯƠNG
PHÁP KHAI PHÁ
Đề tài: Phân lớp dựa trên cây quyết định: giải thuật ID3
GV hướng dẫn: TS. Nguyễn Mạnh Cường
Lớp: CĐ-ĐH Khoa Học Máy Tính 1_K10
Nhóm 8: Thân Quang Định
Lương Phương Đông
Nguyễn Trung Đức

Hà Nội, 2017

Chương 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1 Giới thiệu về khai phá dữ liệu
1.1.1

Khái niệm về khai phá dữ liệu

Khai phá dữ liệu (datamining) được định nghĩa như là một quá trình chắt lọc hay
khai phá tri thức từ một lượng lớn dữ liệu. Một ví dụ hay được sử dụng là việc khai
thác vàng từ đá và cát, Datamining được ví như công việc “Đãi cát tìm vàng” trong
một tập hợp lớn các dữ liệu cho trước. Thuật ngữ Datamining ám chỉ việc tìm kiếm
một tập hợp nhỏ có giá trụ từ một số lượng lớn các dữ liệu thô. Có nhiều thuật ngữ
hiện được dùng có nghĩa tương tự với từ Datamining như Knowledge Mining (Khai
phá tri thức), Knowledge extraction (Chắt lọc tri thức), data/partern analysis (phân

tích dữ liệu/mẫu), data archaeoloogy (khảo cổ dữ liệu),…
Định nghĩa: khai phá dữ liệu là quá trình xác định các mẫu tiềm ẩn có tính hợp
lệ, mới lạ có ích và có thể hiểu được trong một khối dữ liệu rất lớn.
Khai phá dữ liệu là một bước trong bảy bước của quá trình KDD (knowleadge
Discovery in Database) và KDD được xem như 7 quá trình khác nhau theo thứ tự sau :
1. Làm sạch dữ liệu (data cleaning & preprocessing): Loại bỏ nhiễu và các dữ
liệu không cần thiết.
2. Tích hợp dữ liệu (data integration): quá trình hợp nhất dữ liệu thành những
kho dữ liệu (data warehouse & data marts) sau khi đã làm sạch và tiền xử
lý dữ liệu (data cleaning & preprocessing).
3. Trích chọn dữ liệu (data selection): trích chọn dữ liệu từ những kho dữ liệu
và sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức.
Quá trình này bao gồm cả việc xử lý vơi dữ liệu nhiễu (noisy data), dữ liệu
không đầy đủ (incomplete data),…
4. Chuyển đổi dữ liệu : Các dữ liệu được chuyển sang các dạng phù hợp cho
quá trình xử lý.
5. Khai phá dữ liệu (data mining) Là một trong các bước quan trọng nhất,
trong đó sử dụng những phương pháp thông minh để chắt lọc ra những mẫu
dữ liệu
6. Ước lượng mẫu (knowledge evaluation) Quá trình đánh giá các kết quả tìm
được thông qua các độ đo nào đó.

Page 2

7. Biểu diễn tri thức (knowledge presentation): Quá trình này sử dụng các kỹ
thuật để biểu diễn và thể hiện trực quan cho người dùng.

Hình 1. Các bước trong datamining & KDD
1.1.2 Một số ứng dụng của khai phá dữ liệu

Data Mining tuy là một hướng tiếp cận mới nhưng thu hút được rất nhiều sự quan
tâm của các nhà nghiên cứu và phát triển nhờ vào những ứng dụng thực tiễn của nó.
Chúng ta có thể liệt kê ra đây một số ứng dụng điển hình:
•

Tài chính: phân tích thẻ tín dụng, dự báo chứng khoán…

•

Bảo hiểm: phân tích khiếu nạn, gian lận…

•

Trong sinh học: Dùng để tìm kiếm, so sánh các hệ gen và thông tin di
truyền, tìm mối liên hệ giữa các hệ gen và chuẩn đoán một số bệnh di
truyền.

•

Viễn thông: phân tích các bản ghi cuộc gọi, hệ thống giám sát lỗi, sự cố,
chất lượng dịch vụ…

•

Giao thông: quản lý giao vận, hậu cần,…

•

Y tế, chăm sóc sức khỏe: phân tích hiệu quả điều trị, dự báo phân tích
DNA,…

•

Giáo dục: phân tích thị trường giáo dục, quản lý chất lượng…

•

Sản xuất: dự đoán bảo trì, phát hiện lỗi, lập lịch, hỗ trợ ra quyết định.

Page 3

•

Thị trường, tiếp thị: phân tích, dự báo thị trường, tiếp thị lan truyền…

•

Nghiên cứu khoa học: ảnh, video, âm thanh…

•

Tiện tích: phân tích, dự báo năng lượng sử dụng…

•

Text mining và Web mining: phân lớp văn bản và các trang Web, tóm tắt
văn bản…

1.1.3 Một số thách thức hàng đầu trong khai phá dữ liệu

1. Phát triển một lý thuyết thống nhất cho khai phá dữ liệu
2. Xử lý dữ liệu với số chiều cao và dòng dữ liệu tốc độ cao.
3. Khai phá dữ liệu tuần tự và dữ liệu chuỗi thời gian.
4. Khai phá tri thức hợp từ dữ liệu phức hợp.
5. Khai phá dữ liệu trong các cấu hình mạng.
6. Khai phá dữ liệu phân tán, và dữ liệu đa tác tử.
7. Khai phá dữ liệu sinh học và các vấn đề môi trường.
8. Các bài toán liên quan đến quy trình khai phá dữ liệu
9. An ninh, bảo mật và toàn vẹn dữ liệu.
10.

Khai phá dữ liệu không tĩnh, không cân bằng, chi phí lớn.

1.2 Một số bài toán khai phá dữ liệu
1.2.1

Bài toán khai phá luật kết hợp

Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá
trị dữ liệu trong cơ sở dữ liệu. Đầu ra của giải thuật luật kết hợp là tập luật kết hợp tìm
được. Phương pháp khai phá luật kết hợp gồm có hai bước:
Bước 1: Tìm ra tất cả các tập mục phổ biến. Một tập mục phổ biến được xác định
thông qua tính độ hỗ trợ (support) và thỏa mãn độ hỗ trợ tối thiểu (minimum support).
Bước 2: Sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật mạnh phải
thỏa mãn độ hỗ trợ tối thiểu (minimum support – minsup) và độ tin cậy tối thiểu
(minimum confidence - minconf).
1.2.2 Bài toán phân lớp
Phân lớp là kỹ thuật nhằm gán (đưa ra dự báo) nhãn lớp (class – label) cho các đối
tượng dữ liệu chưa có nhãn lớp. Gồm hai bước:

Page 4

Bước 1: Huấn luyện
Training set

Classifier

(Dữ liệu huấn luyện)

( Bộ phân lớp)

Bước 2: sử dụng mô hình để phân lớp

Test set

Classifier

Results

Dữ liệu cần huấn luyện

( Bộ phân lớp)

Kết quả

Phân lớp dữ liệu là tiến trình có 2 bước

1.2.3 Bài toán phân cụm
Phân cụm dữ liệu là cách phân bố các đối tượng dữ liệu vào các nhóm/ cụm sao

cho: Các đối tượng trong một cụm thì giống nhau hơn các phần tử khác cụm.

Page 5

Chương 2. PHÂN LỚP DỰA TRÊN CÂY QUYẾT ĐỊNH
VỚI GIẢI THUẬT ID3
2.1 Cây quyết định
2.1.1 Định nghĩa cây quyết định
Cây quyết định là một cấu trúc biểu diễn dưới dạng cây. Trong đó, mỗi node trong
(internal node) biểu diễn một thuộc tính, mỗi nhánh (branch) biểu diễn giá trị có thể
có của thuộc tính, mỗi lá (leaf node) biểu diễn các lớp quyết định và đỉnh trên cùng
của cây gọi là gốc (root).

Hình 2. Biểu diễn cây quyết định cơ bản
Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo (predictive
model), nghĩa là một ánh xạ từ các quan sát về một sự vật/ hiện tượng tới các kết luận
về giá trị mục tiêu của sự vật/ hiện tượng. Mỗi nút trong (intarnal node) tương ứng với
một biến, đường nối giữa nó với nút con của nó thể hiện giá trị cụ thể cho biến đó.
Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị dự
đoán của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó. Kỹ thuật học
máy dùng trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với
cái tên ngắn gọn là cây quyết định.
Ví dụ: Một người có chơi tennis hay không?

Page 6

Hình3. Cây quyết định cho việc chơi tennis
Cây quyết định (Decision Tree) là một cây phân cấp có cấu trúc được dùng để

phân lớp các đối tượng dựa vào dãy các luật (series of rules). Các thuộc tính của đối
tượng (ngoại trừ thuộc tính phân lớp – Category attribute) có thể thuộc các kiểu dữ
liệu khác nhau (Binary, Nominal, Ordinal, Quantitative values) trong khi đó thuộc tính
phân lớp phải có kiểu dữ liệu là Binary hoặc Ordinal.
Tóm lại, cho dữ liệu về các đối tượng gồm các thuộc tính cùng với lớp (classes)
của nó, cây quyết định sẽ sinh ra các luật để dự đoán lớp của các đối tượng chưa biết.
2.1.2 Biểu diễn cây quyết định
Cây quyết định phân lớp các trường hợp cụ thể bằng cách sắp đặt chúng từ trên
xuống và bắt đầu từ nút gốc và đi xuống các nút lá:

2.1.3

•

Mỗi nút trong ứng với một thuộc tính.

•

Mỗi cạnh biểu diễn kết quả phép kiểm tra trên thuộc tính.

•

Mỗi nút lá biểu diễn giá trị của nhãn lớp.

•

Nút cao nhất trong cây là nút gốc.

Các bước xây dựng cây quyết định

Có nhiều thuật toán khác nhau để xây dựng cây quyết định như: CLS, ID3, C4.5,
SPRINT, C5.0… Nhưng nói chung quá trình xây dựng cây quyết định đều được chia
ra làm 3 giai đoạn cơ bản:

Page 7

 Xây dựng cây: Thực hiện chia một cách đệ quy tập mẫu dữ liệu huấn luyện

cho đến khi các mẫu ở nút lá thuộc cùng một lớp.
 Cắt tỉa cây: Là việc làm dùng để tối ưu hóa cây. Cắt tỉa cây chính là việc

trộn một cây con vào trong một nút lá.
 Đánh giá cây: Dùng để đánh giá độ chính xác của cây kết quả. Tiêu chí

đánh giá là tổng số mẫu được phân lớp chính xác trên tổng số mẫu đưa vào.
2.2 Thuật toán ID3
2.2.1

Lịch sử phát triển
Thuật toán ID3 được phát biểu bởi Quiland (Trường Đại học Syney, Australia) và
được công bố vào cuối thập niên 70 của thế kỷ 20. Sau đó, thuật toán ID3 được giới
thiệu và trình bày trong mục Induction on decision trees, Machine Learning năm
1986. ID3 được xem như là một cải tiến của thuật toán CLS (CLS được Hovland và
Hint giới thiệu trong Concept Learning System vào những năm 50 của thế kỷ 20) với
khả năng lựa chọn thuộc tính tốt nhất để tiếp tục triển khai cây tạo mỗi bước. ID3 xây
dựng cây quyết định từ trên – xuống (top – down).

2.2.2

Giải thuật ID3
a. Entropy: Đặc trưng cho độ hỗn tạp (tinh khiết) của tập dữ liệu bất kỳ.

Trong đó: S là tập các mẫu thuộc lớp dương và lớp âm
là tỷ lệ các mẫu thuộc lớp âm trong S
là tỷ lệ các mẫu thuộc lớp dương trong S



Entropy của tập S ký hiệu là IE(S)
Công thức tổng quát:




Entropy là 0 nếu tất cả các thành viên của S đều thuộc về cùng 1 lớp.
Entropy là 1 nếu tập hợp chứa số lượng bằng nhau các thành viên thuộc lớp
dương và lớp âm. Nếu các số này là khác nhau, entropy sẽ nằm giữa 0 và 1.



Tập hạn chế: cho S là tập mẫu dữ liệu huấn luyện. Tập hạn chế trên S, ký hiệu
là SA = v được xác định như sau :


Ta ký hiệu SA=v là: Sv

b. Information Gain: Đo độ quan trọng của một thuộc tính

Page 8

Trong đó:
A: thuộc tính
S: tập giá trị trong bộ dữ liệu
Value(A): tập các giá trị khác nhau của A
Sv: một tập con chứa các giá trị v của S
Trong quá trình xây dựng cây quyết định theo thuật toán ID3 tại mỗi bước triển
khai cây, thuộc tính được chọn để triển khai là thuộc tính có giá trị Gain lớn nhất.
Ví dụ: cho bảng dữ liệu huấn luyện S, hãy sinh cây quyết định bằng giải thuật ID3

Bước 1. Tính IE(S) = -(3/8)log2(3/8) – (5/8)log2(5/8)= ~ 0.954
Bước 2: Tính IG cho các thuộc tính:
IG (vóc dáng)
V ϵ { nhỏ, lớn};

Gain (S, Vóc dáng)= IG (S, Vóc dáng)= 0.954 - (0.5*1+0.811*0.5)=0.049
Tương tự ta tính được:
IG (Quốc tịch)= 0.204 ;
IG (Gia cảnh)= 0.347; giá trị IG cao nhất chọn làm nút gốc.

Page 9

Bước 3: Tạo nút gốc cho cây, thuộc tính trên nút gốc Gia cảnh

Hình 4. Tạo nút gốc gia cảnh
Bước 4: Loại bỏ thuộc tính gia cảnh và tạo bảng dữ liệu mới

Tính lại IE (Sgia cảnh) = -2/5log22/5- 3/5log23/5= 0.971

Tính IG (vóc dáng)= 0.971- (2/5*1+3/5*0.981)=0.020
Tính IG (Quốc tịch)= 0.971-(2/5*0+1/5*0+2/5*0)= 0.971

Page 10

Hình 5. Cây quyết định
2.2.3

Sử dụng cây quyết định để phân lớp dữ liệu
Quy trình:

Step 1: Tạo cây quyết định từ dữ liệu huấn luyện

Page 11

Step2: Dựa vào cây quyết định để phân lớp cho bộ dữ liệu mới cần phân lớp.
Ví dụ: cho bảng dữ liệu huấn luyện S
Tuổi

Thu nhập

Sinh viên

Đánh giá độ tín
nhiệm (trong tín
dụng mua chịu)

Thanh niên

Cao

Không

Trung bình

Không

Thanh niên

Cao

Không

Tốt

Không

Trung niên

Cao

Không

Trung bình

Có

Già

Trung bình

Không

Trung bình

Có

Già

Thấp

Có

Trung bình

Có

Già

Thấp

Có

Tốt

Không

Trung niên

Thấp

Có

Tốt

Có

Thanh niên

Trung bình

Không

Trung bình

Không

Thanh niên

Thấp

Có

Trung bình

Có

Già

Trung bình

Có

Trung bình

Có

Thanh niên

Trung bình

Có

Tốt

Có

Trung niên

Trung bình

Không

Tốt

Có

Trung niên

Cao

Có

Trung bình

Có

Già

Trung bình

Không

Tốt

không

Mua máy tính

Phân lớp dữ liệu sau:
Thanh niên

Thấp

Không

Tốt

?

Step 1:
Bước 1: Tính IE(S) = -(9/14)log2(9/14) – (5/14)log2(5/14)= 0.940
Bước 2:Tính IG cho các thuộc tính:
•

IG (Tuổi)

Vϵ{ thanh niên, trung niên, già};

Page 12

•

IG (thu nhập)

Vϵ{ cao, trung bình, thấp};

•

IG (sinh viên)

Vϵ{ có, không};

•

IG (Độ tín nhiệm)

Vϵ{ tốt, trung bình};

Bước 3:Ta thấy Gain (S, tuổi) là lớn nhất →chọn thuộc tính “Tuổi” làm nút gốc.

Tuổi

Thanh niên

Trung niên

Già

có
Page 13

Bước 4: tạo bảng dữ liệu mới
Tuổi

Thu nhập

Sinh viên

Đánh giá độ tín
nhiệm (trong tín
dụng mua chịu)

Thanh niên

Cao

Không

Trung bình

Không

Thanh niên

Cao

Không

Tốt

Không

Già

Trung bình

Không

Trung bình

Có

Già

Thấp

Có

Trung bình

Có

Già

Thấp

Có

Tốt

Không

Thanh niên

Trung bình

Không

Trung bình

Không

Thanh niên

Thấp

Có

Trung bình

Có

Già

Trung bình

Có

Trung bình

Có

Thanh niên

Trung bình

Có

Tốt

Có

Già

Trung bình

Không

Tốt

không

Mua máy tính

Bước 5: lặp lại step 2-4
•

Xét nhánh Thanh niên:

Gain là lớn nhất trong nhánh Thanh niên.

Tuổi

Page 14

Thanh niên

Có

Già

có

Sinh viên

Có

Trung niên

không

không
•

Xét nhánh Già

Gain là lớn nhất trong nhánh “Già” lấy thuộc tính độ tin cậy làm nút kế tiếp để
phân chia.

Tuổi

Thanh niên

Có

Già

có

Sinh viên
Có

Trung niên

không

Không

Độ tin cậy
Trung bình

Có

Tốt

Không

 Luật rút ra từ cây quyết định


Luật 1: If (Tuổi= Thanh niên) and (Sinh viên = Có) Then (Mua máy tính = Có)

Page 15

Luật 2: If (Tuổi= Thanh niên) and (Sinh viên = không) Then (Mua máy tính =
Không)
 Luật 3: If (Tuổi= Trung niên) Then (Mua máy tính = Có)
 Luật 4: If (Tuổi= Già) and (Độ tin cậy = Tốt) Then (Mua máy tính = Có)
 Luật 5: If (Tuổi= Già) and (Độ tin cậy = Trung bình) Then (Mua máy tính =
Không)


Step 2: Sử dụng cây quyết định để phân lớp đối tượng mới
Thanh niên

Thấp

Không

Tốt

Dựa vào cây quyết định ở trên, dữ liệu mới cần phân lớp được phân vào lớp
“Không”
Luật rút ra từ cây quyết định:
If (Tuổi= Thanh niên) and (Sinh viên = Không) Then (Mua máy tính = Không)
2.2.4

Ưu điểm, nhược điểm của thuật toán ID3
Ưu điểm
- Sử dụng thuật tìm kiếm leo đồi (Hill -climbing) dựa trên giá trị Gain để
tìm kiếm các thuộc tính trong toàn bộ cây quyết định.
- Đầu ra (Output) chỉ là một giả thuyết đơn (1 kết quả duy nhất).
- Sử dụng dữ liệu huấn luyện ở từng bước, trái ngược với những thuật giải
phát triển mở rộng cây quyết định (có thể hạn chế được kích thước cây
không quá lớn).
- Sử dụng các thuộc tính tĩnh: hạn chế tối đa lỗi cho những bản ghi dữ
liệu riêng lẻ, có thể ảnh hưởng tới toàn bộ dự án.
- Kiểm soát được dữ liệu rác, dữ liệu tạp bên ngoài bằng cách giảm bớt
yêu cầu tiêu chuẩn cho việc chấp nhận những dữ liệu chưa hoàn chỉnh.
 Nhược điểm
- Không xử lý các thuộc tính có kiểu giá trị liên tục (kiểu số thực).
- Không thích ứng được với những tập dữ liệu phức tạp (dễ phát sinh lỗi)
- Không hiệu quả khi xuất hiện những dữ liệu không mong muốn.
- Cây quyết định khi sinh ra lớn, rườm rà, chưa được tối ưu ở mức tối đa

có thể.
- Không có khả năng xử lý các ví dụ học thiếu giá trị thuộc tính.


Page 16

Chương 3. MÔ PHỎNG THUẬT TOÁN ID3 TRÊN
WEKA
3.1 Giới thiệu về weka
3.1.1 giới thiệu weka
Weka được phát triển bởi trường Đại học Waikato và là tên viết tắt của Waikato
Environment for Knowledge Analysis, hệ thống này được viết bằng ngôn ngữ Java.
Nó cung cấp một giao diện thống nhất với nhiều thuật toán khác nhau, cùng với các
phương pháp cho việc xử lý trước, xử lý sau và dành cho việc đánh giá kết quả của
các sơ đồ học trên bất kỳ tập dữ liệu cho trước nào.
Giao diện chính của phần mềm weka

Page 17

3.1.2 Các chức năng của weka, dữ liệu của weka
 Explorer: Môi trường cho phép sử dụng tất cả các khả năng của weka để khám
phá dữ liệu như :
- Tiền xử lý dữ liệu.
- Khai thác luật kết hợp.
- Phân lớp.
- Gom nhóm.

Hình 4. Giao diện Explorer

Experimenter: Cho phép người dùng thực hiện những bài tập cơ bản khi ứng dụng
phân lớp và kĩ thuật hồi quy, với những công việc có giá trị, phương pháp và tham số
tốt nhất cho vấn đề đã cho. Cho phép bạn tự động hóa xử lý, làm cho nó phân lớp và
lọc dễ dàng với những cách thiết lập tham số khác nhau trên toàn bảng dữ liệu.

Page 18

Hình 5. Giao diện Experimenter
Kết nối thông tin:
ArffViewer: là ứng dụng con trình bày nội dung tập dạng *.ARFF thành bảng
dữ liệu
 SqlViewer: cho phép kết nối với cơ sở dữ liệu (Mysql, PostGre…) và truy vấn
để lấy thông tin


Hình 6. Giao diện Tools
Biểu diễn trực quan: weka hỗ trợ người dùng biểu diễn trực quan dữ liệu qua những
dạng biểu đồ thông dụng: biểu đồ trục, đồ thị, biểu đồ cây…

Page 19

Hình 7. Giao diện Visualize
Dữ liệu của weka là các tập tin văn bản (text) có đuôi *.ARFF, gồm thành phần:
Header: chứa khai báo quan hệ, danh sách các thuộc tính (tên, kiểu dữ
liệu).
• Data: gồm nhiều dòng, mỗi dòng thể hiện giá trị các thuộc tính cho mẫu.
•

3.1.3 Môi trường chính của weka (Explorer)
Preprocess: Tiền xử lý dữ liệu hiển thị các dữ liệu đang xét




Tập dữ liệu: tên, số mẫu, số thuộc tính.
Các thuộc tính: tên, kiểu dữ liệu, giá trị thuộc tính, tỷ lệ %...
Biểu đồ minh họa thông tin.

Page 20

Hình 8. Giao diện tiền xử lý dữ liệu của Explorer
Classify: phân lớp cung cấp rất nhiều thuật toán được gom thành các nhóm dựa
trên cơ sở lý thuyết hoặc chức năng, như Bayes, Cây quyết định (Id3, C45,J48)…

Hình 9. Giao diện mục phân lớp của Explorer

Page 21

Associate: Khai thác luật kết hợp, cung cấp các thuật toán: Apriori,
PredictiveApriori (là cải tiến của thuật toán Apriori).

Hình 10. Giao diện mục khai thác luật kết hợp
Cluster: Phân cụm, cung cấp các thuật toán Kmean, EM, DBSCan…

Page 22

Hình 11. Giao diện mục phân cụm
3.2 Chuẩn bị bộ dữ liệu và cách thực hiện trên weka
Chuẩn bị bộ dữ liệu có tên là “Shape.Arff” trong thư mục weka ngoài màn
hình Desktop.
• Cách thực hiện trên weka với Explorer.
- Tại giao diện chính weka chọn Explorer →giao diện Explorer xuất hiện.
- Trong tab Preprocess →Open file, chọn tới đường dẫn chưá thư mục
“Shape.Arff”.
- Chọn tab Classify → chọn ID3 → Start.
• Cách thực hiện trên weka với KnowledgeFlow
- Tại giao diện chính weka chọn KnowledgeFlow →giao diện
KnowledgeFlow xuất hiện. Ta kéo thả các hộp tượng trưng cho giải
thuật ID3.
- Chọn DataSources → ArffLoader, tại đây ta sẽ phải chọn dữ liệu là
“Shape.Arff”.
- Mục Evaluation → TrainingSetMaker, ClassAssigner,
ClassifierPerformanceEvaluator.
- Mục Classifiers → J48
- Mục Visualization →TextViewer và GraphViewer.
•

3.3 Một số kết quả đạt được

Hình 12. Kết quả khi thực hiện dữ liệu trên Explorer

Page 23

Hình 13. Thực hiện dữ liệu trên KnowledgeFlow

Hình 14. Kết quả thực hiện dữ liệu trên KnowledgeFlow dạng Text

Page 24

Hình 15. Kết quả thực hiện dữ liệu trên KnowledgeFlow dạng Graph Viewer

Page 25

phân lớp dựa vào cây quyết định giải thuật ID3

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về