lOMoARcPSD|17343589
TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
KHOA CÔNG NGHỆ THÔNG TIN
BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN
KHAI PHÁ DỮ LIỆU
ĐỀ TÀI:
KHAI PHÁ DỮ LIỆU SỬ DỤNG VÉC-TƠ HỖ TRỢ (SVM) PHÂN LỚP
SỨC KHỎE BÀO THAI, XÁC ĐỊNH ĐỘ PH VÀ PHÂN LOẠI ĐỘNG
VẬT TRONG SỞ THÚ
Sinh viên thực hiện
: NGUYỄN XUÂN VIỆT
ĐÀO ĐỨC THẮNG
NGUYỄN HỮU VIỆT
Giảng viên hướng dẫn : VŨ VĂN ĐỊNH
Ngành
: CƠNG NGHỆ THƠNG TIN
Chun ngành
: HTTMDT
Lớp
: D13HTMDT1
Khóa
: 2018-2023
Hà Nội, ngày … tháng … năm 2021
lOMoARcPSD|17343589
PHIẾU CHẤM ĐIỂM
Sinh viên thực hiện
Họ và tên
Nguyễn Xuân Việt
18810340718
Đào Đức Thắng
Nguyễn Hữu Việt
Chữ ký
Ghi Chú
lOMoARcPSD|17343589
MỤC LỤC
LỜI CẢM ƠN............................................................................................................1
CHƯƠNG 1. TỔNG QUAN ĐỀ TÀI.......................................................................2
1.1. Đặt vấn đề........................................................................................................2
1.1.1. Các khái niệm cơ bản của khai phá dữ liệu.............................................2
1.1.1.1. Khai phá dữ liệu...................................................................................2
1.1.1.2. Các bước khai phá dữ liệu...................................................................2
1.1.1.3. Ứng dụng khai phá dữ liệu..................................................................3
1.2. Tiền xử lý dữ liệu.............................................................................................3
1.2.1. Dữ liệu.........................................................................................................4
1.2.2. Làm sạch dữ liệu (data cleaning/cleansing)............................................4
1.2.3. Tích hợp dữ liệu (data integration)...........................................................4
1.2.4. Biến đổi dữ liệu (data transformation).....................................................4
1.2.5. Thu giảm dữ liệu (data reduction)............................................................4
1.3. Phương pháp xử lý...........................................................................................5
1.3.1. Phân lớp dữ liệu.......................................................................................5
1.3.2. Phân cụm..................................................................................................5
1.3.3. Luật kết hợp.............................................................................................6
1.3.4. Hồi quy tuyến tính...................................................................................6
CHƯƠNG 2. PHÂN TÍCH VÀ THIẾT KẾ BÀI TOÁN..........................................7
2.1. Tổng quan về véc-tơ hỗ trợ SVM.......................................................................7
2.2. Thuật tốn SVM.................................................................................................7
2.2.1. Mơ hình tốn học........................................................................................7
2.2.2. Độ chính xác của thuật tốn......................................................................9
2.2.3. Nghiệm của tht tốn...............................................................................9
2.3. Mơ tả bài toán...................................................................................................10
2.3.1. Dữ liệu “Fetal_health.csv”.......................................................................10
lOMoARcPSD|17343589
2.3.1.1. Phát biểu bài toán...............................................................................10
2.3.1.2. Yêu cầu................................................................................................10
2.3.1.3. Bộ dữ liệu............................................................................................10
2.3.2. Dữ liệu “Zoo.csv”......................................................................................12
2.3.3. Dữ liệu “ph-data.csv”............................................................................13
CHƯƠNG 3. THỰC NGHIỆM...............................................................................15
KẾT LUẬN.............................................................................................................20
lOMoARcPSD|17343589
DANH MỤC HÌNH ẢNH
Hình 1.2.1. Ví dụ datase..................................................................................................................4
Hình 2.1. Ví dụ về margin............................................................................................................... 7
Hình 2.2. Mơ hình dữ liệu được phân lớp với véc-tơ hỗ trợ.................................................................8
Hình 2.3.1.3. Bộ dữ liệu Fetal health..............................................................................................12
Hình 2.3.2. Dữ liệu “zoo.csv”........................................................................................................13
Hình 2.3.3. Dữ liệu “ph-data.csv”...................................................................................................14
Hình 3.1.1 Dữ liệu “fetal_health.csv”.............................................................................................16
Hình 3.1.2. Kết quả phân lớp dữ liệu..............................................................................................16
Hình 3.2.1. Dữ liệu “zoo.csv”........................................................................................................17
Hình 3.2.2. Kết quả phân lớp dữ liệu..............................................................................................18
Hình 3.3.1. Dữ liệu “ph-data”........................................................................................................19
Hình 3.3.2. Kết quả phân lớp dữ liệu..............................................................................................19
lOMoARcPSD|17343589
LỜI CẢM ƠN
Nhóm chúng em xin chân thành cảm ơn các thầy, cô giáo trong Khoa Công
nghệ thông tin, trường Đại học Điện Lực, đã tạo điều kiện cho em thực hiện đề tài
này.
Để có thể hồn thành báo cáo đề tài “Khai phá dữ liệu sử dụng véc-tơ hỗ
trợ(SVM) phân loại sức khỏe bào thai, độ ph và phân loại động vật trong sở thú”,
nhóm em xin gửi lời cảm ơn chân thành nhất tới thầy VŨ VĂN ĐỊNH, đã truyền
đạt, giảng dạy cho chúng em những kiến thức, những kinh nghiệm qúy báu trong
thời gian học tập và rèn luyện, tận tình hướng dẫn chúng em trong quá trình làm
báo cáo này.
Nhóm em cũng gửi lời cảm ơn tới bạn bè đã đóng góp những ý kiến quý báu
để nhóm em có thể hồn thành báo cáo tốt hơn.
Tuy nhiên, do thời gian và trình độ có hạn nên báo cáo này chắc chắn không
tránh khỏi những thiếu sót, nhóm em rất mong được sự đóng góp ý kiến của các
thầy và toàn thể các bạn.
Một lần nữa, em xin chân thành cảm ơn và luôn mong nhận được sự đóng
góp quý báu của tất cả mọi người.
Nhóm sinh viên thực hiện
Nguyễn Xuân Việt
Nguyên Hữu Việt
Đào Đức Thắng
1
lOMoARcPSD|17343589
CHƯƠNG 1. TỔNG QUAN ĐỀ TÀI
1.1.
Đặt vấn đề
Ứng dụng công nghệ thông tin vào việc lưu trữ và xử lý thông tin ngày nay
được áp dụng hầu hết trong lĩnh vực, điều này đã tạo ra một lượng lớn dữ liệu được
lưu trữ với kích thước tăng lên khơng ngừng. Đây chính là điều kiện tốt cho việc
khai thác kho dữ liệu để đem lại tri thức có ích với các công cụ truy vấn, lập việc
khai thác kho dữ liệu để đem lại tri thức có ích với các công cụ truy vấn, lập bẳng
biểu và khai phá dữ liệu.
Khai phá dữ liệu là một kỹ thuật dựa trên nền tảng của nhiều lý thuyết như
xác xuất, thống kê, máy học nhằm tìm kiếm các tri thức tiềm ẩn trong các kho dữ
liệu có kích thước lớn mà người dùng khó có thể nhận biết bằng những kỹ thuật
thơng thường. Nguồn dữ liệu y khoa rất lớn, nếu áp dụng khai phá dữ liệu trong
lĩnh vực này sẽ mang lại nhiều ý nghĩa cho ngành y tế. Nó sẽ cung cấp những
thông tin quý giá nhằm hỗ trợ trong việc chuẩn đoán và điều trị sớm giúp bệnh
nhân thoát được nhiều căn bệnh hiểm nghèo.
Ứng dụng sử dụng véc-tơ hỗ trợ (svm) trong khai phá dữ liệu nhằm xây
dựng hệ thống chuẩn đoán là một trong những hướng nghiên cứu chính của đề tài.
Sau khi phân tích một số thuật toán cũng như đặc điểm của dữ liệu thu nhập được
về số lượng của sản phẩm và phân loại hình, đề tài đề xuất ứng dụng mơ hình phân
lớp dữ liệu bằng SVM để tìm ra quy luật tìm ẩn trong dữ liệu.
1.1.1. Các khái niệm cơ bản của khai phá dữ liệu
1.1.1.1. Khai phá dữ liệu
Khai phá dữ liệu (data mining) hay khai phá dữ liệu từ tri thức (knowledge
discovery from data) là việc trích rút ra được các mẫu hoặc tri thức quan trọng từ
một lượng dữ liệu rất lớn.
1.1.1.2. Các bước khai phá dữ liệu
Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề (Problem
understanding and data understanding).
Chuẩn bị dữ liệu (Data preparation), bao gồm các quá trình làm sạch dữ liệu
(data cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu (data selection),
biến đổi dữ liệu (data transformation).
Khai thác dữ liệu (Data mining): xác định nhiệm vụ khai thác dữ liệu và lựa
chọn kỹ thuật khai thác dữ liệu. Kết quả cho ta một nguồn tri thức thô.
2
lOMoARcPSD|17343589
Đánh giá (Evaluation): dựa trên một số tiêu chí tiến hành kiểm
tra và lọc nguồn tri thức thu được.
Triển khai (Deployment).
Q trình khai thác tri thức khơng chỉ là một quá trình tuần tự từ bước đầu
tiên đến bước cuối cùng mà là một q trình lặp và có quay trở lại các bước đã qua.
1.1.1.3. Ứng dụng khai phá dữ liệu
Kinh tế - ứng dụng trong kinh doanh, tài chính, tiếp thị bán hàng, bảo hiểm,
thương mại, ngân hàng,.. Đưa ra các bản báo cáo giàu thông tin, phân tích rửi ro
trước khi đưa ra các chiến lược kinh doanh, sản xuất, phân loại khách hàng từ đó
phân định ra thi trường, thị phân:…
Khoa học: Thiên văn học - dự đốn đường đi các thiên thể, hành tinh,...;
Cơng nghệ sinh học – tìm ra các gen mới, cây con giống mới,…
Web: các cơng cụ tìm kiếm.
1.2.
Tiền xử lý dữ liệu
Q trình xử lý dữ liệu thơ/gốc (raw/original data) nhằm cải thiện chất lượng
dữ liệu (quality of the data) và từ đó cải thiện chất lượng của kết quả khai phá. Quá
trình tiền xử lý dữ liệu, đầu tiên phải nắm được dạng dữ liệu, thuộc tính, mơ tả của
dữ liệu khai thác. Sau đó tiếp hành 4 giai đoạn chính: làm sạch, tích hợp, biến đổi,
thu giảm dữ liệu.
Hình 1.2. Hình ảnh về tri thức
3
lOMoARcPSD|17343589
1.2.1. Dữ liệu
-Một tập dữ liệu (dataset) là một tập các đối tượng (object) và các thuộc tính
của chúng.
-Mỗi thuộc tính (attribute) mơ tả một đặc điểm của một đối tượng.
Hình 1.2.1. Ví dụ datase
1.2.2. Làm sạch dữ liệu (data cleaning/cleansing)
Đối với dữ liệu thu nhập được,cần xác định các vấn đề ảnh hưởng là cho nó
khơng sạch.Bởi vậy, dữ liệu khơng sạch(có chưá lỗi, nhiễu, khơng đầy đủ, những
dự liệu khơng nhất qn) thì các tri thức khám phá được sẽ bị ảnh hưởng và không
đáng tin cậy,sẽ dẫn đến các quyết định khơng chính xác. Do đó, cần gán các giá trị
thuộc tính cịn thiếu,sửa chữa các dữ liệu nhiễu/lỗi, xác định hoặc loại bỏ các ngoại
lai,giải quyết các mâu thuẫn dữ liệu.
1.2.3. Tích hợp dữ liệu (data integration)
Tích hợp dữ liệu là q trình trộn dữ liệu từ các nguồn khác nhau vào một
kho dữ liệu có sẵn cho quá trình khai phá dữ liệu.
Yêu cầu chung đối với tích hợp là giảm thiếu (tránh được là tốt nhất) các dư
thừa và các mâu thuẫn. Giúp cải thiện mâu thuẫn của quá trình khai phá dữ liệu và
nâng cao chất lượng của các kết quả tri thức thu được.
1.2.4. Biến đổi dữ liệu (data transformation)
Biến đổi dữ liệu là việc chuyển toàn bộ tập giá trị của một thuộc tính sang
một tập các giá trị thay thế, sao cho mỗi giá trị cũ tương ứng với một trong các giá
trị mới.
4
lOMoARcPSD|17343589
1.2.5. Thu giảm dữ liệu (data reduction)
Một kho dữ liệu lớn có thể chứa lượng dữ liệu lên đến terabytes sẽ làm cho
quá trình khai phá dữ liệu chạy rất mất thời gian, do đó nên thu giảm dữ liệu.
Việc thu giảm dữ liệu sẽ thu được một biểu diễn thu gọn, mà nó vẫn sinh ra
cùng (hoặc xấp xỉ) các kết quả khai phá như tập dữ liệu ban đầu.
1.3. Phương pháp xử lý
Khai phá dữ liệu là một chuyên ngành rất rộng và có rất nhiều hướng nghiên
cứu bài toán khác nhau. Tuy nhiên, chúng được tiếp cận theo các hướng chính sau:
1.3.1. Phân lớp dữ liệu
Phân lớp dữ liệu là việc xây dựng một mơ hình mà có thể phân các đối
tượng thành những lớp để dự đốn giá trị bị mất tại một số thuộc tính của dữ liệu
hay tiêu đoán giá trị của dữ liệu sẽ xuất hiện trong tương lai.
Quá trình gồm 2 bước:
- Bước học (giai đoạn huấn luyện): xây dựng bộ phân loại (classifier) bằng
việc phân tích/ học tập huấn luyện.
- Bước phân loại (classification): phân loại dữ liệu/đối tượng mới nếu mức
độ chính xác của bộ phận phân loại được đánh giá là có thể chấp nhận
được.
Các giải thuật phân loại dữ liệu:
- Phân loại dữ liệu với cây quyết định (decision tree)
- Phân loại dữ liệu với mạng Bayesian
- Phân loại dữ liệu với mạng neural
- Phân loại dữ liệu với k phần tử gần nhất (k-nearest neighbor)
- Phân loại dữ liệu với SVM…
1.3.2. Phân cụm
Phân cụm là việc nhóm một tập các đối tượng có cùng đặc điểm giống nhau
hay gần giống nhau vào cùng một nhóm.
Các đối tượng trong cùng một nhóm tương tự với nhau hơn so với đối tượng
ở cụm khác. Phương pháp phân cụm hỗ trợ giai đoạn tiền xử lý dữ liệu, mô tả sự
phân bố dữ liệu/đối tượng…
Các phương pháp phân cụm phổ biến:
- Phân hoạch(partitioning): các phân hoạch được tạo ra và đánh giá theo một
tiêu chí nào đó.
- Phân cấp(hierarchical): phân rã tập dữ liệu/đối tượng có thứ tự phân cấp theo
một tiêu chí nào đó.
5
lOMoARcPSD|17343589
- Dựa trên cấp độ (density-based): dựa trên connectivity and density functions
- Dựa trên lưới (grid-based): dựa trên multiple-level granularity structure
- Dựa trên mơ hình (model-based): một mơ hình giả thuyết được tạo ra cho
mỗi cụm; sau đó hiệu chỉnh các thơng số để mơ hình phù hợp với cụm dữ
liệu/đối tượng nhất……
1.3.3. Luật kết hợp
Là quá trình khám phá các tập giá trị thuộc tính xuất hiện phổ biến trong các
đối tượng dữ liệu. Từ tập phổ biến có thể tạo ra các luật kết hợp giữa các giá trị
thuộc tính trong tập các đối tượng.
1.3.4. Hồi quy tuyến tính
Phương pháp hồi quy được sử dụng để đưa ra các dự báo dựa trên các dữ
liệu đang tồn tại bằng các áp dụng các công thức. Một hàm sẽ được học ra từ bộ dữ
liệu hiện có bằng cách sử dụng các kỹ thuật hồi quy và tuyến tính từ việc thống kê.
Sau đó, dữ liệu mới sẽ căn cứ vào hàm này để đưa ra những dự đoán.
Trong bài báo cáo này bọn em chọn phương pháp phân cụm bởi vì nó là một
thuật tốn tuy đơn giản nhưng lại khá hiệu quả và được sử dụng rộng khắp. Nó sẽ
khai phá cấu trúc của mẫu dữ liệu để thành lập các nhóm dữ liệu từ tập dữ liệu lớn,
cho phép đi sâu vào phân tích và nghiên cứu cho từng cụm dữ liệu này nhằm khai
phá và tìm kiếm các thơng tin tiềm ẩn, hữu ích phục vụ cho ra quyết định.
6
lOMoARcPSD|17343589
CHƯƠNG 2. PHÂN TÍCH VÀ THIẾT KẾ BÀI TỐN
2.1. Tổng quan về véc-tơ hỗ trợ SVM
SVM là viết tắt của Support Vector Machine, đây là một thuật tốn giúp tìm
ra một siêu phẳng phân cách tối ưu để có thể phân chia dữ liệu tuyến tính ra làm
hai lớp khác nhau. . Hình bên dưới là một ví dụ về siêu mặt phẳng phân chia dữ
liệu (từ giờ tôi sẽ viết gọn là margin).
Hình 2.1. Ví dụ về margin
Trình bày một tập dữ liệu đơn giản với hai đặc tính (tọa độ x và y) được gán
thành hai nhóm (hình tam giác và hình chữ thập) và tách thành hai vùng riêng biệt,
có thể đại diện cho các cổ phiếu có lợi nhuận dương và âm trong một năm nhất
định. Dữ liệu được phân tách tuyến tính và bất kỳ đường thẳng nào được hiển thị
sẽ được gọi là phân loại tuyến tính - một phân loại nhị phân dựa trên sự kết hợp
tuyến tính đặc trưng của từng điểm dữ liệu.
2.2. Thuật tốn SVM
2.2.1. Mơ hình tốn học
Máy vectơ hỗ trợ xây dựng một siêu phẳng hoặc tập hợp các siêu phẳng
trong không gian chiều cao hoặc vô hạn, có thể được sử dụng để phân loại, hồi quy
7
lOMoARcPSD|17343589
hoặc các tác vụ khác. Theo trực quan, một siêu mặt phẳng có khoảng cách lớn nhất
đến các điểm dữ liệu huấn luyện gần nhất của bất kỳ lớp nào (cịn gọi là lề chức
năng), vì nói chung, lề càng lớn thì lỗi tổng quát của bộ phân loại càng thấp. Hình
bên dưới cho thấy hàm quyết định cho một bài tốn có thể phân tách tuyến tính,
với ba mẫu trên ranh giới lề, được gọi là “vectơ hỗ trợ”:.
Hình 2.2. Mơ hình dữ liệu được phân lớp với véc-tơ hỗ trợ
Cho vectơ đào tạo xi∈Rp, i = 1,…, n, trong hai lớp và một vectơ y∈{1,−1}n, mục
tiêu của chúng tơi là tìm w∈Rp và b∈R sao cho dự đốn được đưa ra
bởi sign(wTϕ(x)+b) là chính xác cho hầu hết các mẫu.
SVC giải quyết vấn đề cơ bản sau:
Theo trực giác, chúng tơi đang cố gắng tối đa hóa lợi nhuận (bằng cách giảm
thiểu ||w||2=wTw), đồng thời phải chịu một hình phạt khi một mẫu bị phân loại sai
hoặc nằm trong ranh giới ký quỹ. Lý tưởng nhất là giá trịyi(wTϕ(xi)+b) sẽ
là ≥1cho tất cả các mẫu, điều này cho thấy một dự đốn hồn hảo. Nhưng các vấn
đề thường khơng phải lúc nào cũng có thể phân tách hồn hảo với siêu phẳng, vì
vậy chúng tơi cho phép một số mẫu ở khoảng cách xaζitừ ranh giới ký quỹ chính
8
lOMoARcPSD|17343589
xác của họ. Điều khoản hình phạt Ckiểm sốt thời gian của hình phạt này, và kết
quả là, hoạt động như một tham số quy định ngược (xem lưu ý bên dưới).
Vấn đề kép đối với nguyên thủy là
với k1, k2, …, kn là chỉ số các dữ liệu thuộc cụm thứ k. Các bước trên được lặp lại
cho tới khi vị trí các trung tâm cụm khơng đổi sau một bước lặp nào đó.
2.2.2. Độ chính xác của thuật toán
Hàm mất mát của thuật SVM đặc trưng cho độ chính xác của nó sẽ càng
ngày càng lớn khi khoảng cách từ mỗi điểm dữ liệu tới siêu mặt phẳng càng lớn.
2.2.3. Nghiệm của thuât toán
Bài toán tối ưu trong SVM chính là bài tốn tìm ww và bb sao cho margin này đạt
giá trị lớn nhất. Khi đó hàm quyết định phân dữ liệu vào lớp thứ i của tập n , 2-Iớp
sẽ là:
2.2.4. Tóm tắt thuật tốn
9
Downloaded by v? ngoc ()
lOMoARcPSD|17343589
Phương pháp SVM yêu cầu dữ liệu đƣợc diễn tả nhƣ các vector của các số
thực. Nhƣ vậy nếu đầu vào chƣa phải là số thì ta cần phải tìm cách chuyển
chúng về dạng số của SVM Tiền xử lý dữ liệu: Thực hiện biến đổi dữ liệu phù
hợp cho q trình tính tốn, tránh các số q lớn mơ tả các thuộc tính. Thƣờng
nên co giãn (scaling) dữ liệu để chuyển về đoạn [-1, 1] hoặc [0, 1]. Chọn hàm
hạt nhân: Lựa chọn hàm hạt nhân phù hợp tƣơng ứng cho từng bài toán cụ thể
để đạt đƣợc độ chính xác cao trong q trình phân lớp. Thực hiện việc kiểm tra
chéo để xác định các thám số cho ứng đụng. Điều này cũng quyết định đến tính
chính xác của quá trình phân lớp. Sử dụng các tham số cho việc huấn luyện với
tập mẫu. Trong quá trình huấn luyện sẽ sử dụng thuật tốn tối ƣu hóa khoảng
cách giữa các siêu phẳng trong quá trình phân lớp, xác định hàm phân lớp trong
không gian đặc trƣng nhờ việc ánh xạ dữ liệu vào không gian đặc trƣng bằng
cách mô tả hạt nhân, giải quyết cho cả hai trƣờng hợp dữ liệu là phân tách và
không phân tách tuyến tính trong khơng gian đặc trƣng. Kiểm thử tập dữ liệu
Test
2.3. Mơ tả bài tốn
2.3.1. Dữ liệu “Fetal_health.csv”
2.3.1.1. Phát biểu bài toán
Dự báo sức khỏe bao thai dựa trên các số liệu về nhịp tim, huyết áp,..
- Giá trị input là một ma trận 2126x22. Bao gồm kết quả của máy chụp tim (CTG).
Bản thân thiết bị hoạt động bằng cách gửi các xung siêu âm và đọc phản ứng của
nó, do đó làm sáng tỏ nhịp tim thai nhi (FHR), chuyển động của thai nhi, các cơn
co thắt tử cung và hơn thế nữa.
- Giá trị output là các lớp sức khỏe của bào thai bao gồm 3 lớp: Bình thường, nghi
can, có bệnh lý.
2.3.1.2. u cầu
- Lấy dữ liệu
- Trích chọn đặc trưng từ tập dữ liệu lấy được
- Xử lý, làm sạch dữ liệu
- Tiến hành phân lớp
10
Downloaded by v? ngoc ()
lOMoARcPSD|17343589
- Dữ liệu hoá đồ thị
2.3.1.3. Bộ dữ liệu
Bộ dữ liệu bao gồm 22 thuộc bao gồm:
- baseline_value: giá trị vạch biên
- accelerations: tốc độ phát triển
- fetal_movement: sự chuyển động của bào thai
- uterine_contractions: cơn co của tử cung
- light_decelerations: sự giảm nhẹ
- severe_decelerations: sự giảm nghiêm trọng
- prolongued_decelerations: sự giảm kéo dài
- abnormal_short_term_variability: sự thay đổi ngắn hạn bất thường
- mean_value_of_short_term_variability: giá trị trung bình của sự biến đổi
ngắn hạn
- percentage_of_time_with_abnormal_long_term_variability: tỷ lệ thời gian
với sự biến đổi lâu dài bất thường
- mean_value_of_long_term_variability: giá trị trung bình của biến thiên dài
hạn
- histogram_width: biểu đồ chiều rộng
- histogram_min: biểu đồ giá trị nhỏ nhất
- histogram_max: biểu đồ giá trị lớn nhất
- histogram_number_of_peaks: biểu đồ số đỉnh
- histogram_number_of_zeroes: số lượng biểu đồ của số 0
- histogram_mode: biểu đồ dáng
- histogram_mean: biểu đồ trung bình cộng
- histogram_median: biểu đồ trung bình
11
Downloaded by v? ngoc ()
lOMoARcPSD|17343589
- histogram_variance: phương sai biểu đồ
- histogram_tendency: xu hướng biểu đồ
- fetal_health: sức khỏe thai nhi gồm 3 kết quả:
o 1 là sức khỏe bình thường
o 2 là có nghi can bệnh lí
o 3 là thai nhi mang bệnh lí
Bộ dữ liệu khơng có thuộc tính bị thiếu.
Hình 2.3.1.3. Bộ dữ liệu Fetal health
2.3.2. Dữ liệu “Zoo.csv”
Số thuộc tính: 18 bao gồm cả animal_name cộng với thuộc tính lớp, tất cả
các thuộc tính có giá trị.
Thơng tin thuộc tính:
- animal_name: tên gọi của lồi vật đó
- hair(long): có hoặc khơng
12
Downloaded by v? ngoc ()
lOMoARcPSD|17343589
- feathers(lơng vũ): có hoặc khơng
- eggs(trứng): Magie (đơn vị đo: phần trăm trọng lượng trong oxit tương ứng)
- milk(sữa): nhôm (đơn vị đo: phần trăm trọng lượng trong oxit tương ứng)
- airborne(khả năng bay): Silicon (đơn vị đo: phần trăm trọng lượng trong oxit
tương ứng)
- aquatic(thủy sinh): Kali (đơn vị đo: phần trăm trọng lượng trong oxit tương
ứng)
- predator(động vật ăn thịt): Calxi (đơn vị đo: phần trăm trọng lượng trong
oxit tương ứng)
- toothed(có răng): Bari (đơn vị đo: phần trăm trọng lượng trong oxit tương
ứng)
- backbone(xương sống): Sắt (đơn vị đo: phần trăm trọng lượng trong oxit
tương ứng)
- breathes(sự thở):
- venomous(nọc độc):
- fins(vây):
- legs(chân):
- tail(đuôi):
- domestic(trong nước):
- catsize: có hoặc khơng
- class_type (loại động vật):
1. Động vật có vú
2. Loại chim
3.
4.
5.
6.
Lồi bị sát
Lồi cá
Lồi lưỡng cư
Lồi cơn trùng
13
Downloaded by v? ngoc ()
lOMoARcPSD|17343589
7. Lồi động vật khơng xương sống
Bộ dữ liệu khơng có thuộc tính nào bị thiếu.
Hình 2.3.2. Dữ liệu “zoo.csv”
2.3.3. Dữ liệu “ph-data.csv”
Số thuộc tính của bộ dữ liệu là: 4 , tất cả thuộc tính là giá trị số
Thơng tin thuộc tính bao gồm:
- blue(màu xanh da trời): chỉ số màu xanh da trời theo mơ hình màu RGB
- green(màu xanh lá cây): chỉ số màu xanh lá cây theo mơ hình màu RGB
- red(màu đỏ): chỉ số màu đỏ trong theo mơ hình màu RGB
- label(nhãn độ ph):
o 1 là độ ph 1
o 2 là độ ph 2
o 3 là độ ph 3
o 4 là độ ph 4
o 5 là độ ph 5
o 6 là độ ph 6
o 7 là độ ph 7
o 8 là độ ph 8
o 9 là độ ph 9
o 10 là độ ph 10
o 11 là độ ph 11
o 12 là độ ph 12
o 13 là độ ph 13
14
Downloaded by v? ngoc ()
lOMoARcPSD|17343589
o 14 là độ ph 14
Bộ dữ liệu khơng có thuộc tính bị thiếu
Hình 2.3.3. Dữ liệu “ph-data.csv”
15
Downloaded by v? ngoc ()