Tải bản đầy đủ (.pdf) (36 trang)

BÁO CÁO TIỂU LUẬN KHOA HỌC DỮ LIỆU

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.67 MB, 36 trang )

TRƯỜNG ĐẠI HỌC KINH TẾ HỒ CHÍ MINH
KHOA CƠNG NGHỆ THÔNG TIN KINH DOANH
BỘ MÔN CÔNG NGHỆ THÔNG TIN

BÁO CÁO TIỂU LUẬN HỌC PHẦN KHOA HỌC DỮ LIỆU

Đề tài: KHOA HỌC DỮ LIỆU TRONG CHÍNH SÁCH
NHÀ Ở

GVHD: TS.GVC Nguyễn Quốc Hùng

Nhóm thực hiện:
Họ và tên - MSSV
Nguyễn Thị Thu Hà - 31181023232
Nguyễn Hoàng Bảo Châu - 3118102
Lê Hoài Bảo Trân- 3118102

TP. Hồ Chí Minh, Tháng 10/2021


MỤC LỤC
A. MỞ ĐẦU
Lời Mở đầu
Lời Cảm ơn
BẢNG PHÂN CÔNG THÀNH VIÊN
B. NỘI DUNG
Chương 1: Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI
THIỆU ĐỀ TÀI
B. NỘI DUNG
Chương I: GIỚI THIỆU KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI
I. Tổng quan về khoa học dữ liệu


1. Giới thiệu chung
2. Ứng dụng của khoa học dữ liệu
2.1. Ứng dụng của khoa học dữ liệu
2.1.1. Giúp hỗ trợ đưa ra quyết định:
2.1.2. Một số ứng dụng hữu ích của khoa học dữ liệu trong các lĩnh vực
thực tế của cuộc sống
2.2. Quy trình khai thác dữ liệu
2.3. Tiền xử lý dữ liệu
II. Giới thiệu đề tài
Chương II: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC
PHƯƠNG PHÁP SỬ DỤNG
1. Phần mềm Orange
2. Phân lớp dữ liệu
2.1. Định nghĩa
2.2. Các bước xây dựng
2.3. Một số phương pháp phân lớp dữ liệu
3. Phân cụm dữ liệu
3.1. Định nghĩa
3.2. Phân cụm phân cấp
3.3.Phân cụm phân hoạch
3.3.1Thuật toán K-means
Chương 3: ỨNG DỤNG CÁC PHƯƠNG PHÁP VÀO BÀI TOÁN CỤ THỂ
I. Phân lớp dữ liệu
II. Phân cụm dữ liệu
1. Phân cụm phân hoạch (Partitioning clustering)
2. Phân cụm phân cấp (Hierarchical Clustering)
Chương 4: KẾT QUẢ CHẠY MƠ HÌNH
2
Báo cáo đồ án mơn học Khoa học dữ liệu



1. Kết quả phân lớp dữ liệu
2. Kết quả phân cụm dữ liệu
C. KẾT LUẬN
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
TÀI LIỆU THAM KHẢO

3
Báo cáo đồ án môn học Khoa học dữ liệu


Lời mở đầu
Thế giới ngày càng hội nhập và phát triển, trình độ học vấn – văn hóa của con
người cũng ngày một được cải thiện. Nếu như trước đây chúng ta chỉ mong muốn
được ăn no, mặc ấm, có một chỗ để ở và sinh hoạt hằng ngày là đủ. Thì giờ đây mong
muốn đó được phát triển thành ăn ngon – mặc đẹp - ở tiện nghi. Chưa có giai đoạn nào
trong lịch sử mà vấn đề nhà ở lại quan trọng và cấp thiết như hiện nay.
Với tình hình đơ thị hóa nhanh chóng trong những năm gần đây. Dân số thành thị
ở Việt Nam hiện nay là 33.122.549 người, chiếm đến 34,4% dân số trên cả nước. Mọi
người đổ xô vào các thành phố lớn để làm ăn, sinh sống và đương nhiên việc sở hữu
một căn nhà của riêng mình là ước mơ khơng của riêng ai. Để giải quyết được vấn đề
nhà ở là điều khơng hề dễ dàng vì nó phụ thuộc vào nhiều yếu tố chủ quan và khách
quan khác nhau. Làm sao để người dân có được nhà ở phù hợp với mức thu nhâp của
mình? Quy hoạch nhà ở, chung cư như thế nào cho hợp lí? … Nắm được những mong
muốn này chúng ta cần tiến hành phân tích dữ liệu nhà ở từ đó đưa ra những quyết
định phù hợp với tình hình và mong muốn của người dân hiện nay .

4
Báo cáo đồ án môn học Khoa học dữ liệu



Lời Cảm ơn
Để hoàn thành được báo cáo tiểu luận học phần khoa học dữ liệu với đề tài “ Khoa
học dữ liệu và ứng dụng trong chính sách nhà ở ”. Ngoài sự nỗi lực của các thành viên,
lời đầu tiên chúng em – 3 sinh viên nhóm 1 xin cảm ơn Khoa công nghệ thông tin kinh
doanh, trường đại học kinh tế thành phố Hồ Chí Minh đã xây dựng nên bộ môn này giúp
cung cấp những kiến thức cũng như cái nhìn tổng quát liên quan đến khoa học dữ liệu,
một trong những kiến thức vô cùng cần thiết trong thời đại số hóa hiện nay. Đặc biệt
chúng em xin gửi lời cảm ơn chân thành nhất đến thầy Nguyễn Quốc Hùng – giảng viên
bộ môn, người trực tiếp truyền đạt kiến thức và chỉ bảo tận tình cho chúng em xun
suốt khóa học.
Nhóm chúng em đã cố gắng vận dụng những kiến thức mà thầy đã dạy trong hơn
1 tháng qua để hoàn thành bài báo cáo một cách hồn thiện nhất. Trong q trình học
tập và viết bài báo cáo, dù đã cố gắng hết sức nhưng khơng thể tránh khỏi những sai sót.
Rất mong nhận được những góp ý, chia sẻ quý báu của thầy để nhóm em có thể rút kinh
nghiệm và hồn thiện kiến thức của mình trong lĩnh vực này một cách tốt hơn.
Chúng em xin chân thành cảm ơn!
Thành phố Hồ Chính Minh, ngày 10 tháng 10 năm 2021.

5
Báo cáo đồ án môn học Khoa học dữ liệu


BẢNG PHÂN CÔNG CÁC THÀNH VIÊN.

Họ và tên

Nguyễn Thị Thu Hà
(Nhóm trưởng)


Nguyễn Hồng Bảo Châu

Lê Hồi Bảo Trân

Phân cơng cơng việc

-

Lên khung sườn cho báo cáo

-

Viết lời mở đầu, chương I

-

Viết kết luận và hướng phát
triển

-

Rà soát lại bài

-

Viết chương 2 của báo cáo

-

Đóng góp ý kiến xây dựng bài


-

Viết chương 3 của báo cáo

-

Đóng góp ý kiến xây dựng bài

Đánh giá %
mức độ hồn
thành
100%

100%

100%

6
Báo cáo đồ án mơn học Khoa học dữ liệu


Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI
THIỆU ĐỀ TÀI.
I.
Tổng quan về khoa học dữ liệu
1. Giới thiệu chung về khoa học dữ liệu
1.1. Khái niệm:
Khoa học dữ liệu là một lĩnh vực gồm nhiều ngành ngành thực hiện quá
trình chiết xuất tri thức từ các nguồn dữ liệu theo các dạng khác nhau ( có thể

dưới dạng cấu trúc hoặc phi cấu trúc) chuyển đến việc quản trị dữ liệu ( làm
sạch dữ liệu, tính tốn,… ). Sau đó phân tích dữ liệu và sử dụng kết quả ứng
dụng vào đời sống. Đây là phát triển của khoa học thống kê và là công cụ lao
động vô cùng quan trọng trong thời kỳ chuyển đổi số.
1.2. Một số khái niệm liên quan:
Cùng với thời gian chúng ta đã trải qua nhiều cuộc cách mạng công
nghiệp:
-

Đầu tiên là cuộc cách mạng công nghiệp thứ nhất: Với việc phát minh ra máy
chạy bằng hơi nước
 Ứng dụng vào sản xuất công nghiệp
Tiếp theo là cuộc cánh mạng công nghiệp thứ hai: Khi chúng ta phát minh ra
điện
 Ứng dụng vào sản xuất cơ khí
Cuộc cách mạng cơng nghiệp thứ 3 là bước tiến khi có Internet, máy tính.
 Ứng dụng vào sản xuất hàng loạt
Và bây giờ chính là cuộc cách mạng công nghiệp thứ tư: Với sản phẩm chính là
cơng nghệ số, trí tuệ nhân tạo,…
 Sản xuất thông minh
Chúng ta đang được sống và thừa hưởng những sự tiện nghi, hiện đại do các
cuộc cách mạng cơng nghiệp mang lại. Sức mạnh và trí tuệ của con người là
những điều quá tuyệt vời và không thể phủ nhận. Vậy những thứ mà cuộc cách
mạng công nghiệp thứ tư mang lại vĩ đại như thế nào, ta sẽ cùng tìm hiểu một
số trong đó:

-

-


Điện tốn đám mây: Là nơi lưu trữ và truy cập dữ liệu trực tiếp trên “clouds”
khi có internet, chứ khơng bắt buộc phải sử dúng máy tính của người dùng
+ Dữ liệu này lưu trữ thường xuyên trên máy chủ và tạm thời trên máy khách
+ Những ứng dụng quen thuộc như: Google Drive, Dropbox, One Drive
Internet vạn vật: Như cái tên của nó, đây là sự kết nối trên mạng internet của
các thiết bị

+ Các vật thể hay thiết bị có thể trao đổi thông tin cho nhau mà không cần kết nối
một cách trực tiếp
+ Các hình thức như: gửi thư điện tử cho nhau, hồ sơ bệnh án của một người
7
Báo cáo đồ án môn học Khoa học dữ liệu


-

Blockchain: về bản chất thì đây cũng là một dạng dữ liệu thơng thường nhưng
đặc biệt hơn là nó được lưu trữ dữ liệu với các thuộc tính duy nhất

+ Phân cấp: Khơng ai có tồn quyền kiểm sốt thơng tin đi vào
+ Đồng thuận: Nhiều bên khác nhau lưu trữ các bản sao chính xác của cùng một hồ
sơ gốc
+ Chỉ thêm: Tức là không được chỉnh sửa thông tin đã có mà chỉ được quyền thêm
thơng tin mới vào.
-

Big Data: Ở đây chúng ta có thể xử lí những nguồn thông tin vô cùng lớn và rất
phức tạp mà các ứng dụng truyền thống khơng thể xử lí. Nó dựa trên 4 yếu tố
quan trọng


+ Dung lượng
+ Tốc độ
+ Đa dạng
+ Tính xác thực
-

Al ( trí tuệ nhân tạo): Đây là khoa học kỹ thuật chế tạo máy thơng minh và
chương trình trên máy tính thơng minh

+ Al giúp tạo ra khả năng suy nghĩ, có trí tuệ như con người cho chiếc máy tính
+ Đây là khoa học nghiên cứu trí não thơng qua mơ hình tốn
+ Trí tuệ nhận tạo đã nghiên cứu các hành vi sau đó mơ phỏng lại trên các vật thể
nhân tạo
-

AI: Mục đích chính của AI chính là phát triển máy tính hay các chức năng của
máy tính có khả năng thông minh, linh hoạt như con người. Biểu hiện qua việc:

+ Nhận thức
+ Học
+ Suy luận
+ Giao tiếp ngôn ngữ
+ Giải quyết vấn đề
2. Ứng dụng của khoa học dữ liệu
2.1. Ứng dụng của khoa học dữ liệu
2.1.1. Giúp hỗ trợ đưa ra quyết định:
Bước 1: Có dữ liệu
Bước 2: Phân tích + Các quyết định của con người
-


Mơ tả ( điều gì đang xảy ra? )
Chuẩn đốn ( tại sao lại như vậy? )
Dự đốn ( điều gì sẽ xảy ra trong tương lai?)
8

Báo cáo đồ án môn học Khoa học dữ liệu


Đề xuất ( phải làm như thế nào?)
Bước 3: Đưa ra quyết định chính thức
Bước 4: hành động
2.1.2. Một số ứng dụng hữu ích của khoa học dữ liệu trong các lĩnh vực
thực tế của cuộc sống
a. Y tế - chăm sóc sử khỏe
- Phân tích hình ảnh y khoa
- Điều chế thuốc
- Nghiên cứu di truyền học
- Trợ lý sức khỏe con người
b. Giao thông vận tải
- Lái xe an toàn
- Hệ thống vận hành xe tự động
- An tồn giao thơng
- Trải nghiệm lái xe nâng cấp
c. Tài chính
- Phân khúc khách hàng
- Quyết định chiến lược
- Thương mại thuật tốn
- Phân tích rủi ro
d. Ngân hàng
- Thẩm định cho vay

- Vịng đời khách hàng
- Thơng tin khách hàng
e. Sản xuất
- Dự báo rủi ro
- Điều phối hệ thống
- Các đơn vị tự động hóa
- Quy trình được định sẵn
- Báo lỗi
f. Thương mại điện tử
- Chọn khách hàng mục tiêu
- Giới thiệu sản phẩm
- Phân tích từ đánh giá
 Đây chỉ là 6 trong rất nhiều lĩnh vực được ứng dụng hữu ích của Data Science.
2.2. Quy trình khai thác dữ liệu
-

Để khai thác dữ liệu trong kinh doanh chúng ta cần tiếp cận với 6 bước sau:
Bước 1: Buiness Understanding
Ở đây cũng ta sẽ dựa vào mục tiêu kinh doanh của mình là gì. Bối cảnh hiện tại
của kinh tế - xã hội ra sao để tiến hành xác định và khai thác dữ liệu
Bước 2: Data Understanding:
Ở bước này, ta tiến hành kiểm tra tình trạng của dữ liệu để xác định xem các dữ
liệu này có phù hợp với mục tiêu ban đầu chúng ta cần khai thác hay không
9
Báo cáo đồ án môn học Khoa học dữ liệu


Bước 3: Data Preparation:
Thực hiện các bước tiền xử lý thơng tin để chuẩn hóa tất cả dữ liệu.
 Đây là giai đoạn vơ cùng quan trọng, nó chiếm tới 90% thời gian của tồn quy

trình.
Bước 4: Mơ hình hóa
Ở bước này ta sử dụng các mơ hình thống kê để xác định được mẫu và quy luật
chung của dữ liệu
Bước 5: Đánh giá
Kiểm tra lại tính hiệu quả của mơ hình có đáp ứng với mục tiêu kinh doanh mà
ban đầu chúng ta đề ra hay không, thông tin có đáng tin cậy hay khơng
Bước 6: Triển khai:
Sau khi đã đánh giá xong ta đưa mơ hình giải pháp này vào ứng dụng thực tế
trong các hoạt động cuar công ty.
2.3. Tiền xử lý dữ liệu
Khái niệm: Đây là q trình xử lý dữ liệu thơ ( gốc) nhằm cải thiện chất lượng
dữ liệu. Sau khi thực hiện xong bước này thì chất lượng của dữ liệu được cải
thiện dẫn đến kết quả cũng chính xác hơn.
- Tiền xử lý dữ liệu bao gồm 4 bước
Bước 1: Làm sạch dữ liệu:
Ở bước này ta tiến hành loại bỏ nhiễu và điều chỉnh những dữ liệu không nhất
quán. Những dữ liệu cần xử lý bao gồm:
- Dữ liệu bị thiếu
- Dữ liệu không nhất quán
- Dữ liệu bị nhiễu
 Cuối cùng sẽ tóm tắt hóa các dữ liệu
-

Bước 2: Tích hợp dữ liệu
Ở bước này ta tiến hành trộn dữ liệu từ nhiều nguồn khác nhau vào cùng một
kho dữ liệu. Chúng có thể bao gồm:
-

-


Vấn đề nhận diễn thực tế
Vấn đề dư thừa
Phát hiện và xử lý mâu thuẫn giá trị dữ liệu
Bước 3: Chuyển đổi dữ liệu
Sau khi đã tích hợp dữ liệu ta sẽ tiến hành chuẩn hóa dữ liệu. Việc này cũng
bao gồm nhiều cơng đoạn:
Làm trơn dữ liệu
Kết hợp dữ liệu
Tổng quát hóa dữ liệu
Chuẩn hóa dữ liệu
Xây dựng thuộc tính
Bước 4: Rút gọn dữ liệu
10

Báo cáo đồ án môn học Khoa học dữ liệu


-

II.

Sau khi hoàn thành các bước trên ta tiến hành thu giảm kích thước dữ liệu bằng
cách kết hợp các dữ liệu, loại bỏ các đặc điểm dư thừa trùng lặp, gom cụm dữ
liệu lại với nhau. Bao gồm:
Kết hợp khối dữ liệu
Chọn tập con các thuộc tính
Thu giảm chiều
Thu giảm lượng
Tạo phân cấp ý niệm

Rời rạc hóa

Giới thiệu về đề tài

Cuộc cách mạng công nghệ thứ tư đã bắt đầu được một chặng đường và đang
có xu hướng phát triển rất nhanh. Mong muốn có thể ứng dụng được khoa học
cơng nghệ vào đời sống, với mục đích giúp cho cuộc sống của con người trở nên
thuận tiện và hiệu quả nhất. Nhóm 1 nhận thấy vấn đề nhà ở tại Việt Nam đang là
nỗi băn khoăn của nhiều người, vì vậy với kiến thức được thầy cơ truyền tải nhóm
quyết định nghiên cứu và xây dựng đề tài “ KHOA HỌC DỮ LIỆU TRONG VẤN
ĐỀ NHÀ Ở”. Qua đó rút ra vài kết luận có ích giúp xây dựng và cải thiện vấn đề
nhà ở cho người dân.

Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ
CÁC PHƯƠNG PHÁP SỬ DỤNG
I.
PHẦN MỀM ORANGE
1. Orange
Định nghĩa: Orange là một phần mềm lập trình trực quan dựa trên thành phần trực quan
hóa dữ liệu, trí tuệ nhân tạo, khai thác dữ liệu và phân tích dữ liệu.
Orange làm được gì
Orange cung cấp cho người dùng tập các toolbox tinh gọn nhất giúp ta bắt tay ngay
vào phân tích dữ liệu gồm:
Data: dùng để rút trích, biến đổi, và nạp dữ liệu (ETL process).

11
Báo cáo đồ án môn học Khoa học dữ liệu


Visualize: dùng để biểu diễn biểu đồ (chart) giúp quan sát dữ liệu được tốt hơn.


12
Báo cáo đồ án môn học Khoa học dữ liệu


Model: gồm các hàm machine learning phân lớp dữ liệu, có cả Neural Network gồm
các hyper-parameter cơ bản để bạn xây dựng nhanh Deep learning.

13
Báo cáo đồ án môn học Khoa học dữ liệu


14
Báo cáo đồ án môn học Khoa học dữ liệu


Evaluate: các phương pháp đánh giá mơ hình máy học.

15
Báo cáo đồ án môn học Khoa học dữ liệu


Unsupervised: gồm các hàm machine learing gom nhóm dữ liệu.

16
Báo cáo đồ án môn học Khoa học dữ liệu


Others: các công cụ giúp ghi chú workflow ta đang làm việc.


17
Báo cáo đồ án môn học Khoa học dữ liệu


Add ons: giúp bạn mở rộng các chức năng nâng cao như xử lý Big Data với Spark, xử
lý ảnh với Deep learing, xử lý văn bản, phân tích mạng xã hội, etc. Đây có lẽ là điểm
cộng của Orange vì khi sử dụng Weka phần mềm này khơng thể xử lý Big Data và tốc
độ huấn luyện khá chậm.

18
Báo cáo đồ án môn học Khoa học dữ liệu


2. Phân lớp dữ liệu
2.1. Định nghĩa: Phân lớp dữ liệu là quá trình phân một đối tượng dữ liệu vào một
hay nhiều lớp đã cho trước nhờ mơ hình phân lớp.
Mơ hình này được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó (Thuộc
về lớp nào)
Quá trình gán nhãn cho đối tượng dữ liệu chính là q trình phân lớp dữ liệu .
19
Báo cáo đồ án môn học Khoa học dữ liệu


2.2.

Q trình phân lớp dữ liệu: Gồm có 2 bước chính

Bước 1: Xây dựng mơ hình
-


Dữ liệu đầu vào: Là dữ liệu mẫu đã được gán nhãn và tiền xử lí

-

Các thuật tốn phân lớp: Cây quyết định, hàm số tốn học, tập luật,..

-

Kết quả của bước này là mơ hình phân lớp đã được huấn luyện

 Giai đoạn học hay huấn luyện
Bước 2: Sử dụng mơ hình chia thành 2 bước nhỏ
Bước 2.1: Đánh giá mơ hình
-

Dữ liệu đầu vào: Là một ập dữ liệu mẫu khác đã được gán nhãn và tiền xử lý.
Tuy nhiên lúc đưa vào người ta “lờ” đi thuộc tính đã được gán nhãn

-

Tính đúng đắn của mơ hình sẽ được xác định bằng cách so sánh thuộc tính gán
nhãn của dữ liệu đầu vào và kết quả phân lớp của mơ hình.

Bước 2.2. Phân lớp dữ liệu mới
-

Dữ liệu đầu vào: là dữ liệu “khuyết” thuộc tính cần đự đốn lớp

-


Mơ hình sẽ tự động phân lớp cho các đối tượng dữ liệu này dựa vào những gì
được huấn luyện ở bước 1

 Kiểm tra tính đúng đắn của mơ hình
Các ứng dụng của phân lớp dữ liệu trong kinh tế:
 Tài chính ngân hàng
-

Dự báo kết quả chứng khốn

-

Xếp hạng tín dụng cá nhân

-

Đánh giá mức độ rủi ro

 Kinh tế học
-

Dự báo khủng khoản kinh tế

-

Dự báo cung cầu

 Sales& Marketing
-


Dự báo doanh thu

-

Dự báo khách hàng trung thành

2.3.

Một số phương pháp phân lớp:
20

Báo cáo đồ án môn học Khoa học dữ liệu


a. Hồi quy Logistic
Là một mơ hình xác suất dự đoán giá trị đầu ra rời rạc từ một tập các giá trị đầu
vào
b. Cây quyết định
Là đồ thị quyết định cùng các kết quả khả dĩ đi kèm nhằm hỗ trợ quá trình đưa
ra quyết định ;
Trong lĩnh vực khaii thác dữ liệu, cây quyết định là phương pháp nhằm mô tả,
phân loại và tổng quát các dữ liệu cho trước.
-

Ưu điểm:
+ Dễ hiểu
+ Khơng địi hỏi việc chuẩn hóa dữ liệu
+ Có thể xử lý được nhiều dữ liệu khác nhau
+ Xử lý tốt một lượng dữ liệu trong thời gian ngắn


-

Khuyết điểm:
+ Khó giải quyết trong các tình huống mà dữ liệu bị phụ thuộc vào thời gian
+ Chi phí xây dựng mơ hình cao

c. SVM
Là một thuật tốn có giám sát, nhận dữ liệu vào rồi xem chúng như những
Vector trong không gian và phân loại chúng vào các lớp khác nhau bằng cách xây
dựng một siêu phẳng trong không gian nhiều chiều.
Để tối ưu kết quả phân lớp thì phải xác định siêu phẳng có khoảng cách đến
các điểm dữ liệu của tất cả các lớp xa nhất có thể
SVM có nhiều biến thể phù hợp với các bài tốn có phân loại khác nhau.
3. Phân cụm dữ liệu
3.1 Định nghĩa
Là q trình gom/ nhóm các đối tượng/ dữ liệu có đặc điểm tương đồng nhau vào
một cụm hay nhóm tương ứng.
-

Các đối tượng trong cùng một cụm sẽ có những tính chất tương tự nhau

-

Các đối tượng thuộc cùng một cụm/nhóm khác nhau sẽ có tính chất khác nhau.

 Dữ liệu của bài tốn phân cụm thường là dữ liệu thường thấy trong thực tế ( chưa
21
Báo cáo đồ án môn học Khoa học dữ liệu



được gán nhãn)
3.2. Phân cụm phân cấp
-

Phương pháp này không cần xác định trước số cụm nhưng cần xác định trước
điều kiện dừng

-

Xây dựng một cây phân cấp cho dữ liệu cần gom dựa trên:
+ Ma trận khoảng cách giữa các phần tử
+ Độ đo khoảng cách giữa các cụm

-

Các phương pháp điển hình:
+ Diana
+ Agnes
3.2. Phân cụm phân hoạch:

-

Phân tập dữ liệu có n phân tử cho trước thành k tập con ( k<=n) mỗi tập con biểu
diễn một cụm

-

Các cụm hình thành trên cơ sở tối ưu hóa giá trị hàm độ đo tương tự
+ Mỗi đối tượng thuộc duy nhất một cụm
+ Mỗi cụm có ít nhất một phần tử


-

Thuật tốn điểm hình:
+ K-means
+ K- mediods
+ Fuzy
+ C-Means

Các kỹ thuật phân cụm được phân loại như sau (xem hình)

22
Báo cáo đồ án mơn học Khoa học dữ liệu


3.3.1. Thuật tốn K-means
Định nghĩa:
-

Thuộc nhóm thuật tốn phân cụm dựa trên phân hoạch

-

Tư tưởng chính: Ta xem mỗi đối tượng trong tập dữ liệu là một điểm trong không
gian d chiều ( với d là số lượng thuộc tính của đối tượng)
Trải qua các bước:
Bước 1: Chọn k điểm bất kỳ làm các trung tâm ban đầu của K cụm
Bước 2: Phân mỗi điểm dữ liệu vào cụm có trung tâm gần nó nhất. Nếu các điểm
dữ liệu ở từng cụm vừa được chia không thay đổi so với kết quả của lần chia
trước thì ta dừng thuật tốn lại

Bước 3: Cập nhật lại trung tâm cho từng cụm bằng cách lấy trung bình cộng của
tất cả các điểm dữ liệu đã được gán vào cụm đó sau khi phân chia ở bước 2
Bước 4: Quay lại bước 2

Mô tả thuật tốn K-Means như sau

23
Báo cáo đồ án mơn học Khoa học dữ liệu


Chương 3: ỨNG DỤNG CÁC PHƯƠNG PHÁP VÀO
BÀI TOÁN CỤ THỂ

I.

Phân lớp dữ liệu

24
Báo cáo đồ án môn học Khoa học dữ liệu


25
Báo cáo đồ án môn học Khoa học dữ liệu


×