Tải bản đầy đủ (.docx) (14 trang)

Phân cụm dữ liệu và ứng dụng weka minh họa

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.66 MB, 14 trang )

Phân cụm dữ liệu và ứng dụng Weka minh họa PGS.TS Đỗ Phúc
MỤC LỤC
I. Tổng quan quá trình khai phá dữ liệu
1. Khái niệm
Data mining là quá trình tự động tìm kiếm và trích xuất các mẫu thông tin có giá
trị ẩn chứa từ tập tin dữ liệu lớn (Data Set) trong thực tế.
2. Quá trình khai phá dữ liệu
Quá trình khai phá dữ liệu được tiến hàng qua 6 giai đoạn: bắt đầu của quá trình là
kho dữ liệu thô và kết thúc với tri thức được chiết xuất ra.
Trang 1 /14
Phân cụm dữ liệu và ứng dụng Weka minh họa PGS.TS Đỗ Phúc
Hình 1.1. Quá trình khai phá dữ liệu
Gom dữ liệu (Gathering): tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá
dữ liệu. Đây là bước được khai phá trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí
các dữ liệu từ các nguồn ứng dụng Web.
Trích lọc dữ liệu (Selection): ở giai đoạn này dữ liệu được lựa chọn hoặc phân
chia theo một số tiêu chuẩn nào đó.
Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu (Cleansing, Pre-processing and
Preparation): giai đoan thứ ba này là giai đoạn hay bị sao lãng, nhưng thực tế nó là một
bước rất quan trọng trong quá trình khai phá dữ liệu. Một số lỗi thường mắc phải trong
khi gom dữ liệu là tính không đủ chặt chẻ, logíc. Vì vậy, dữ liệu thường chứa các giá trị
vô nghĩa và không có khả năng kết nối dữ liệu.
Chuyển đổi dữ liệu (Transformation): tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ
liệu đưa ra có thể sử dụng và điều khiển được bởi việc tổ chức lại nó. Dữ liệu đã được
chuyển đổi phù hợp với mục đích khai phá.
Phát hiện và trích mẫu dữ liệu (Pattern Extraction and Discovery): đây là bước
mang tính tư duy trong khai phá dữ liệu. Ở giai đoạn này nhiều thuật toán khác nhau đã
Trang 2 /14
Phân cụm dữ liệu và ứng dụng Weka minh họa PGS.TS Đỗ Phúc
được sử dụng để trích ra các mẫu từ dữ liệu. Thuật toán thường dùng là nguyên tắc phân
loại, nguyên tắc kết hợp hoặc các mô hình dữ liệu tuần tự. v.v.


Đánh giá kết quả mẫu (Evaluation of Result): đây là giai đoạn cuối trong quá trình
khai phá dữ liệu. Ở giai đoạn này, các mẫu dữ liệu được chiết xuất ra bởi phần mềm khai
phá dữ liệu. Không phải bất cứ mẫu dữ liệu nào cũng đều hữu ích, đôi khi nó còn bị sai
lệch. Vì vậy, cần phải ưu tiên những tiêu chuẩn đánh giá để chiết xuất ra các tri thức
(Knowlege) cần chiết xuất ra.
Trên đây là 6 giai đoạn trong quá trình khai phá dữ liệu, trong đó giai đoạn 5 là
giai đoạn được quan tâm nhiều nhất hay còn gọi đó là Data Mining.
3. Nhiệm vụ của khai phá dữ liệu
Khai phá dữ liệu là chiết xuất ra các tri thức có lợi cho kinh doanh hay cho nghiên
cứu khoa học. Do đó, ta có thể xem mục đích của khai phá dữ liệu sẽ là mô tả các sự kiện
và dự đoán
4. Các phương pháp cho khai phá dữ liệu
4.1. Phân lớp và dự đoán
Phân lớp dữ liệu là tiến trình có 2 bước:
+ Huấn luyện: dữ liệu huấn luyện được phân tích bởi thuật toán phân lớp ( có thuộc
tính nhãn lớp) để tạo ra bộ phân lớp.
+ Phân lớp: Dữ liệu kiểm tra được dùng để ước lượng độ chính xác của phân lớp. Nếu
chính xác là chấp nhận được thì có thể dùng bộ phân lớp để phân lớp các mẫu dữ
liệu mới.
Chuẩn bị dữ liệu:
+ Làm sạch dữ liệu: nhiễu, thiếu giá trị.
+ Phân tích liên quan (chọn đặc trưng): các thuộc tính không liên quan, các thuộc tính
dư thừa.
+ Biến đổi dữ liệu.
Các kỹ thuật phân lớp:
Trang 3 /14
Phân cụm dữ liệu và ứng dụng Weka minh họa PGS.TS Đỗ Phúc
+ Cây quyết định: Là cấu trúc cây sao cho.
• Mỗi nút trong ứng với một phép kiểm tra trên một thuộc tính.
• Mỗi nhánh biểu diễn kết quả phép kiểm tra.

• Các nút lá biểu diễn các lớp hay các phân bố lớp.
• Nút cao nhất trong cây là nút gốc.
+ Các phân lớp trong cây quyết định:
• Phân lớp Bayes: Có thể dự báo các xác suất là thành viên của lớp, chẳng hạn xác
suất mẫu cho trước thuộc về một lớp xác định.
• Phân lớp Naïve Bayes: Có thể so sánh đuợc về công năng với bộ phân lớp cây
quyết định và mạng nơron. Chúng giả định các thuộc tính là độc lập nhau. (độc
lập điều kiện lớp)
• Phân lớp NAÏVE BAYESIAN
+ Các thuật toán sinh luật trực tiếp (không tạo cây):
• Thuật toán ILA.
• Thuật toán CBA
4.2. Phân cụm và phân đoạn
Xếp một đối tượng vào một trong những lớp đã biết trước. Ví dụ: phân lớp các dữ
liệu bệnh nhân trong hồ sơ bệnh án. Hướng tiếp cận này thường sử dụng một số kỹ thuật
của học máy như cây quyết định (decision tree), mạng nơ ron nhân tạo (neural
network), .v.v. Phân lớp và dự đoán còn được gọi là học có giám sát.
4.3. Luật kết hợp
Là dạng luật biểu diễn tri thức ở dạng khá đơn giản. Ví dụ: “80% mua bánh mì thì
có 60% trong số đó mua sữa”. Luật kết hợp được ứng dụng nhiều trong lĩnh vực kinh
doanh, y học, tin-sinh, tài chính và thị trường chứng khoán, .v.v.
5. Các ứng dụng khai phá dữ liệu
Trang 4 /14
Phân cụm dữ liệu và ứng dụng Weka minh họa PGS.TS Đỗ Phúc
Khai phá dữ liệu tuy là một lĩnh vực mới nhưng đã thu hút được sự quan tâm của
rất nhiều nhà nghiên cứu, nhờ có nhiều những ứng dụng trong thực tiễn, các ứng dụng
điển hình như sau:
 Phân tích dữ liệu và hỗ trợ ra quyết định (Analysis & decition support).
 Điều trị trong y học (Medical): mối liên hệ giữa triệu chứng, chuẩn đoán và
phương pháp điều trị (chế độ dinh dưỡng, thuốc men, phẫu thuật).

 Phân lớp văn bản, tóm tắt văn bản và phân lớp các trang Web (Text mining &
Web mining).
 Tin sinh học (Bio-informatics): Tìm kiếm, đối sánh các hệ gen và thông tin di
truyền, mối liên hệ giữa một số hệ gen và một số bệnh di truyền.
 Nhận dạng.
 Tài chính và thị trường chứng khoán (Finance & stock market): Phân tích tình
hình tài chính và dự đoán giá cổ phiếu.
 Bảo hiểm (Insurance).
 Giáo dục (Education)
II. Phân cụm dữ liệu và thuật toán K – Means
1. Tổng quan về phân cụm dữ liệu
1.1. Khái niệm phân cụm dữ liệu
Quá trình phân chia 1 tập dữ liệu ban đầu thành các cụm dữ liệu thỏa mãn các đối
tượng trong một cụm có tính chất “tương tự” nhau.
1.2. Mục đích của phân cụm dữ liệu
Xác định được bản chất của việc nhóm các đối tượng trong 1 tập dữ liệu không có
nhãn.
Phân cụm không dựa trên 1 tiêu chuẩn chung nào, mà dựa vào tiêu chí mà người
dùng cung cấp trong từng trường hợp
1.3. Một số phương pháp phân cụm
Phân cụm phân hoạch
Phân cụm phân cấp
Trang 5 /14
Phân cụm dữ liệu và ứng dụng Weka minh họa PGS.TS Đỗ Phúc
Phân cụm dựa trên mật độ
Phân cụm dựa trên lưới
Phân cụm dựa trên mô hình
Phân cụm có ràng buộc
1.4. Một số thuật toán phân cụm
Thuật toán phân cụm K-Means

Phân cụm phân cấp (Hierarchical Clustering)
Phân cụm theo mật độ DBSCAN
Phân cụm mô hình EM
2. Thuật toán phân cụm K – Means
 Khái quát về thuật toán
Thuật toán hoạt động trên 1 tập vectơ d chiều, tập dữ liệu X gồm N phần tử:
X = {x
i
| i = 1, 2,…N }
K-Mean lặp lại nhiều lần quá trình:
+ Gán dữ liệu.
+ Cập nhật lại vị trí trọng tâm.
Quá trình lặp dừng lại khi trọng tâm hội tụ và mỗi đối tượng là một bộ phận của 1
cụm.
Hàm đo độ tương tự sử dụng khoảng cách Euclidean
2
1
(|| || )
i j
N
i j
i x C
x c
= ∈

∑ ∑
E =
trong đó c
j
là trọng tâm của cụm C

j
Hàm trên không âm, giảm khi có 1 sự thay đổi 1 trong 2 bước: gán dữ liệu và
định lại vị trí tâm
 Các bước chính của thuật toán
Trang 6 /14
Phân cụm dữ liệu và ứng dụng Weka minh họa PGS.TS Đỗ Phúc
1. Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster). Mỗi cụm được đại
diện bằng các tâm của cụm:
{ci} (i = 1÷K).
2. Tính khoảng cách giữa các đối tượng (objects) đến K tâm (thường dùng
khoảng cách Euclidean):
S_i^((t)) = { x_j:||x_j-c_i^((t) ) || ≤||x_j-c_(i^*)^((t) ) || for alli^* = 1, …, k}
3. Nhóm các đối tượng vào nhóm gần nhất
4. Xác định lại tâm mới cho các nhóm
c_i^((t+1))=1/(|S_i^((t) ) |) ∑_(x_j∈S_i^((t)))▒x_j
6. Thực hiện lại bước 2 cho đến khi không có sự thay đổi nhóm nào của các
đối tượng.
III. Giới thiệu phần mềm Weka
Trang 7 /14
Phân cụm dữ liệu và ứng dụng Weka minh họa PGS.TS Đỗ Phúc
Weka là một công cụ phần mềm viết bằng Java, phục vụ lĩnh vực học máy và khai
thác dữ liệu.
Các tính năng chính:
- Một tập các công cụ tiền xử lý dữ liệu, các giải thuật học máy, khai phá dữ
liệu, và các phương pháp thí nghiệm đánh giá.
- Giao diện đồ họa (gồm cả tính năng hiển thị hóa dữ liệu).
- Môi trường cho phép cho sánh các giải thuật học máy và khai phá dữ liệu.
 Simple CLI
Giao diện đơn giản kiểu dòng lệnh (như MS – DOS)
 Explorer

Môi trường cho phép sử dụng tất cả các tính năng của weka để khám phá dữ
liệu.
 Experimenter
Môi trường cho phép tiến hành các thí nghiệm và thực hiện các kiểm tra
thống kê giữa các mô hình học máy.
 KnowledgeFlow
Môi trường cho phép bạn tương tác đồ họa kiểu kéo/thả để thiết kế các bước
của một thí nghiệm.
IV. Gom cụm K – Means sử dụng giao diện Weka
Mô tả bài toán
Cả nước hầu hết các tỉnh/TP đều có diện tích sản xuất lúa nhất định. Cùng với
việc sản xuất thì năng suất lúa của mỗi địa phương đem lại sẽ khác nhau. Nhằm mục
đích đánh giá sự hiệu quả về sản lượng mà các địa phương sản xuất lúa mang để có
cái nhìn và kế hoạch phát triển việc sản xuất ở mỗi địa phương.
Trang 8 /14
Phân cụm dữ liệu và ứng dụng Weka minh họa PGS.TS Đỗ Phúc
Giải pháp gom cụm dữ liệu để giúp đánh giá về việc sản lượng lúa của các tỉnh/
TP. Qua đó có cái nhìn tổng thể và đưa ra những định hướng để phát triển việc sản
xuất cho các địa phương.
Trang 9 /14
Phân cụm dữ liệu và ứng dụng Weka minh họa PGS.TS Đỗ Phúc
Bạn có thể chọn số lượng cluster và bất kỳ các thuộc tính khác cho mỗi một trong ba
kích thước khác nhau có sẵn (trục x, trục y, và màu sắc) .Kết hợp khác nhau của sự lựa
chọn sẽ dẫn đến một hình ảnh các mối quan hệ khác nhau trong mỗi cụm. Trong ví dụ ở
trên tôi đã chọn trục x biểu diễn cluster, Trục y biểu diễn số trường hợp (gán bởi WEKA)
và cuối cùng chiều màu (color) biểu diễn thuộc tính “Production”. Điều này sẽ dẫn đến
một cái nhìn về trình độ sản xuất trong mỗi cụm. Ví dụ bạn có thể thấy cụm 1 và 3 bị chi
phối bởi trình độ sản xuất thấp. cụm 0 và 2 bị tri phối bởi trình độ sản xuất cao.
V. Kết luận
Qua đề tài này, nhóm nghiên cứu đã tìm hiểu và nắm được kiến thức về gom cụm

dữ liệu và thuật toán để gom cụm dữ liệu, cơ bản hiện thực việc gom cụm dữ liệu trên
phần mềm Weka.
Trang 10 /14
Phân cụm dữ liệu và ứng dụng Weka minh họa PGS.TS Đỗ Phúc
VI. Slide power point
Trang 11 /14
Phân cụm dữ liệu và ứng dụng Weka minh họa PGS.TS Đỗ Phúc
Trang 12 /14
Phân cụm dữ liệu và ứng dụng Weka minh họa PGS.TS Đỗ Phúc
Trang 13 /14
Phân cụm dữ liệu và ứng dụng Weka minh họa PGS.TS Đỗ Phúc
Trang 14 /14

×