Tải bản đầy đủ (.pdf) (40 trang)

Data mining

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.31 MB, 40 trang )

Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 1


LÀM QUEN VỚI PHẦM MỀM KHAI THÁC DỮ LIỆU CLEMENTINE 12.0

1. Cửa sổ làm việc:

Hình 1.1: Cửa sổ làm việc của clementine
File: (Stream, Managers, Project, Outputs) khời tạo, mở các file có sẵn, lưu file…
Edit: Các lựa chọn undo, cắt/dán, delete, rename… trên file (stream, models, project, outputs)
Insert: Thực hiện một số các thao tác trên dữ liệu (chức năng gần giống như thanh Palette)
View: tắt/mở thanh công cụ, Palette, Managers, Project.
Tools : một số các tùy chọn nâng cao: tạo mật khNu, quản lý các palette…

1.1 Cửa sổ chính: Stream (lưu đồ làm việc):
Là khu vực lớn nhất của cửa sổ Clementine, là nơi mà bạn sẽ xây dựng và thao tác trên dữ liệu.
Stream được tạo ra bằng cách giống như vẽ một lưu đồ, cách thức để khai thác dữ liệu. Mỗi hoạt
động được đại diện bởi một biểu tượng hoặc node, và các node liên kết với nhau trong một dòng,
giống như cho dòng chảy của dữ liệu thông qua mỗi hoạt động.
Bạn có thể làm việc ( thực hiện nhiều lưu đồ) cùng một lúc trong stream, hoặc mở một stream
mới . Trong một phiên, stream được lưu trữ trong thanh managers , ở phía trên bên phải của cửa
sổ Clementine.
1.2 Các Palette nodes:
Hầu hết các dữ liệu và công cụ mô hình hóa trong Clementine cư trú trong bảng các nút, phía
dưới cùng của cửa sổ .
Streams
managers
project
palette
Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 2



Để thêm các node vào dòng dữ liệu , kích đúp vào biểu tượng từ các Palette Nodes hoặc kéo
và thả chúng vào stream. Sau đó kết nối chúng để tạo ra một dòng, đại diện cho dòng chảy của
dữ liệu.
Mỗi palette nodes chứa một bộ sưu tập của các nút liên quan, sử dụng cho các giai đoạn
khác nhau của các hoạt động dòng chảy, chẳng hạn như:
• Sources (nguồn): Các nút xác định nguồn dữ liệu lấy vào Clementine.
• Record Ops. (Tác vụ trên các dòng dữ liệu): Các nút thực hiện các hoạt động trên các dữ liệu,
chẳng hạn như lựa chọn, hợp nhất, và phụ thêm.
• Field Ops. (Tác vụ trên các trường/biến): Các nút thực hiện các hoạt động trên các trường/biến
của dữ liệu, như lọc, phát sinh các lĩnh vực mới, và xác định các kiểu dữ liệu cho các lĩnh vực
nhất định.
• Graphs (Đồ thị): các nút đồ họa hiển thị dữ liệu trước và sau khi thực hiện các bước khai thác
dữ liệu dưới dạng đồ thị.
• Modeling (Mô hình hóa): Các nút sử dụng mô hình hóa các thuật toán có sẵn trong Clementine,
như mạng thần kinh, cây quyết định, các thuật toán clustering, và sắp xếp dữ liệu.
• Output: Các nút xuất một loạt các dữ liệu, bảng biểu, và kết quả mô hình, có thể được xem
trong Clementine hoặc gửi trực tiếp đến một ứng dụng khác, chẳng hạn như SPSS hoặc Excel.
1.2.a Giới thiệu Sources nodes:
Chọn node Sources: Bạn có thể chọn một số nguồn lưu trữ dữ liệu, ví dụ ở đây bạn chọn
nguồn là SPSS, bạn nhấp đúp chọn biểu tượng SPSS File kéo thả vào Stream.

Hình 1.2: Chọn nguồn dữ liệu là file SPSS
Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 3



Sau đó bạn nhấp đúp vào biều tượng để hướng dẫn đến file dữ liệu spss :

Hình 1.3: Cửa sổ khai báo nguồn dữ liệu file SPSS


Import file: Chọn đường dẫn cho file dữ liệu
Filter : mặc định sẽ chọn toàn bộ dữ liệu, bạn có thể chọn hạn chế một số biến để phục vụ
cho mục đích của bạn.
Types: mặc định sẽ là những gì bạn định nghĩa trên file dự liệu gốc, bạn có thể thay đổi:
kiểu giá trị(types), values, missing
Khi có được dữ liệu, chọn apply rồi ok.

Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 4



Hình 1.4: cửa sổ khai báo dữ liệu file excel

Các nút nguồn Excel cho phép bạn nhập dữ liệu từ bất kỳ phiên bản của Microsoft Excel.
Import file: Chỉ định tên và vị trí của tập tin excel để nhập vào.
Use named range: Cho phép bạn chỉ định một loạt tên của các cột được định nghĩa trong
bảng tính Excel. Nhấp vào nút chọn(...) để chọn từ danh sách các phạm vi có sẵn. Tất cả các
hàng trong phạm vi quy định được trả về, bao gồm cả các hàng trống. Với các tên được sử dụng,
vùng dữ liệu còn lại sẽ không có giá trị không thể khai thác được.
Worksheet: Chỉ định worksheet được chọn vào, bằng chỉ số hay theo tên:
• Index. Xác định giá trị chỉ số cho các worksheet mà bạn chọn vào, bắt đầu bằng 0 cho
các bảng tính đầu tiên, 1 cho các bảng tính thứ hai, và như vậy.
• Name. Chỉ định tên của worksheet mà bạn chọn vào. Nhấp vào nút (...) để chọn từ
danh sách các worksheet sẵn.
Data range: Bạn có thể nhập dữ liệu bắt đầu với các hàng không trống đầu tiên hoặc với một
phạm vi rõ ràng:
• First non-blank row: Định vị các biến không trống đầu tiên và sử dụng bắt đầu từ góc
trên bên trái của vùng dữ liệu. Nếu gặp một hàng trống tiếp theo, bạn có thể chọn để ngừng đọc
(stop reading) hoặc chọn hàng trở lại trống để tiếp tục đọc tất cả dữ liệu vào cuối của bảng tính

(return blank rows), bao gồm cả các hàng trống.
• Explicit range: Cho phép bạn chỉ định một phạm vi rõ ràng của hàng hoặc cột (ví dụ,
Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 5


A3: G178). Tất cả các hàng trong phạm vi quy định được trả về, bao gồm cả các hàng trống.
First row contains field names :Hàng đầu tiên chứa tên biến. Chỉ ra rằng hàng đầu tiên trong
phạm vi quy định nên được sử dụng như trường tên. Nếu không được chọn, tên trường được tạo
ra tự động.
Lưu ý:

Theo mặc định, với các cột (biến) chứa hai hay nhiều hơn kiểu(type) dữ liệu số và chuỗi,
một trong hai giá trị đó sẽ bị mất ( không có giá trị giống như trong spss) trong Clementine.
không giống như Excel-Clementine không cho phép lưu trữ các loại hỗn hợp trong một biến. Để
tránh điều này, bạn có thể tự thiết lập các định dạng của ô văn bản trong các bảng tính Excel, tạo
ra các giá trị (bao gồm số) để đọc.
1.2.b Giới thiệu Record Operations:
Các nút được sử dụng để thay đổi dữ liệu. Các hoạt động này rất quan trọng trong việc hiểu
và chuNn bị dữ liệu cho khai thác dữ liệu bởi vì chúng cho phép bạn chỉnh các dữ liệu cho nhu
cầu riêng của mình.
The select node: chọn hoặc loại bỏ một tập hợp các dòng dữ liệu dựa trên một
điều kiện cụ thể. Ví dụ, bạn có thể chọn dữ liệu ở một khu vực nhất định. ví dụ: tp (thành phố) =
1 (thành phố HCM). Đây là cửa sổ làm việc của nút select:



Hình 1.5: Bảng select
Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 6




Mode: Chỉ định xem dòng dữ liệu sẽ được chọn hoặc loại trừ khi thỏa mãn điều kiện.
• Include. Chọn bao gồm các dòng dữ liệu đáp ứng các điều kiện lựa chọn.
• Discard. Chọn để loại trừ các hồ sơ đáp ứng các điều kiện lựa chọn.

Condition: Hiển thị các điều kiện lựa chọn sẽ được sử dụng để kiểm tra mà bạn tự nhập vào
một biểu hiện trong cửa sổ hoặc sử dụng Expression Builder bằng cách nhấn vào máy tính
(Expression Builder) nút bên phải của cửa sổ.
Select node cũng được sử dụng để lấy mẫu. Thông thường, bạn sẽ sử dụng một nút sample
cho hoạt động này. Tuy nhiên, nếu điều kiện bạn muốn xác định là phức tạp hơn các thông số
được cung cấp, bạn có thể tạo điều kiện riêng của bạn bằng cách sử dụng nút Select. Ví dụ tp
(thành phố) = 1 random(40)
the sample node :Các nút lựa chọn mẫu cho tập hợp các hồ sơ. Một loạt các loại mẫu
được hỗ trợ, bao gồm phân tầng, tập trung, và không ngẫu nhiên (cấu trúc) mẫu. Lấy mẫu có thể
hữu ích để cải thiện hiệu suất, và để chọn nhóm các hồ sơ liên quan, giao dịch để phân tích.


Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 7


Hình 1.5: Bảng sample

Sample method : simple
Mode: Chọn (bao gồm) hoặc loại trừ các hồ sơ cho các phương thức sau đây:
Chọn phương pháp lấy mẫu từ các tùy chọn sau:
• First. Chọn lấy bao hồ sơ đầu tiên của dữ liệu. Ví dụ, nếu kích thước mẫu tối đa được
thiết lập là 10.000, bạn sẽ được 10.000 hồ sơ đầu tiên.
• 1-trong-n. Chọn để dữ liệu mẫu bằng cách hoặc vứt bỏ mọi kỷ lục thứ n. Ví dụ, nếu n là
thiết lập đến 5,các hồ sơ sẽ được lấy là 5,10, 15, 20....
• Random%. Chọn mẫu ngẫu nhiên một tỷ lệ phần trăm của dữ liệu. Ví dụ, nếu bạn thiết lập

các tỷ lệ phần trăm đến 20, thì 20% dữ liệu sẽ được chọn .
The balance node: Các nút chỉnh cân bằng sự mất cân bằng trong bộ dữ liệu, vì vậy nó
phù hợp với một điều kiện quy định. Các chỉ thị điều chỉnh cân bằng tỷ lệ của hồ sơ mà điều
kiện là đúng sự thật bởi các yếu tố quy định.
The Aggregate node: Nút tổng hợp thay thế một chuỗi các hồ sơ đầu vào với tóm tắt,
tổng hợp hồ sơ đầu ra
The recency, frequency, monetary (RFM):
The sort node: Xếp loại các hồ sơ tăng hoặc giảm dựa trên các giá trị của một hay
nhiều tiêu chí
The merge node: Các nút Merge có nhiều hồ sơ đầu vào và tạo ra một bản ghi đầu ra
duy nhất có chứa một số hoặc tất cả các lĩnh vực đầu vào. Nó rất hữu ích cho việc sáp nhập dữ
liệu từ nhiều nguốn khác nhau.
The distinct node: Loại bỏ các hồ sơ
The append node: Các nút Thêm hồ sơ, Nó rất hữu dụng cho việc kết hợp các bộ dữ liệu
với cấu trúc tương tự nhưng dữ liệu khác nhau.
Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 8



1.2.c. Giới thiệu Field operations:
Sau khi thăm dò dữ liệu ban đầu, có thể bạn sẽ phải lựa chọn, sạch sẽ, hoặc xây dựng dữ liệu
để chuNn bị cho phân tích. Các lĩnh vực hoạt động bảng chứa nhiều các nút hữu ích cho việc
chuyển đổi này và chuNn bị.
the type node: Nút xác định kiểu dữ liệu. Thiết lập vai trò của các biến cho các mục
đích xây dựng mô hình, xác định kiểu dữ liệu, giá trị…cho biết dữ liệu được lưu trữ như là
chuỗi, số nguyên, số thực, ngày tháng, thời gian


Hình 1.5: Cửa sổ khai báo type


• Values: Bạn có thể sử dụng toàn bộ những values đã có ở file gốc bằng cách chọn Read Values,
hoặc tạo mới bằng cách ở cột Values bạn chọn specify. Các nhãn mà bạn chỉ định trong nút
hình được hiển thị trong suốt Clementine tùy thuộc vào các lựa chọn bạn thực hiện trong các
thuộc tính dòng hộp thoại.
• Missing values. Được sử dụng để xác định các giá trị sẽ được coi như là khoảng trắng.
• Value checking. Trong cột Kiểm tra, bạn có thể thiết lập các tùy chọn để đảm bảo rằng giá
trị trường phù hợp với phạm vi quy định.

Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 9



the filter node: Lọai bỏ một số biến
the reclassify node: Phân loại lại nút chuyển đổi một tập các giá trị rời rạc khác. Phân
loại lại rất hữu dụng cho thu gọn danh mục hoặc tập hợp dữ liệu để phân tích.
the bining node: Các nút Binning tự động tạo ra các lĩnh vực thiết lập mới dựa trên các
giá trị của một hoặc nhiều dãy số hiện tại. Ví dụ, bạn có thể chuyển đổi một lĩnh vực thu nhập
quy mô vào một lĩnh vực phân loại mới có chứa các nhóm thu nhập như là độ lệch trung bình.
Một khi bạn đã tạo ra cho các lĩnh vực mới, bạn có thể tạo ra một nút thu được dựa trên các điểm
cắt.

Nếu bạn có cài đặt SPSS và được cấp phép trên máy tính của bạn, các Transform
SPSS, hoặc dữ liệu chuNn bị, nút chạy một lựa chọn các lệnh cú pháp của SPSS so với các nguồn
dữ liệu trong Clementine.
the Partition node Các nút phân vùng tạo ra một lĩnh vực phân vùng, trong đó chia tách
các dữ liệu vào tập hợp con riêng cho việc đào tạo, thử nghiệm, và các giai đoạn xác thực của
việc xây dựng mô hình.
the restructure node Các nút sắp xếp chuyển đổi một lĩnh vực thiết lập hoặc cờ vào một
nhóm các lĩnh vực có thể được đặt các giá trị của lĩnh vực nào khác
the transpose node:Các nút Transpose giao dịch hoán đổi các dữ liệu trong các hàng và

cột để ghi lại trở thành lĩnh vực và các lĩnh vực trở thành hồ sơ.
1.2.d Export node:
Cung cấp một cơ chế xuất dữ liệu trong các định dạng khác nhau để giao tiếp với các công
cụ phần mềm khác của bạn.
Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 10


Các nút xuất SPSS đầu ra dữ liệu trong SPSS. Định dạng SAV. Các file SAV.
Clementine đặt tên biến cho một số biến kết quả tên SPSS đôi khi có thể gây ra lỗi bởi vì tên
SPSS biến được giới hạn đến 64 ký tự và không thể bao gồm một số ký tự, chẳng hạn như dấu
cách, dấu hiệu đồng đô la ($), và dấu gạch ngang (-). Có hai cách để điều chỉnh cho những hạn
chế này:

Hình 1.5: Cửa sổ khai báo các biến được xuất ra trên file SPSS

• Bạn có thể đổi tên các lĩnh vực phù hợp với yêu cầu SPSS tên biến bằng cách chọn biểu tượng
lọc/ chọn Rename for SPSS. để đổi tên hoặc lọc Fields cho SPSS

Export:
Export field names. Chỉ định một phương pháp xử lý tên biến và nhãn khi xuất từ
Clementine cho một SPSS file SAV..
• Names and variable labels:Tên và nhãn biến. Tên được xuất như tên biến SPSS, trong
khi nhãn được xuất khNu như nhãn biến SPSS.
• Names as variable labels: Tên là nhãn biến. Chọn để sử dụng các tên trường Clementine
làm nhãn biến trong SPSS. Clementine cho phép ký tự trong tên trường mà không hợp lệ trong
tên biến SPSS.
Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 11


Sau khi đã có đựơc những gì mong muốn chon. Execute






2. Sử dụng chuột trong Clementine:
Việc sử dụng phổ biến nhất của con chuột trong Clementine bao gồm:
• Single-click. Sử dụng hoặc bên phải hoặc nút chuột trái để chọn các tùy chọn từ menu, menu
ngữ cảnh mở, và truy cập các điều khiển khác tiêu chuNn và tùy chọn. Nhấp và giữ nút để di
chuyển và kéo các nút.
• Kích đúp vào. Click đôi vào sử dụng nút chuột trái để đặt các nút trên khung dòng và chỉnh sửa
các nút hiện có.
• Trung-click. Nhấp vào nút chuột giữa và kéo con trỏ để kết nối các nút trên khung dòng. Nhấn
đúp chuột vào nút chuột giữa để ngắt kết nối một nút. Nếu bạn không có một con chuột có ba cái
nút, bạn có thể giả lập tính năng này bằng cách nhấn phím Alt trong khi click và kéo chuột.
3.Làm việc với Clementine là một quá trình ba bước về làm việc với dữ liệu.
• Trước tiên, bạn đọc dữ liệu vào Clementine,
• Sau đó, chạy dữ liệu thông qua một loạt các thao tác,
• Và cuối cùng, gửi dữ liệu đến một đích đến.
Chuỗi các hoạt động này được biết đến như một dòng dữ liệu vì dữ liệu lưu trữ từ các nguồn
thông qua thao tác để có được thông tin mong muốn cuối cùng, được chuyển đến là một mô
hình, biểu đồ hay kiểu dữ liệu đầu ra.

4.Phân tích cụm:
Trước tiên bạn phải đọc dữ liệu, như phần giới thiệu ở trên.
Và để thống nhất kiểu dữ liệu cho mô hình phân tích cụm ta chọn type (ở Filed Ops) để khai
báo lại kiểu scale cho toàn bộ các biến:
Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 12




Hình 4.1: Strean chun bị dữ liệu
Đây là bước chuNn bị cho một bộ dữ liệu đã sẵn sàng cho các yêu cầu tiếp theo của bạn.
Ở một số các mô hình phân cụm, bạn thường chia dữ liệu thành hai phần, một phần thực hiện
và một phần kiểm tra, tôi giới thiệu cho bạn một node partition để làm việc này: Field Ops/
Partition, bạn chọn node Partition bò vào cửa sổ làm việc. Bạn nhớ kết nối chúng lại thành
một dòng chảy bằng các mũi tên nhé.
Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 13



Hình 4.2: Cửa sổ làm việc Partition

Partition field: Tên sẽ được tự động hiển thị theo lệnh được yêu cầu ở đây là Partition, bạn có
thể đặt tên khác không vấn đề gì.
Partitions: Train and test : bạn có thể chia mẫu làm hai thực hiện và kiểm tra
Train,test and validation : thực hiện, kiểm tra và xác nhận
Training partition size : % mẫu để thực hiện
Testing partition size : % mẫu để kiểm tra
Validation partition size : % mẫu để xác nhận
Values : bạn muốn chúng hiển thị kết quả như thế nào :
Use system-defined values : chỉ hiển thị số tương ứng ví dụ : 1 : “training”
Append labels to system-defined values hiển thị số và labels
Use labels as vaules : hiển thị labels :training
Set random seed Seed : ( vì cách lấy mẫu là ngẫu nhiên do đó, khi bạn thực hiện những lần
khác nhau, hoặc trên các máy khác nhau sẽ được kết quả khác nhau và không thể so sánh
được) ở đây bạn nên khai báo một số cụ thể và nhớ mãi con số này để những lần sau bạn
chạy lại vẫn đạt được kết quả như lần đầu.
Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 14




Hình 4.3: Cửa sổ làm việc Partition sau khi khai báo

Thực hiện phân cụm : k-means và two Step. Ở thanh Palette chọn Modeling node/
Segmentation/ chọn K-Means và Two Step

Hình 4.4: Stream với lựa chọn các node phân cụm

Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 15


Với kỹ thuật K-Means sẽ có bản sau:

Hình 4.5: Cửa sổ K-Means

Model name: Tự hiển thị tên theo lệnh thực hiện, hoặc bạn có thể đặt tên lại cho lệnh này
“phan cum” hay tùy ý bạn.
Use partitioned data: Sử dụng dữ liệu phân vùng. Nếu trước đó dữ liệu của bạn đã thực hiện
lệnh Partition.
Number of clusters:. Xác định số lượng cụm để tạo ra. (Mặc định là 5), Ở đây chúng ta chọn
2
Generate distance field : khoảng cách từ mỗi quan sát (hồ sơ) đến trung tâm cụm
Show cluster proximity: Khoảng cách giữa các trung tâm cụm
Cluster label : Tên thành viên cụm, String kiểu chuỗi (ví dụ "Cluster1", "cluster2", vv), hoặc
number số 1,2.
Lưu ý thông thường, clementine sẽ tự động bê tất cả các biến vào phân cụm, kể cả id (thật là
buồn cười nhỉ). Vì thế, bạn cần phải giới hạn số lượng biến lại. Chọn Fields (ở góc dưới bên
trái): Mặc định máy sẽ chọn Use type node settings, bạn sẽ chọn lại là Use custom settings/ chọn
biểu tượng nhập vào sẽ xuất hiện bảng Select Fields như sau:

Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 16



Hình 4.6: Chọn các biến vào mô hình

Bạn chọn một số biến cần thiết rồi apply/ok. kết quả như sau:

Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×