HDSD clementine cơ sở dự liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.25 MB, 35 trang )

Khai thác dữ liệu trong kinh doanh

LÀM QUEN VỚI PHẦM MỀM KHAI THÁC DỮ LIỆU
CLEMENTINE 12.0
1. Cửa sổ làm việc:

managers
Treams

project
palette

Hình 1.1: Cửa sổ làm việc của clementine
File: (stream, managers, project, outputs) khởi tạo, mở các file có sẵn, lưu file…
Edit: Các lựa chọn undo, cắt/dán, delete, rename… trên file (stream, models, project,
outputs)
Insert: Thực hiện một số các thao tác trên dữ liệu (chức năng gần giống như thanh
Palette)
View: tắt/mở thanh công cụ, palette, managers, project.
Tools : một số các tùy chọn nâng cao: tạo mật khẩu, quản lý các palette…
1.1 Cửa sổ chính: Stream (lưu đồ dòng chảy):
Là khu vực lớn nhất của cửa sổ Clementine và là nơi mà bạn sẽ xây dựng và thao tác
trên dữ liệu. Stream được tạo ra bằng cách giống như vẽ một bản đồ, cách thức để khai
thác dữ liệu. Mỗi hoạt động được đại diện bởi một biểu tượng hoặc node, và các node
liên kết với nhau trong một dòng giống như dòng chảy của dữ liệu thông qua mỗi hoạt
động.

GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM

1

Khai thác dữ liệu trong kinh doanh

Bạn có thể làm việc (thực hiện nhiều lưu đồ) cùng một lúc trong stream, hoặc mở
một stream mới. Trong một phiên, stream được lưu trữ trong thanh managers , ở phía trên
bên phải của cửa sổ Clementine.
1.2 Các Palette nodes:
Hầu hết các dữ liệu và công cụ mô hình hóa trong Clementine cư trú trong bảng
các nút, phía dưới cùng của cửa sổ .
Để thêm các node vào dòng dữ liệu, bạn chỉ cần click đúp vào biểu tượng từ các
Palette Nodes hoặc kéo và thả chúng vào stream. Sau đó kết nối chúng để tạo ra một
dòng, đại diện cho dòng chảy của dữ liệu.
Mỗi palette nodes chứa một tập các nút liên quan, sử dụng cho các giai đoạn khác
nhau của các hoạt động dòng chảy, chẳng hạn như:
• Sources: Các nút đưa dữ liệu vào Clementine.
• Record Ops. Các nút thực hiện các hoạt động trên các dữ liệu, chẳng hạn như lựa
chọn, hợp nhất, và thêm.
• Field Ops. Các nút thực hiện các hoạt động trên các items của dữ liệu, như lọc,
them các items mới, và xác định các kiểu dữ liệu cho các items nhất định.
• Graphs: Các nút đồ họa hiển thị dữ liệu trước và sau khi thực hiện các bước khai
thác dữ liệu.
• Modeling: (Mô hình hóa) Các nút sử dụng mô hình hóa các thuật toán có sẵn trong
Clementine, như mạng thần kinh, cây quyết định, các thuật toán clustering, và sắp xếp dữ
liệu.
• Output: Các nút xuất một loạt các dữ liệu, bảng biểu, và kết quả mô hình, có thể
được xem trong Clementine hoặc gửi trực tiếp đến một ứng dụng khác, chẳng hạn như
SPSS hoặc Excel.
1.2.a Giới thiệu Sources nodes:
Chọn node Sources: Bạn có thể chọn một số nguồn lưu trữ dữ liệu, ví dụ ở đây bạn
chọn nguồn là SPSS, bạn click đúp chọn biểu tượng SPSS File kéo thả vào Stream

GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM

2

Khai thác dữ liệu trong kinh doanh

Hình 1.2: Chọn nguồn dữ liệu là file SPSS
Sau đó bạn click đúp vào biều tượng để hướng dẫn đến file dữ liệu spss :

Hình 1.3: Cửa sổ khai báo nguồn dữ liệu file SPSS
Import file: Chọn đường dẫn cho file dữ liệu
Filter: Mặc định sẽ chọn toàn bộ dữ liệu, bạn có thể chọn hạn chế một số biến để
phục vụ cho mục đích của bạn.

GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM

3

Khai thác dữ liệu trong kinh doanh

Types: Mặc định sẽ là những gì bạn định nghĩa trên file dự liệu gốc, bạn có thể thay
đổi: kiểu giá trị(types), values, missing
Khi có được dữ liệu, chọn apply rồi ok.

Hình 1.4: cửa sổ khai báo dữ liệu file excel
Nút nguồn Excel cho phép bạn nhập dữ liệu từ bất kỳ phiên bản nào của Microsoft
Excel.

Import file: Chỉ định tên và vị trí của tập tin excel để nhập vào.
Use named range: Cho phép bạn chỉ định một loạt tên của các cột được định
nghĩa trong bảng tính Excel. Click vào nút chọn(...) để chọn từ danh sách các phạm vi có
sẵn. Tất cả các hàng trong phạm vi quy định được trả về, bao gồm cả các hàng trống. Với
các tên được sử dụng, vùng dữ liệu còn lại sẽ không có giá trị không thể khai thác được.
Worksheet: Chỉ định worksheet được chọn vào, bằng chỉ số hay theo tên:
• Index. Xác định giá trị chỉ số cho các worksheet mà bạn chọn vào, bắt đầu
bằng 0 cho sheet đầu tiên, 1 cho sheet thứ hai, và như vậy.
• Name. Chỉ định tên của worksheet mà bạn chọn vào. Click vào nút (...) để
chọn từ danh sách các worksheet sẵn.

GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM

4

Khai thác dữ liệu trong kinh doanh

Data range: Bạn có thể nhập dữ liệu bắt đầu với các hàng không trống đầu tiên
hoặc với một phạm vi rõ ràng:
• First non-blank row: Định vị các biến không trống đầu tiên và sử dụng bắt
đầu từ góc trên bên trái của vùng dữ liệu. Nếu gặp một hàng trống tiếp theo, bạn có thể
chọn để ngừng đọc (stop reading) hoặc chọn hàng trở lại trống để tiếp tục đọc tất cả dữ
liệu vào cuối của bảng tính (return blank rows), bao gồm cả các hàng trống.
• Explicit range: Cho phép bạn chỉ định một phạm vi rõ ràng của hàng hoặc
cột (ví dụ, A3: G178). Tất cả các hàng trong phạm vi quy định được trả về, bao gồm cả
các hàng trống.
First row contains field names :Hàng đầu tiên chứa tên biến. Chỉ ra rằng hàng đầu
tiên trong phạm vi quy định nên được sử dụng như trường tên. Nếu không được chọn, tên
trường được tạo ra tự động.

Lưu ý:
Theo mặc định, với các cột (biến) chứa hai hay nhiều hơn kiểu (type) dữ liệu số và
chuỗi, một trong hai giá trị đó sẽ bị mất (không có giá trị giống như trong spss) trong
Clementine. Không giống như Excel-Clementine không cho phép lưu trữ các loại hỗn
hợp trong một biến. Để tránh điều này, bạn có thể tự thiết lập các định dạng của ô văn
bản trong các bảng tính Excel, tạo ra các giá trị (bao gồm số) để đọc.
1.2.b Giới thiệu Record Operations:
Các nút được sử dụng để thay đổi dữ liệu. Các hoạt động này rất quan trọng trong
việc hiểu và chuẩn bị dữ liệu cho khai thác dữ liệu bởi vì chúng cho phép bạn chỉnh các
dữ liệu cho nhu cầu riêng của mình.

The select node: chọn hoặc loại bỏ một tập hợp các dòng dữ liệu dựa trên
một điều kiện cụ thể. Ví dụ, bạn có thể chọn dữ liệu ở một khu vực nhất định. ví dụ: tp
(thành phố) = 1 (thành phố HCM). Đây là cửa sổ làm việc của nút select:

GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM

5

Khai thác dữ liệu trong kinh doanh

Hình 1.5: Bảng select
Mode: Chỉ định xem dòng dữ liệu sẽ được chọn hoặc loại trừ khi thỏa mãn điều kiện.
• Include. Chọn bao gồm các dòng dữ liệu đáp ứng các điều kiện lựa chọn.
• Discard. Chọn để loại trừ các hồ sơ đáp ứng các điều kiện lựa chọn.
Condition: Hiển thị các điều kiện lựa chọn sẽ được sử dụng để kiểm tra mà bạn tự
nhập vào một biểu hiện trong cửa sổ hoặc sử dụng Expression Builder bằng cách nhấn
vào máy tính (Expression Builder) nút bên phải của cửa sổ.
Select node cũng được sử dụng để lấy mẫu. Thông thường, bạn sẽ sử dụng một nút

sample cho hoạt động này. Tuy nhiên, nếu điều kiện bạn muốn xác định là phức tạp hơn
các thông số được cung cấp, bạn có thể tạo điều kiện riêng của bạn bằng cách sử dụng
nút Select. Ví dụ tp (thành phố) = 1 random(40).
the sample node: Các nút lựa chọn mẫu cho tập hợp các hồ sơ. Một loạt các
loại mẫu được hỗ trợ, bao gồm ngẫu nhiên đơn giản, phân tầng, cả khối... Lấy mẫu có thể
hữu ích để cải thiện hiệu suất, và để chọn nhóm các hồ sơ liên quan, giao dịch để phân
tích.

GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM

6

Khai thác dữ liệu trong kinh doanh

Hình 1.5: Bảng sample

Sample method : simple
Mode: Chọn (bao gồm) hoặc loại trừ các hồ sơ cho các phương thức sau đây:
Chọn phương pháp lấy mẫu từ các tùy chọn sau:
• First. Chọn lấy n hồ sơ đầu tiên của dữ liệu. Ví dụ, nếu kích thước mẫu tối đa
được thiết lập là 10.000, bạn sẽ được 10.000 hồ sơ đầu tiên.
• 1-trong-n. Chọn mẫu theo kiểu bước nhảy. Ví dụ, nếu n được thiết lập đến 5, các
hồ sơ sẽ được lấy là 5,10,15,20....
• Random%. Chọn mẫu ngẫu nhiên một tỷ lệ phần trăm của dữ liệu. Ví dụ, nếu bạn
thiết lập các tỷ lệ phần trăm đến 20, thì 20% dữ liệu sẽ được chọn.

The balance node: Các nút chỉnh cân bằng sự mất cân bằng trong bộ dữ liệu, vì
vậy nó phù hợp với một điều kiện quy định. Các chỉ thị điều chỉnh cân bằng tỷ lệ của hồ
sơ theo các điều kiện đặt ra.

GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM

7

Khai thác dữ liệu trong kinh doanh

The Aggregate node: Nút tổng hợp thay thế một chuỗi các hồ sơ đầu vào với
tóm tắt, tổng hợp hồ sơ đầu ra

The recency, frequency, monetary (RFM):

The sort node: Xếp loại các hồ sơ tăng hoặc giảm dựa trên các giá trị của một
hay nhiều tiêu chí
The merge node: Các nút Merge có nhiều hồ sơ đầu vào và tạo ra một bản ghi
đầu ra duy nhất có chứa một số hoặc tất cả các lĩnh vực đầu vào. Nó rất hữu ích cho việc
sáp nhập dữ liệu từ nhiều nguốn khác nhau.

The distinct node: Loại bỏ các hồ sơ

The append node: Các nút Thêm hồ sơ, Nó rất hữu dụng cho việc kết hợp các bộ
dữ liệu với cấu trúc tương tự nhưng dữ liệu khác nhau.
1.2.c. Giới thiệu Field operations:
Sau khi thăm dò dữ liệu ban đầu, có thể bạn sẽ phải lựa chọn, làm sạch, hoặc xây
dựng dữ liệu để chuẩn bị cho phân tích. Các lĩnh vực hoạt động bảng chứa nhiều các nút
hữu ích cho việc chuyển đổi này và chuẩn bị.
the type node: Nút xác định kiểu dữ liệu. Thiết lập vai trò của các biến cho các
mục đích xây dựng mô hình, xác định kiểu dữ liệu, giá trị…cho biết dữ liệu được lưu
trữ như là chuỗi, số nguyên, số thực, ngày tháng, thời gian.

GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM

8

Khai thác dữ liệu trong kinh doanh

Hình 1.5: Cửa sổ khai báo type
• Values: Bạn có thể sử dụng toàn bộ những values đã có ở file gốc bằng cách chọn Read
Values, hoặc tạo mới bằng cách ở cột Values bạn chọn specify. Các nhãn mà bạn chỉ
định trong nút hình được hiển thị trong Clementine tùy thuộc vào các lựa chọn bạn thực
hiện trong các thuộc tính dòng hộp thoại.
• Missing values: Được sử dụng để xác định các giá trị sẽ được coi như là khoảng
trắng.
• Value checking: Trong cột Kiểm tra, bạn có thể thiết lập các tùy chọn để đảm bảo
rằng giá trị trường phù hợp với phạm vi quy định.

the filter node: Lọai bỏ một số biến

the reclassify node: Phân loại lại, nút chuyển đổi một tập các giá trị rời rạc khác.
Phân loại lại rất hữu dụng cho thu gọn danh mục hoặc tập hợp dữ liệu để phân tích.
the bining node: Các nút Binning tự động tạo ra thiết lập mới dựa trên các giá trị
số của biến thành giá trị phân loại. Ví dụ, bạn có thể chuyển đổi biến thu nhập dạng số
GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM

9

Khai thác dữ liệu trong kinh doanh

thành dạng biến các nhóm thu nhập theo trung bình và độ lệch chuẩn.

Nếu bạn có cài đặt SPSS và được cấp phép trên máy tính của bạn, các Transform
SPSS, được thực hiện bằng lệnh cú pháp của SPSS trên các nguồn dữ liệu trong
Clementine.

the Partition node: Các nút phân vùng tạo ra một lĩnh vực phân vùng, trong đó
chia tách các dữ liệu vào tập hợp con riêng cho việc thực hiện, thử nghiệm, và kiểm tra
việc xây dựng mô hình.

the restructure node

the transpose node:Các nút Transpose giao dịch hoán đổi các dữ liệu trong các
hàng và cột .
1.2.d Export node:
Cung cấp một cơ chế xuất dữ liệu trong các định dạng khác nhau để giao tiếp với các
công cụ phần mềm khác của bạn.

Các nút xuất SPSS đầu ra dữ liệu trong SPSS. Định dạng SAV. Clementine đặt
tên biến cho một số biến kết quả tên SPSS đôi khi có thể gây ra lỗi bởi vì tên biến trong
SPSS được giới hạn đến 64 ký tự và không thể bao gồm một số ký tự, chẳng hạn như
dấu cách, dấu hiệu đồng đô la ($), và dấu gạch ngang (-). Có hai cách để điều chỉnh
những hạn chế này:

GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM

10

Khai thác dữ liệu trong kinh doanh

Hình 1.5: Cửa sổ khai báo các biến được xuất ra trên file SPSS
• Bạn có thể đổi tên các lĩnh vực phù hợp với yêu cầu SPSS tên biến bằng cách chọn biểu
tượng lọc/ chọn Rename for SPSS. để đổi tên hoặc lọc Fields cho SPSS
Export:
Export field names. Chỉ định một phương pháp xử lý tên biến và nhãn khi xuất từ
Clementine cho một SPSS file SAV.
• Names and variable labels: Tên và nhãn biến. Tên được xuất như tên biến SPSS,
trong khi nhãn được xuất như nhãn biến SPSS.
• Names as variable labels: Tên là nhãn biến. Chọn để sử dụng các tên trường
Clementine làm nhãn biến trong SPSS. Clementine cho phép ký tự trong tên trường mà
không hợp lệ trong tên biến SPSS.
Sau khi đã có đựơc những gì mong muốn chọn Execute.

2. Sử dụng chuột trong Clementine:
Việc sử dụng con chuột trong Clementine bao gồm:
• Single-click. Sử dụng hoặc bên phải hoặc nút chuột trái để chọn các tùy chọn từ
menu, menu ngữ cảnh mở, và truy cập các điều khiển khác theo tiêu chuẩn và tùy chọn.
Click và giữ node để di chuyển và kéo các node.
GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM

11

Khai thác dữ liệu trong kinh doanh

• Kích đúp vào. Click đôi vào sử dụng nút chuột trái để đặt các node trên khung dòng
và chỉnh sửa các node hiện có.
• Trung-click. Click vào nút chuột giữa và kéo con trỏ để kết nối các node trên khung

dòng. Nhấn chuột phải để ngắt kết nối một node. Nếu bạn không có một con chuột có ba
nút, bạn có thể giả lập tính năng này bằng cách nhấn phím Alt trong khi click và kéo
chuột.

3.Làm việc với Clementine là một quá trình ba bước:
• Trước tiên, bạn đọc dữ liệu vào Clementine.
• Sau đó, chạy dữ liệu thông qua một loạt các thao tác
• Và cuối cùng, gửi dữ liệu đến một đích đến.
Chuỗi các hoạt động này được biết đến như một dòng dữ liệu vì dữ liệu lưu trữ từ các
nguồn thông qua thao tác để có được thông tin mong muốn cuối cùng, được chuyển đến
là một mô hình, biểu đồ hay kiểu dữ liệu đầu ra.

4.Phân tích cụm:
Trước tiên bạn phải đọc dữ liệu, như phần giới thiệu ở trên.
Và để thống nhất kiểu dữ liệu cho mô hình phân tích cụm ta chọn type (ở Filed Ops)
để khai báo lại kiểu scale cho toàn bộ các biến:

GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM

12

Khai thác dữ liệu trong kinh doanh

Hình 4.1: Strean chuẩn bị dữ liệu
Đây là bước chuẩn bị cho một bộ dữ liệu đã sẵn sàng cho các yêu cầu tiếp theo của
bạn.
Ở một số các mô hình phân cụm, bạn thường chia dữ liệu thành hai phần, một phần
thực hiện và một phần kiểm tra, tôi giới thiệu cho bạn một node partition để làm việc
này: Field Ops/ Partition, bạn chọn node Partition bỏ vào cửa sổ làm việc. Bạn nhớ

kết nối chúng lại thành một dòng chảy bằng các mũi tên nhé. Sau đó, bạn click đúp
vào biểu tượng Partition, hộp thoại Partition mở ra như sau:

Hình 4.2: Cửa sổ làm việc Partition
Partition field: Tên sẽ được tự động hiển thị theo lệnh được yêu cầu ở đây là Partition,
bạn có thể đặt tên khác không vấn đề gì.
Partitions: Train and test : bạn có thể chia mẫu làm hai thực hiện và kiểm tra
Train,test and validation : thực hiện, kiểm tra và xác nhận
Training partition size : % mẫu để thực hiện
Testing partition size : % mẫu để kiểm tra
Validation partition size : % mẫu để xác nhận
Values : bạn muốn chúng hiển thị kết quả như thế nào :
GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM

13

Khai thác dữ liệu trong kinh doanh

Use system-defined values : chỉ hiển thị số tương ứng ví dụ : 1 : “training”
Append labels to system-defined values: hiển thị số và labels
Use labels as vaules : hiển thị labels :training
Set random seed Seed: (vì cách lấy mẫu là ngẫu nhiên do đó, khi bạn thực hiện những
lần khác nhau, hoặc trên các máy khác nhau sẽ được kết quả khác nhau và không thể
so sánh được) ở đây bạn nên khai báo một số cụ thể và nhớ mãi con số này để những
lần sau bạn chạy lại vẫn đạt được kết quả như lần đầu.

Hình 4.3: Cửa sổ làm việc Partition sau khi khai báo
Thực hiện phân cụm : k-means và two Step. Ở thanh palette chọn Modeling node/
Segmentation/ chọn K-Means và Two Step

GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM

14

Khai thác dữ liệu trong kinh doanh

Hình 4.4: Stream với lựa chọn các node phân cụm
Với kỹ thuật K-Means sẽ có bản sau:

Hình 4.5: Cửa sổ K-Means
GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM

15

Khai thác dữ liệu trong kinh doanh

Model name: Tự hiển thị tên theo lệnh thực hiện, hoặc bạn có thể đặt tên lại cho lệnh
này “phan cum” hay tùy ý bạn.
Use partitioned data: Sử dụng dữ liệu phân vùng. Nếu trước đó dữ liệu của bạn đã
thực hiện lệnh Partition.
Number of clusters:. Xác định số lượng cụm để tạo ra. (Mặc định là 5), Ở đây
chúng ta chọn 2.
Generate distance field : khoảng cách từ mỗi quan sát (hồ sơ) đến trung tâm cụm.
Show cluster proximity: Khoảng cách giữa các trung tâm cụm.
Cluster label : Tên thành viên cụm, String kiểu chuỗi (ví dụ "Cluster1", "cluster2",
vv), hoặc number số 1,2.
Lưu ý: thông thường, clementine sẽ tự động bê tất cả các biến vào phân cụm, kể cả

id (thật là buồn cười nhỉ). Vì thế, bạn cần phải giới hạn số lượng biến lại. Chọn Fields (ở
góc dưới bên trái): Mặc định máy sẽ chọn Use type node settings, bạn sẽ chọn lại là Use
custom settings/ chọn biểu tượng nhấp vào sẽ xuất hiện bảng Select Fields như sau:

Hình 4.6: Chọn các biến vào mô hình

GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM

16

Khai thác dữ liệu trong kinh doanh

Bạn chọn một số biến cần thiết rồi apply/ok. kết quả như sau:

Hình 4.7: Cửa sổ khai báo biến
Thủ tục hoàn tất chỉ cần lệnh cho máy thực hiện Execute. Bạn để ý trên cửa sổ
managers/Models sẽ hiện ra kết quả. bạn chỉ cần click đúp vào biểu tượng, nó sẽ được
đưa qua lưu đồ,và nhiệm vụ của bạn là gắn nó vào lưu đồ của mình, để xem kết quả bạn
click đúp vào biểu tượng trong lưu đồ:

GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM

17

Khai thác dữ liệu trong kinh doanh

Hình 4.7: Kết quả trung bình cụm

Hình 4.8: Kết quả trung bình cụm bằng hình
GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM

18

Khai thác dữ liệu trong kinh doanh

Tôi hi vọng là bạn đọc được thông tin từ hai bảng này. Chỉ lưu ý một điểm ở hình
trên cột cuối cùng hiển thị tầm quan trọng của các biến trong mô hình để có thể gắn trọng
số cho biến và giúp mô hình thực hiện hiệu quả hơn, ở phần sau sẽ giới thiệu bạn biểu đồ
mạng nhện.
Ngoài kết quả có được từ clementine bạn cũng có thể yêu cầu xuất kết quả phân cụm
qua excel hoặc vẽ một số biểu đồ mô tả như tôi.

Hình 4.8: Stream K-Means

Hình 4.8: Bảng mô tả kết quả phân cụm trên dữ liệu kiểm tra
GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM

19

Khai thác dữ liệu trong kinh doanh

Với 273 quan sát dùng làm kiểm tra có 167(150+17) quan sát phân loại đúng đạt
61,17% một tỉ lệ không cao.
Kỹ thuật Two Step: Bước thực hiện khá giống với K-Means chúng ta sẽ quyết định
số lượng cụm là 2:

Hình 4.8:Bảng Two Step
Kết quả:

GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM

20

Khai thác dữ liệu trong kinh doanh

Hình 4.9:Kết quả Two Step
Kết quả kiểm tra phân cụm ở kỹ thuật Two Step tốt hơn rất nhiều : Với 273 quan sát
dùng làm kiểm tra có 217(193+24) quan sát phân loại đúng đạt 79,49% một tỉ lệ cao.
Toàn bộ bức tranh thực hiện phân tích cụm, khi nắm được những nguyên tắc cơ bản,
bạn có thể sáng tạo theo ý thích của mình để có được thông tin mong muốn.

GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM

21

Khai thác dữ liệu trong kinh doanh

Hình 4.10:Steam với kỹ thuật phân cụm

5.Mạng Thần kinh:
Sau khi đã có các bứơc chuẩn bị dữ liệu: Sources(khai báo dữ liệu), type (kiểu dữ
liệu), Partition(phân vùng) nếu cần.
Sử dụng dữ liệu gian lận bảo hiểm để làm ví dụ, hầu hết các mô hình phân loại đạt
hiệu quả kém nếu dữ liệu bị lệch (1.67% có gian lận). Do đó, chọn mẫu 120 ( 60 có gian

lận, 60 không gian lận) để chạy mô hình.
Chọn mô hình Neural Net ở thanh palette :

GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM

22

Khai thác dữ liệu trong kinh doanh

Hình 5.1: Bảng Neural
Fields/Usecustom settings/ Ở khung Targets bạn sẽ đưa biến Outcom vào, và khung
Inputs bạn đưa các biến Age, Gender,Claim,Tickets,Claims,Atty vào

Hình 5.2: Bảng khai báo biến

GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM

23

Khai thác dữ liệu trong kinh doanh

Hình 5.3: Bảng tùy chọn neural

Model:
Model name: Tên mô hình
Use partitioned data: Sử dụng dữ liệu phân vùng
Method: Phương pháp. Có sáu phương pháp để xây dựng mô hình mạng thần kinh:
• Quick: Phương pháp này dựa các đặc trưng của dữ liệu thực hiện một cách đơn

giản để tìm được một hình dạng thích hợp (cấu trúc liên kết) cho mạng.
• Dynamic: Phương pháp này tạo ra một cấu trúc liên kết đầu tiên, từ đó bằng cách
thêm và / hoặc loại bỏ các đơn vị ẩn càng lúc sẽ tiến bộ hơn.
• Multiple: Phương pháp này tạo ra nhiều cấu trúc liên kết mạng khác nhau (các
con số chính xác phụ thuộc vào dữ liệu). Các mạng này sau đó được thực hiện song
song. Kết thúc, các mô hình với các lỗi sai lệch thực tế thấp nhất là sẽ là mô hình
cuối.
• Prune. Phương pháp này bắt đầu với một mạng lưới rộng lớn và loại bỏ các đơn

GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM

24

Khai thác dữ liệu trong kinh doanh

vị yếu nhất trong các lớp ẩn và đầu vào. Phương pháp này thường chậm, nhưng nó
thường mang lại kết quả tốt hơn so với các phương pháp khác.
• RBFN. Mạng lưới cơ sở chức năng bố trí hình tròn (RBFN) sử dụng một kỹ thuật
tương tự như k-Mean là clustering để phân vùng dữ liệu dựa trên giá trị của biến mục
tiêu.
• Exhaustive prune: Phương pháp này có liên quan đến phương pháp Prune. Nó bắt
đầu với một mạng lưới rộng lớn và loại bỏ các đơn vị yếu nhất trong các lớp ẩn và
đầu vào . Với ExhaustivePrune, mạng lưới đào tạo các tham số được lựa chọn để đảm
bảo việc tìm kiếm rất kỹ lưỡng của không gian của các mô hình có thể tìm thấy tốt
nhất. Phương pháp này thường là chậm nhất, nhưng nó thường mang lại kết quả tốt
nhất. Lưu ý rằng phương pháp này có thể mất nhiều thời gian để thực hiện, đặc biệt là
với bộ dữ liệu lớn.
Prevent overtraining: Ngăn chặn làm việc quá sức. Tùy chọn này chia tách các dữ liệu
ngẫu nhiên vào thực hiện riêng biệt và đặt thử nghiệm cho mục đích xây dựng mô

hình. Xác định tỷ lệ dữ liệu được sử dụng để thực hiện trong hộp% mẫu trong nút
mạng thần kinh, và phần còn lại của dữ liệu sẽ được sử dụng để xác nhận.
Set random seed: Đặt hạt giống ngẫu nhiên. Một hạt giống ngẫu nhiên cụ thể luôn
luôn tạo ra cùng một trình tự của các giá trị ngẫu nhiên, trong trường hợp thực hiện
các nút mang lại cùng một mô hình tạo ra.
Stop on. Bạn có thể chọn một trong các tiêu chí ngăn chặn sau đây:
• Default. Với thiết lập này, mạng sẽ ngừng đào tạo khi mạng dường như đã đạt
đến trạng thái tối ưu được thực hiện.
• Accuracy: Độ chính xác (%). Với tùy chọn này, chương trình sẽ tiếp tục cho đến
khi xác định là đạt được. Điều này không bao giờ có thể xảy ra, nhưng bạn có thể làm
gián đoạn đào tạo tại bất kỳ điểm nào và lưu các mạng với độ chính xác tốt nhất đạt
được cho đến nay.
• Cycles. Với tùy chọn này, chương trình sẽ tiếp tục cho số quy định của chu kỳ (đi
qua các dữ liệu).
• Time: (phút). Với tùy chọn này, chương trình sẽ tiếp tục được ghi rõ thời gian
(theo phút). Lưu ý rằng chương trình có thể đi một chút vượt quá thời hạn quy định để
hoàn thành chu trình hiện hành.

GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM

25

HDSD clementine cơ sở dự liệu

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về