LOGO
BIDS – Khách hàng tiềm năng
www.ntvx.com
www.ntvx.com
Nội dung
Giới thiệu
1
Kỹ thuật
2
Kết luận từ mô hình
3
www.ntvx.com
Giới thiệu
Dữ liệu được thu thập và lưu trữ trong các
CSDL đã vượt ra ngoài khả năng của con
người có thể hiểu được chúng nếu không có
những công cụ hỗ trợ tốt.
Điều này đã đặt chúng ta trong hoàn cảnh
nhiều dữ liệu nhưng thiếu thông tin, thiếu
tri thức.
Chính vì vậy, có một kỹ thuật mới ra đời đó
là “Khai phá dữ liệu”.
www.ntvx.com
Giới thiệu
Một số hệ thống khai phá dữ liệu:
Intelligent Miner (IBM)
Microsoft data mining tools (Microsoft SQL
Server 2000/2005/2008)
Oracle Data Mining (Oracle 9i/10g/11g)
Enterprise Miner (SAS Institute)
Weka (the University of Waikato, New Zealand,
www.cs.waikato.ac.nz/ml/weka)
…
www.ntvx.com
Giới thiệu
Để thực hiện bài tập lớn môn học lần này
nhóm chúng tôi gồm có các thành viên sau:
Hồ Lý Minh Nghĩa,
Phan Thị Thu Thủy,
Nguyễn Minh Tường Vi,
Lê Anh Xuân.
Đã chọn SQL server 2008 cùng với bộ
công cụ của nó để mô tả cho ý tưởng của
chúng tôi như sau:
www.ntvx.com
Giới thiệu
Công ty của chúng tôi là một công ty kinh
doanh về địa ốc, chúng tôi đã có 1 lượng lớn
khách hàng ( KH) đã từng mua sản phẩm đất
nền phân lô trong các dự án trước đây của
chúng tôi.
Tuy nhiên, do tình hình thị trường bất động
sản có nhiều chuyển biến trong thời gian gần
đây, nên công ty của chúng tôi muốn tung ra
sản loại phẩm mới đó là biệt thự xây dựng
sẵn. Công ty muốn tổ chức 1 hội nghị khách
hàng để giới thiệu sản phẩm.
www.ntvx.com
Giới thiệu
Vấn đề là, kinh phí để tổ chức cũng hạn
hẹp, không đủ điều kiện để mời tất cả KH. Do
đó bộ phận bán hàng, đề nghị chỉ mời các KH
tiềm năng, nghĩa là KH có thể sẽ mua sản
phẩm mới của công ty.
Lúc này, gánh nặng xác định đâu là KH
tiềm năng được trao cho bộ phận marketing
của NTVX. Và mọi chuyện bắt đầu.
www.ntvx.com
Nội dung
Giới thiệu
1
Kỹ thuật
2
Quá trình khám phá tri thức
Data
Cleaning
Data Integration
Data Sources
Data Warehouse
Knowledge
Task-relevant Data
Selection/Transformation
Data Mining
Pattern Evaluation/
Presentation
Patterns
www.ntvx.com
www.ntvx.com
Kỹ thuật
Các vấn đề chuẩn bị:
Dữ liệu.
Lựa chọn công cụ thực hiện.
Quá trình thực hiện.
www.ntvx.com
Kỹ thuật
Dữ liệu gốc ( mẫu):
DonVi PL_KH MKH doanhthu
BDHTA 23 BDG000000233 220000
BDHDA 23 BDG000000247 251046
CDBDT 23 BDG000000249 44000
CDBDT 23 BDG000000255 135000
CDBDT 21 BDG000000256 0
CDBDT 21 BDG000000258 20000
CDBDT 21 BDG000000258 0
www.ntvx.com
Kỹ thuật
Donvi Phanloai Makh Soluong Doanhthu Dv_moi
BDHDT 21 BDG00000001 8 1 176510 0
BDHDT 21 BDG000000020 1 60000 0
BDHDA 21 BDG000000028 1 186030 0
CDBDT 21 BDG000000036 1 0 0
BDHDA 21 BDG000000037 1 2567 1 0
BDHDA 23 BDG00000005 3 2 393179 0
CDBDT 21 BDG00000009 3 1 2839 0 0
CDBDT 23 BDG00000015 4 1 55651 0
Data sau khi “điều chế” được import và csdl
của SQL Server 2008:
www.ntvx.com
Kỹ thuật – Tạo Project
Khởi động Microsoft Visual Studio -> chọn
menu File ->New -> Project.
Chọn Business Intelligence Projects ->
Analysis Services Project.
Tại mục Name ta đặt tên cho Project là
KhachHangTiemNang, chọn thư mục lưu. Rồi
Nhấn OK. Xem hình.
www.ntvx.com
Kỹ thuật - DataSource
Trong cửa sổ Solution
Explorer nhấp phải chuột vào
Data Source chọn New Data
Source.
Màn hình Select how to define the
connection xuất hiện. Chọn New.
Cấu hình nguồn dữ liệu bằng cách chọn
server name và chọn Database. Nhấn Ok.
Wellcome to Data Source
Wizard xuất hiện, nhấn Next.
www.ntvx.com
Quay lại màn hình Select how to define
the connection, chọn Next.
Nhập user name và pasword cho connetion
vừa tạo rồi nhấn Next.
Đặt tên cho Data Source
và nhấn Finish.
Như vậy chúng ta đã có
nguồn dữ liệu cho các tác vụ
tiếp theo.
Kỹ thuật - DataSource
www.ntvx.com
Kỹ thuật – DataSource View
Trong cửa sổ Solution
Explorer nhấp phải chuột và
Data Source Vies, chọn New
Data Source Vies.
Màn hình Select Data Source xuất hiện.
Chọn Data Source đã tạo lúc trước ->Next.
Màn hình Select Table and views xuất hiện.
Chọn table Dulieu_vao ->Next.
www.ntvx.com
Kỹ thuật – DataSource View
Đặt tên cho
Data Source
view và nhấn
Finish.
Như vậy chúng
ta đã có khung
nhìn nguồn dữ
liệu. Công việc
tiếp theo là tạo
mô hình huấn
luyện.
www.ntvx.com
Kỹ thuật – Mining structures
Tại cửa sổ Solution Explorer
nhấp chuột phải vào Mining
Structures -> New Mining
Structure.
Cửa sổ Wellcome to the
Data Mining Wizard xuất
hiện -> Next.
Cửa sổ Select the Definiton Method xuất
hiện, chọn phương thức thứ nhất -> Next.
www.ntvx.com
Kỹ thuật – Mining structures
Cửa sổ Create the Data Mining Structure xuất
hiện, chọn mô hình Microsoft Decision Trees
-> Next.
www.ntvx.com
Kỹ thuật – Mining structures
Chọn DSV vừa tạo trước đó -> Next.
Chọn bảng chính ( case ) và bảng phụ
( nested). Ở đây do dữ liệu của chúng ta chỉ
lấy từ 1 bảng nên hệ thống đã chọn mặc
định -> Next.
www.ntvx.com
Kỹ thuật – Mining structures
Màn hình Specify the Training Data cho
chúng ta chỉ định trường dữ liệu nào là
khóa, dữ liệu vào dùn để huấn luyện và
trường dữ liệu dùng để dự báo (Nút Suggest
cho phép hệ thống tự chọn các trường dữ
liệu phù hợp) ->Next.
www.ntvx.com
Kỹ thuật – Mining structures
Màn hình Specify Columns Content and
Data Type cho chúng ta chỉ định nội dung
của trường dữ liệu cấu trúc KPDL và kiểu dữ
liệu của chúng. Nút Detect cho phép hệ
thống tự phát hiện dữ liệu liên tục hay theo
khoảng) -> Next
www.ntvx.com
Kỹ thuật – Mining structures
Màn hình Create Testing Set xuất hiện,
cho chúng ta chỉ định % dữ liệu được dùng
để kiểm tra độ chính xác của mô hình ( lúc
này dữ liệu được chia thành 2 tập Tập HL và
tập KT) ->Next.
www.ntvx.com
Kỹ thuật – Mining structures
Đặt tên cho cấu trúc của mô hình và tên mô
hình -> Nhấn Finish.
Để chạy được mô hình vừa tạo, chúng ta cần
thực thi nó: Nhấp chuột phải vào tên mô
hinh vừa tạo ra trong mục Mining Structures
-> chọn process -> Run.
Cho đến khi có thông báo như hình sau:
www.ntvx.com
Kỹ thuật – Mining structures