Tải bản đầy đủ (.pdf) (32 trang)

Tiểu luận môn khai phá dữ liệu Khai phá dữ liệu trong SQL Server

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (916.5 KB, 32 trang )

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
ĐẠI HỌC QUỐC GIA TPHCM




BÀI THU HOẠCH MÔN HỌC
KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU



Đề tài: Khai phá dữ liệu trong SQL Server



Giảng viên: PGS.TS Đỗ Phúc
Học viên: Đào Thị Phấn
Mã số: CH1101118


TPHCM, Tháng 11/2012
Trang 2


MỤC LỤC

LỜI NÓI ĐẦU 3
Phần 1: Tổng quan khai phá dữ liệu 4
1.1. Khai phá dữ liệu là gì? 4
1.2. Các ứng dụng và chức năng của khai phá dữ liệu 4
1.3. Các bước trong khai phá dữ liệu 5


1.4. Một số phương pháp khai phá dữ liệu 6
Phần 2: Khai phá dữ liệu trong SQL Server 2005 8
2.1. Các bước khai phá dữ liệu c
ủa Microsoft 8
2.2. Các thuật toán khai phá dữ liệu trong Microsoft SQL Server 8
2.3. Vấn đề sử dụng các thuật toán 14
2.4. Công cụ khai phá dữ liệu 16
2.5. Khai phá dữ liệu bằng câu lệnh SQL 20
PHỤ LỤC 24
TÀI LIỆU THAM KHẢO 32




Trang 3


LỜI NÓI ĐẦU
Trong môi trường thương mại điện tử ngày nay, lĩnh vực khai phá dữ liệu (data
mining) ngày càng thu hút nhiều sự quan tâm. Nhờ vào các phương tiện tự động hay
bán tự động, data mining khảo sát và phân tích trên một lượng lớn dữ liệu để rút ra
những mẫu và qui luật có ý nghĩa. Các thông tin này giúp các công ty kinh doanh
chẳng hạn như hiểu rõ khách hàng hơn để từ đó có các chiến lược phù hợp hơn nhằm
nhằm cải thiện hoạt độ
ng tiếp thị, bán hàng và hỗ trợ khách hàng.
Trong những năm gần đây, Microsoft đã đưa ra OLE DB cho giao diện lập trình
ứng dụng (API) data mining với nhiều data mining provider hàng đầu. API này định
nghĩa một ngôn ngữ truy vấn data mining dựa trên cú pháp SQL (Structured Query
Language). Các mô hình data mining (Data Mining Model) được xem như là một dạng
đặc biệt của bảng quan hệ. Các tính toán dự báo được xem như là một dạng đặc biệt

của phép kết. Hệ quản trị dữ liệu Microsoft SQL Server 2005 cung cấp Microsoft data
mining provider d
ựa trên OLE DB cho chuẩn Data Mining. Provider này gồm một số
thuật toán data mining phổ biến như Microsoft Decision Trees, Microsoft Clustering,
Microsoft Naïve Bayes, …
Tiểu luận này trình bày khái quát về khai phá dữ liệu, đồng thời trình bày sự hỗ
trợ khai phá dữ liệu trong một hệ quản trị cơ sở dữ liệu phổ biến, đó là SQL Server
2005 và cuối cùng là minh họa cho quá trình khai thác dữ liệu trên một công cụ của
SQL Server 2005.
Em xin chân thành cảm ơn PGS.TS. Đỗ Phúc – Giảng viên môn học Khai Phá
Dữ Liệu và Kho Dữ
Liệu đã truyền đạt cho em những kiến thức vô cùng quý báu. Em
cũng xin chân thành cảm ơn quý Thầy Cô thuộc phòng đào tạo Sau đại học đã tạo điều
kiện về tài liệu tham khảo để em có thể hoàn thành môn học này.
Chân thành cảm ơn!
Trang 4

Phần 1: Tổng quan khai phá dữ liệu
1.1. Khai phá dữ liệu là gì?
Khai phá dữ liệu nhằm rút trích thông tin hữu ích, chưa biết, tiềm ẩn, phân tích
dữ liệu bán tự động, giải thích dữ liệu trên các tập dữ liệu lớn.
Khai phá dữ liệu - Data mining, là một bước của tiến trình KDD (Knowledge
Discovery in Database), cung cấp tri thức hỗ trợ ra quyết định, dự báo và khái quát dữ
liệu, tiến trình này bao gồm:
• Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề (Problem
understanding and data understanding).
• Chuẩn bị dữ liệu (Data preparation), bao gồm các quá trình làm sạch dữ liệu
(data cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu (data
selection), biến đổi dữ liệu (data transformation).
• Khai thác dữ liệu (Data mining): xác định nhiệm vụ khai thác dữ liệu và lựa

chọn kỹ thuật khai thác dữ liệu. Kết quả cho ra một nguồn tri thức thô.
• Đánh giá (Evaluation): dựa trên một số tiêu chí tiến hành kiểm tra và lọc nguồn
tri thức thu được.
• Triển khai (Deployment).
Quá trình khai thác tri thức không chỉ là một quá trình tuần tự từ bước đầu tiên
đến bước cuối cùng mà là một quá trình lặp và có quay trở lại các bước đã qua.
1.2. Các ứng dụng và chức năng của khai phá dữ liệu
• Phân tích dữ liệu, hỗ trợ ra quyết định
- Phân tích quản lý thị trường
- Quản lý phân tích rủi ro
- Quản lý và phân tích các sai hỏng
• Các ứng dụng khác như: khai thác văn bản, phân chia tài liệu Web, điều trị y
học, tài chính, bảo hiểm,
• Chức năng của khai phá dữ liệu
- Mô tả khái niệm.
Trang 5

- Luật kết hợp
- Phân lớp và dự đoán
- Gom cụm
- Khai phá chuỗi
1.3. Các bước trong khai phá dữ liệu
Quá trình xử lý khai phá dữ liệu bắt đầu bằng cách xác định chính xác vấn đề
cần giải quyết. Sau đó sẽ xác định các dữ liệu liên quan dùng để xây dựng giải pháp.
Bước tiếp theo là thu thập các dữ liệu có liên quan và xử lý chúng thành dạng sao cho
giải thuật khai phá dữ li
ệu có thể hiểu được. Về lý thuyết thì có vẻ rất đơn giản nhưng
khi thực hiện thì đây thực sự là một quá trình rất khó khăn, gặp phải rất nhiều vướng
mắc như: các dữ liệu phải được sao ra nhiều bản (nếu được chiết xuất vào các tệp),
quản lý tập các tệp dữ liệu, phải lặp đi lặp lại nhiều lần toàn b

ộ quá trình (nếu mô hình
dữ liệu thay đổi), v.v…
Tiếp theo là công việc thu thập và tiền xử lý dữ liệu. Sẽ là quá cồng kềnh với
một giải thuật khai phá dữ liệu nều phải truy nhập vào toàn bộ nội dung của cơ sở dữ
liệu và làm những việc như trên. Có rất nhiều giải thuật khai phá dữ liệu thực hiện dựa
trên những thống kê tóm tắt khá đơn giản c
ủa cơ sở dữ liệu, khi mà toàn bộ thông tin
trong cơ sở dữ liệu là quá dư thừa đối với mục đích của việc khai phá dữ liệu.
Bước tiếp theo là chọn thuật toán khai phá dữ liệu thích hợp và thực hiện việc
khai phá dữ liệu để tìm được các mẫu (pattern) có ý nghĩa dưới dạng biểu diễn tương
ứng với các ý nghĩa đó (thường được biểu diễn d
ưới dạng các luật xếp loại, cây quyết
định, luật sản xuất, biểu thức hồi quy, …).

Hình 1: Các bước khai phá dữ liệu
Xác định
nhiệm vụ
Xác định dữ
liệu liên quan
Thu thập và
tiền xử lý dữ
liệu
Giải thuật
khai phá dữ
liệu
Thkê tóm tắt
Mẫu
DL
trực
tiề

p
Trang 6

1.4. Một số phương pháp khai phá dữ liệu
a) Phương pháp quy nạp (induction)
Một cơ sở dữ liệu là một kho thông tin nhưng các thông tin quan trọng hơn cũng
có thể được suy diễn từ kho thông tin đó. Có hai kỹ thuật chính để thực hiện việc này
là suy diễn và quy nạp.
+ Phương pháp suy diễn: Nhằm rút ra thông tin là kết quả logic của các thông tin
trong cơ sở dữ liệu. Phương pháp suy diễn dựa trên các sự kiện chính xác để suy ra các
tri thức mới từ các thông tin cũ. Mẫu chiết xuất được bằng cách sử dụng phương pháp
này thường là các luật suy diễn.
+ Phương pháp quy nạp: phương pháp quy nạp suy ra các thông tin được sinh ra từ
cơ sở dữ liệu. Có nghĩa là nó tự tìm kiếm, tạo mẫu và sinh ra tri thức chứ không phải
bắt đầu với các tri thức đã biết trước. Các thông tin mà phương pháp này đem lại là các
thông tin hay các tri thức cấp cao diễn tả về các đối tượng trong cơ sở dữ liệu.
b) Cây quyết định và luật
+Cây quyết định: Cây quyết định là một mô tả tri thức dạng đơn giản nhằ
m phân
các đối tượng dữ liệu thành một số lớp nhất định. Các nút của cây được gán nhãn là
tên các thuộc tính, các cạnh được gán các giá trị có thể của các thuộc tính, các lá mô tả
các lớp khác nhau. Các đối tượng được phân lớp theo các đường đi trên cây, qua các
cạnh tương ứng với các giá trị của thuộc tính của đối tượng tới lá.
+Tạo luật: Các luật được tạo ra nhằm suy diễn một số mẫu dữ
liệu có ý nghĩa về
mặt thống kê. Các luật có dạng NẾU P THÌ Q, với P là mệnh đề đúng với một phần
trong cơ sở dữ liệu, Q là mệnh đề dự đoán.
c) Phát hiện các luật kết hợp
Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệu
trong cơ sở dữ liệu. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật k

ết hợp tìm
được. Một ví dụ đơn giản về luật kết hợp như sau: sự kết hợp giữa hai thành phần A và
B có nghĩa là sự xuất hiện của A trong bản ghi kéo theo sự xuất hiện của B trong cùng
bản ghi đó: A ⇒ B.
Nhiệm vụ của việc phát hiện các luật kết hợp là phải tìm tất cả các luật X⇒B sao
cho tần số của luật không nhỏ hơ
n ngưỡng σ cho trước và độ tin cậy của luật không
Trang 7

nhỏ hơn ngưỡng θ cho trước. Từ một cơ sở dữ liệu, có thể tìm được hàng nghìn và
thậm chí hàng trăm nghìn các luật kết hợp.
d) Các phương pháp phân lớp và hồi quy phi tuyến
Các phương pháp này bao gồm một họ các kỹ thuật dự đoán để làm cho các kết
hợp tuyến tính và phi tuyến của các hàm cơ bản (hàm sigmoid, hàm spline (hàm
mành), hàm đa thức) phù hợp với các kết hợp của các giá trị biế
n vào. Các phương
pháp thuộc loại này như mạng neuron truyền thẳng, phương pháp mành thích nghi,
v.v…
e) Gom cụm và phân đoạn (clustering and segmentation)
Kỹ thuật phân nhóm và phân đoạn là những kỹ thuật phân chia dữ liệu sao cho
mỗi phần hoặc mỗi nhóm giống nhau theo một tiêu chuẩn nào đó. Mối quan hệ thành
viên của các nhóm có thể dựa trên mức độ giống nhau của các thành viên và từ đó xây
dựng nên các luật ràng buộc giữa các thành viên trong nhóm. Mẫu đầu ra c
ủa quá trình
khai phá dữ liệu sử dụng kỹ thuật này là các tập mẫu chứa các dữ liệu có chung những
tính chất nào đó được phân tách từ cơ sở dữ liệu. Một kỹ thuật phân nhóm khác là xây
dựng nên các hàm đánh giá các thuộc tính của các thành phần như là hàm của các
tham số của các thành phần. Phương pháp này được gọi là phương pháp phân hoạch
tối ưu (optimal partitioning).
f) Các phương pháp dựa trên mẫu

Sử dụng các m
ẫu mô tả từ cơ sở dữ liệu để tạo nên một mô hình dự đoán các mẫu
mới bằng cách rút ra những thuộc tính tương tự như các mẫu đã biết trong mô hình.
Các kỹ thuật bao gồm phân lớp theo láng giềng gần nhất, các giải thuật hồi quy và các
hệ thống suy diễn dựa trên tình huống (case-based reasoning).
g) Mạng nơron (neuron network)
Mạng nơron là tiếp cận tính toán liên quan đến việc phát triển các c
ấu trúc toán
học với khả năng học. Các phương pháp là kết quả của việc nghiên cứu mô hình học
của hệ thống thần kinh con người. Mạng nơron có thể đưa ra ý nghĩa từ các dữ liệu
phức tạp hoặc không chính xác và có thể được sử dụng để chiết xuất các mẫu và phát
hiện ra các xu hướng quá phức tạp mà con người cũng như các kỹ thuật máy tính khác
không thể phát hiện
được.
Trang 8

Phần 2: Khai phá dữ liệu trong SQL Server 2005
2.1. Các bước khai phá dữ liệu của Microsoft
Trong khai phá dữ liệu, khi đã có được một tập dữ liệu người ta muốn khai thác
thông tin từ nó một cách hiệu quả nhằm phục vụ cho công việc. Và Microsoft đưa ra
một chuẩn gồm 6 bước để khai thác dữ liệu một cách hiệu quả.
1) Định nghĩa vấn đề
2) Chuẩn bị vấn đề
3) Khám phá dữ liệu
4) Xây d
ựng mô hình
5) Khai thác và đánh giá mô hình
6) Triển khai mô hình và nâng cấp mô hình

Hình 2: Các bước khai phá dữ liệu của Microsoft

2.2. Các thuật toán khai phá dữ liệu trong Microsoft SQL Server
Hệ quản trị cơ sở dữ liệu MS SQL Server 2005 ngoài tính năng phổ biến là hỗ trợ
người dùng quản trị và truy vấn dữ liệu, còn được cải tiến thêm khả năng khai thác
thông tin được tích hợp trong một số công cụ, khiến cho việc triển khai và quản lý dễ
dàng hơn. Microsoft cung cấp công cụ phân tích và khai thác dữ liệu dựa trên cơ sở
các thuật toán khai phá dữ liệu (Data Mining) sau:
a) Microsoft Decision Tree (Cây quyết định)
Trang 9

Thuật toán Microsoft Decision Tree hỗ trợ cả việc phân loại và hồi quy, và tạo
rất tốt các mô hình dự đoán. Sử dụng thuật toán này có thể dự đoán cả các thuộc tính
rời rạc và liên tục .
Trong việc xây dựng mô hình, thuật toán này sẽ khảo sát sự ảnh hưởng của mỗi
thuộc tính trong tập dữ liệu và kết quả của thuộc tính dự đoán. Và tiếp đến nó sử dụng
các thuộ
c tính input (với các quan hệ rõ ràng) để tạo thành một nhóm phân hoá gọi là
các node. Khi một node mới được thêm vào mô hình, một cấu trúc cây sẽ được thiết
lập. Node đỉnh của cây sẽ miêu tả sự phân tích (bằng thống kê) của các thuộc tính dự
đoán thông qua các mẫu. Mỗi node thêm vào sẽ được tạo ra dựa trên sự sắp xếp các
trường của thuộc tính dự đoán, để so sánh với dữ liệu input. Nếu một thuộc tính input
được coi là nguyên nhân củ
a thuộc tính dự đoán (to favour one state over another),
một node mới sẽ thêm vào mô hình. Mô hình tiếp tục phát triển cho đến lúc không còn
thuộc tính nào, tạo thành một sự phân tách (split) để cung cấp một dự báo hoàn chỉnh
thông qua các node đã tồn tại. Mô hình đòi hỏi tìm kiếm một sự kết hợp giữa các thuộc
tính và trường của nó, nhằm thiết lập một sự phân phối không cân xứng giữa các
trường trong thuộc tính dự đoán, vì thế cho phép dự
đoán kết quả của thuộc tính dự
đoán một cách tốt nhất.
b) Microsoft Clustering(Gom cụm)

Thuật toán này sử dụng kỹ thuật lặp để nhóm các bản ghi từ một tập hợp dữ liệu
vào một liên cung cùng có đặc điểm giống nhau. Sử dụng liên cung này người dung có
thể khám phá dữ liệu, tìm hiểu về các quan hệ đã tồn tại, mà các quan hệ này không dễ
dàng tìm được một cách hợp lý thông qua quan sát ng
ẫu nhiên. Thêm nữa, có thể dự
đoán từ các mô hình liên cung đã được tạo bởi thuật toán. Ví dụ, xem xét một nhóm
người sống ở cùng một vùng, có cùng một loại xe, ăn cùng một loại thức ăn và mua
cùng một sản phẩm. Đây là một liên cung của dữ liệu, một liên cung khác có thể bao
gồm những người cùng đến một nhà hàng, cùng mức lương, và được đi nghỉ ở nước
ngoài hai lần trong năm. Khi quan sát nhữ
ng liên cung này được phân phối ra sao, có
thể biết rõ hơn sự ảnh hưởng của các bản ghi trong một tập hợp dữ liệu, cũng như sự
ảnh hưởng này có ảnh hưởng gì đến kết quả của thuộc tính dự đoán.
Trang 10

c) Microsoft Naïve Bayes
Thuật toán này xây dựng mô hình khai mỏ dữ liệu nhanh hơn các thuật toán
khác, phục vụ việc phân loại và dự đoán. Nó tính toán khả năng có thể xảy ra trong
mỗi trường hợp lệ của thuộc tính input, gán cho mỗi trường một thuộc tính có thể dự
đoán. Mỗi trường này có thể sau đó được sử dụng để dự đoán kết quả của thuộc tính
dự đoán dự
a vào những thuộc tính input đã biết. Các khả năng sử dụng để sinh ra các
mô hình được tính toán và lưu trữ trong suốt quá trình xử lý của khối lập phương
(cube: các mô hình được dựng lên từ các khối lập phương).
Microsoft Naïve Bayes chỉ hỗ trợ các thuộc tính hoặc là rời rạc hoặc liên tục, và
nó xem xét tất cả các thuộc tính input độc lập. Ngoài ra, thuật toán còn cho ra một mô
hình khai mỏ đơn giản (có thể được coi là điểm xuấ
t phát của data mining), bởi vì hầu
như tất cả các tính toán sử dụng trong khi thiết lập mô hình, được sinh ra trong xử lí
của cube (mô hình kích thước hợp nhất), kết quả được trả về nhanh chóng. Điều này

tạo cho mô hình một lựa chọn tốt để khai phá dữ liệu, khám phá các thuộc tính input
được phân bố trong các trường khác nhau của thuộc tính cần dự đoán.
d) Microsoft time series : (chuỗi thời gian)
Thuật toán này tạo ra những mô hình được sử
dụng để dự đoán các biến tiếp theo
từ OLAP (On-Line Analytical Processing) và các nguồn dữ liệu quan hệ. Ví dụ, sử
dụng thuật toán này để dự đoán bán hàng và lợi nhuận dựa vào các dữ liệu quá khứ
trong một cube .
Sử dụng thuật toán này có thể chọn một hoặc nhiều biến để dự đoán (nhưng các
biến là phải liên tục). Có thể có nhiều trường hợp cho mỗi mô hình. Tậ
p các trường
hợp xác định vị trí của một nhóm, như là ngày tháng khi xem việc bán hàng thông qua
vài tháng hoặc vài năm trước.
Mỗi trường hợp có thể bao gồm một tập các biến (ví dụ như bán hàng tại các cửa
hàng khác nhau). Thuật toán này có thể sử dụng sự tương quan của thay đối biến số
(cross-variable) trong dự đoán của nó, ví dụ bán hàng trước kia tại một cửa hàng có thể
rất hữu ích trong việc dự báo bán hàng hiện t
ại tại những cửa hàng khác.
Trang 11

e) Microsoft Association (Kết hợp)
Thuật toán này được thiết kế đặc biệt để sử dụng trong phân tích giỏ thị trường
(market basket). Có một định nghĩa về market basket như sau:
Market basket (chỉ số rổ thị trường : tức là ta sẽ dùng tất cả các loại hàng hoá đang
có trên thị trường (một siêu thị chẳng hạn ), ta nhân giá cả của nó với chỉ số của hàng
hoá (ví dụ gạo x 10 , thịt x 20…) để tính chỉ
số CPI (consumer price index ). Nếu chỉ
số CPI của ngày hôm nay cao hơn so với ngày hôm qua thì xảy ra lạm phát ) (Nguyễn
Đức Tĩnh-Ngân hàng Hàng Hải VN).
Thuật toán Microsoft Association sẽ xem xét mỗi cặp biến/giá trị (như là sản

phẩm/xe đạp) là một item. Một Itemset là một tổ hợp các item trong một giao tác
(transaction) đơn lẻ. Thuật toán sẽ lướt qua tập hợp dữ liệu để cố gắng tìm kiếm các
itemset nhằm vào việc xuất hiện trong nhiều giao tác. Tham chi
ếu hỗ trợ (Support) sẽ
định nghĩa có bao nhiêu giao tác mà itemset sẽ xuất hiện trước khi nó được cho là
quan trọng. Ví dụ, một itemset phổ biến có thể gồm{Gender="Male", Marital Status =
"Married", Age="30-35"}. Mỗi itemset có kích thước là tổng số của mỗi item mà nó
có (ở ví dụ này là 3).
Thường thì những mô hình kết hợp làm việc dựa vào các tập dữ liệu chứa các
bảng ẩn, như kiểu một danh sách khách hàng ẩn (nested) theo sau là một bảng mua
bán. Nếu một bảng ẩ
n tồn tại trong tập dữ liệu, mỗi khoá ẩn (như một sản phẩm trong
bảng mua bán) được xem như một item .
Thuật toán này cũng tìm các luật kết hợp với các itemset. Một luật trong một mô
hình kết hợp kiểu như A, B=>C (kết hợp với một khả năng có thể xảy ra ). Khi tất cả
A, B, C là những itemset thường xuyên. Dấu “=>”nói rằng C được dự đoán từ A và B.
Khả nă
ng giới hạn là một biến mà xác định khả năng nhỏ nhất tức là khi một luật có
thể đựơc xét đến. Khả năng này cũng được gọi là một “sự tin cậy” (confidence) trong
khai phá dữ liệu.
Trang 12

Mô hình kết hợp rất hữu ích trong cross-sell và collaborative-filtering . Ví dụ, có
thể sử dụng mô hình kết hợp để dự đoán các hạng mục mà khách hàng muốn mua dựa
vào các danh mục hàng hoá khác trong giỏ của họ.
f) Microsoft sequence clustering(Gom cụm tuần tự)
Thuật toán này phân tích các đối tượng dữ liệu có trình tự, các dữ liệu này bao
gồm một chuỗi các giá trị rời rạc. Thường thì thuộc tính trình tự của một chuỗi ảnh tới
m
ột tập các sự kiện của một trật tự rõ ràng. Bằng cách phân tích sự chuyển tiếp giữa

các tình trạng của một chuỗi, thuật toán có thể dự đoán tương lai trong các chuỗi có
quan hệ với nhau .
Thuật toán còn là sự pha trộn giữa thuật toán chuỗi và thuật toán liên cung. Thuật
toán nhóm tất cả các sự kiện phức tạp với các thuộc tính trình tự vào một phân đoạn
dựa vào sự giống nhau c
ủa những chuỗi này. Một đặc trưng sử dụng chuỗi sự kiên cho
thuật toán này là phân tích khách hàng web của một cổng thông tin (portal site). Một
Cổng thông tin là một tập các tên miền liên kết như: tin tức, thời tiết, giá tiền, mail, và
thể thao… Mỗi khách hàng được liên kết với một chuỗi các “click web” trên các tên
miền này. Thuật toán này có thể nhóm các khách hàng web về một hoặc nhiều nhóm
dựa trên kiểu hành động của họ. Những nhóm này có thể được trực quan hoá, cung c
ấp
một bản chi tiết để biết được mục đích sử dụng trang web này cuả khách hàng.
g) Microsoft neural network(Mạng nơ-ron)
Trong MS SQL server 2005, thuật toán này tạo các mô hình khai mỏ hồi quy và
phân loại bằng cách xây dựng đa lớp perceptom của các nơ-ron. Giống như thuật toán
cây quyết định, đưa ra mỗi tình trạng của thuộc tính có thể dự đoán. Thuật toán này
tính toán khả năng có thể của mỗi trạng thái có thể c
ủa thuộc tính input . Thuật toán sẽ
xử lý toàn thể các trường hợp. Sự lặp đi lặp lai so sánh các dự đoán phân loại của các
trường với sự phân loại của các trường đã biết. Sai số từ sự phân loại ban đầu (của
phép lặp ban đầu) của toàn bộ các trường hợp được trả về mạng (network) và được sử
dụng để thay đổi sự thực thi của network cho các phép lặ
p kế theo, v.v. Có thể sau đó
sử dụng những khả năng này để dự đoán kết quả của các thuộc tính dự đoán, dựa trên
Trang 13

thuộc tính input. Sự khác biệt chính giữa thuật toán này và thuật toán Cây quyết định
là các kiến thức xử lí là những tham số network tối ưu nhằm làm nhỏ nhất các lỗi có
thể trong khi cây quyết định tách các luật, mục đích để cực đại hoá thông tin có lợi.

Mạng nơ-ron hỗ trợ cả các thuộc tính rời rạc và liên tục.
h) Microsoft linear regression (Hồi quy tuyến tính)
Thuật toán này là một thể hiện dặc biệt củ
a thuật toán cây quyết định, thu được
bởi vô hiệu hoá sự chia tách (toàn bộ công thức hồi quy được xây dựng trên một node
gốc ). Thuật toán này hỗ trợ quyết định của các thuộc tính liên tục.
i) Microsoft logistic regression
Thuật toán này là một sự thể hiện đặc biệt của thuật toán mạng nơ-ron, thu được
bằng cách loại ra các lớp ẩn. Thuật toán này hỗ trợ quyết định cả thuộc tính liên tục và
không liên t
ục.
Như vậy, tổng hợp lại thì các thuật toán hỗ trợ khai phá dữ liệu nói trên có thể
chia thành các nhóm thuật toán sau :
 Thuật toán phân lớp (Classification algorithm): dự đoán một hoặc nhiều
biến rời rạc dựa trên các thuộc tính trong tập hợp dữ liệu. Điển hình là thuật
toán cây quyết định (Microsoft Decision Trees Algorithm)
 Thuật toán hồi quy (Regeression algorithm): dự đoán một hoặc nhiều biến
liên tục, kiểu như
những lợi nhuận và những tổn thất, dựa trên các thuộc tính
khác nhau của tập hợp dữ liệu. Điển hình là thuật toán chuỗi thời gian
(Microsoft Time Series Algorithm.)
 Thuật toán phân đoạn (Segmentation algorithm): Chia dữ liệu thành 2 nhóm,
hoặc các liên cung, hoặc các danh mục có thuộc tính giống nhau. Điển hình
là thuật toán gom cụm (Microsoft Clustering Algorithm)
 Thuật toán kết hợp (Assocation algorithm): Tìm những sự tương quan giữa
các thuộc tính khác nhau trong một tập hợp dữ liệ
u. Ứng dụng phổ biến nhất
của loại thuật toán này là tạo ra các luật kết hợp, có thể được sử dụng trong
Trang 14


market basket. Điển hình là thuật toán kết hợp (Microsoft Association
Algorithm)
 Thuật toán phân tích tiến trình (Sequence Analysis algorithm): tổng kết
những tiến trình thường xảy ra hoặc ít xảy ra trong dữ liệu. Điển hình là
thuật toán Microsoft Sequence Clustering.
2.3. Vấn đề sử dụng các thuật toán
Lựa chọn đúng thuật toán để sử dụng trong một nhiệm vụ có thể coi là một thách
thức. Thường thì dựa vào kinh nghiệm là chính, trong khi có thể sử dụng các thuật
toán khác nhau
để thực hiện những công việc giống nhau, mỗi thuật toán đưa ra những
kết quả khác nhau, và một vài thuật toán có thể sẽ đưa ra nhiều hơn một loại kết quả .
Ví dụ như, có thể sử dụng thuật toán Microsoft Decision Trees không những để dự
đoán mà còn để làm giảm bớt số cột trong tập dữ liệu (dataset), bởi Decision Trees có
thể xác định các cột không ảnh hưởng đến mô hình khai mỏ
cuối cùng .
Ngoài ra, cũng không phải sử dụng các thuật toán độc lập với nhau – trong một
giải pháp khai phá dữ liệu, có thể sử dụng một số thuật toán để khai phá dữ liệu, và
tiếp đó sử dụng một số thuật toán khác dể dự đoán các kết quả cụ thể thông qua các dữ
liệu đó. Ví dụ có thể sử dụng thuật toán Clustering để nhận dạng các mô hình, để c
ắt
các dữ liệu vào một nhóm cực đại hoặc tiểu đồng nhất (to break data into groups that
are more or less homogeneous), và tiếp đó sử dụng những kết quả đó để tạo lên một
mô hình cây quyết định tốt hơn. Có thể sử dụng nhiều thuật toán trong một giải pháp
để thực hiện những nhiệm vụ riêng biệt, ví dụ bằng cách sử dụng thuật toán cây hồi
quy để thu được thông tin dự đ
oán tài chính, và một thuật toán luật cơ sở để thi hành
việc phân tích market basket (giỏ thị trường ).
Mô hình khai phá dữ liệu có thể dự đoán những giá trị, sản phẩm sơ lược của dữ
liệu, và tìm ra những tương quan ẩn. Nhằm giúp việc lựa chọn thuật toán cho giải pháp
khai phá dữ liệu trong SQL Server, bảng mô tả dưới đây trình bày sự phân loại các

thuật toán vào một số chức năng tác vụ đặc trưng:

Trang 15

Nhiệm vụ Thuật toán Microsoft sử dụng
Dự đoán một thuộc tính rời rạc
Ví dụ: dự đoán người nhận thư của mục
tiêu chiến dịch nhận thư sẽ mua sản
phẩm
Microsoft Decision Trees

Microsoft Naive Bayes
Microsoft Clustering
Microsoft Neural Network
Dự đoán một thuôc tính liên tục
Ví dụ: như dự báo hoạt động bán hàng
năm sau
Microsoft Decision Trees
Microsoft Time Series
Dự đoán một trình tự
Ví dụ: thi hành phân tích chuỗi hoạt
động của người dùng trên một trang
web công ty
Microsoft Sequence Clustering
Tìm nhóm của những mục chọn
(item) trong các thương vụ
(transaction)
Ví dụ: sử dụng phân tích giỏ thị trường
để giới thiệu thêm những sản phẩm để
khách hàng mua

Microsoft Association
Microsoft Decision Trees


Tìm những mục (item) giống nhau
Ví dụ: để gom các dữ liệu nhân khẩu
học (demographic) vào một nhóm để
nhận thức dễ dàng mối quan hệ giữa các
thuộc tính
Microsoft Clustering
Microsoft Sequence Clustering
Tóm lại, tùy theo loại dữ liệu, mục đích ứng dụng khai phá dữ liệu mà chọn các
thuật toán phù hợp để đạt hiệu quả cao bởi mỗi mô hình của thuật toán trả về một kiểu
kết quả khác nhau.
Trang 16

2.4. Công cụ khai phá dữ liệu
Từ trước đến nay, SQL Server được biết đến với vai trò là một hệ quản trị cơ sở
dữ liệu có trách nhiệm hỗ trợ quản lý, lưu trữ dữ liệu với Database Engine. Tuy nhiên,
từ phiên bản SQL Server 2005 thì bộ SQL Server đã được tích hợp nhiều gói dịch vụ
hỗ trợ việc tích hợp và khai thác khả năng tiềm tàng của một cơ sở dữ li
ệu như SQL
Server Integrating Services, SQL Server Analysis Services, SQL Server Management
Studio, Data Transformation Services, SQL Server Reporting Services, …Sau đây sẽ
trình bày một số công cụ hỗ trợ khai phá dữ liệu trong SQL Server như đã nêu trên.
a) SQL Server Analysis Services (SSAS)
SSAS là một dịch vụ hỗ trợ mạnh mẽ việc phân tích, khai thác thông tin tiềm tàng
bên trong của một hệ cơ sở dữ liệu, là một trong những dịch vụ chính của SQL Server
2005 dùng để xây dựng các chiều và cubes cho nhà kho dữ liệu (Data warehouse).
SSAS là một phần của nền tảng quản lý doanh nghiệp thông minh (Business

Intelligence), nó không chỉ là một thành phần của SQL Server, nó còn được sử dụng
trên .NET Framework và môi trường phát triển Visual Studio.
SSAS trong SQL Server 2005 đã được tái kiến trúc nhằm nâng cao khả năng mở
rộng và tính tin cậy, trong môi trường doanh nghiệp, và khả năng bả
o mật dữ liệu.
SSAS cung cấp khả năng tích hợp nhiều đối tượng (instance) của SSAS điều này
tăng khả năng mở rộng ngoài ra dịch vụ này còn cung cấp các thuật toán để quản lý
hiệu quả các cubes lớn trong một đối tượng. SSAS cung cấp đa dạng các công cụ để
tạo OLAP (On-Line Analytical Processing) một cách hiệu quả và quản lý dễ dàng.
Trong phiên bản 2005, SSAS hỗ trợ XML theo chuẩn XML/A. Điều này có
ngh
ĩa việc tra đổi dữ liệu giữa SSAS với các client là XML, sự thay đổi này nâng cao
khả năng tương tác giữa các máy client và máy chủ. Như ở hình 3 SSAS cung cấp ba
kiểu kết nối với client.
Trang 17


Hình 3: Kiến trúc của SSAS
Việc lưu trữ siêu dữ liệu trong cũng được thực hiện dưới dạng XML. Ngoài ra
trong phiên bản này còn cho phép người dùng tùy chọn việc lưu trữ dữ liệu và dữ
liệu tổng hợp dưới dạng đối tượng của SSAS hay dạng cơ sở dữ liệu quan hệ. Việc
lưu trữ dữ liệu theo định dạng đối tượng của SSAS có thể xử
lý tốt hơn và truy vấn
nhanh hơn dạng cơ sở dữ liệu quan hệ. Có 3 cách lưu trữ dữ liệu chính trong SSAS.
Trang 18

- MOLAP (MultiDemension OnLine Analytical Processing) Đây là mô hình lưu
trữ mà dữ liệu theo định dạng của SSAS. Cách lưu giữ này cho hiệu quả truy vấn tốt
nhất và có thể xử lý các tính toán phức tạp. Điểm yếu của cách truy vấn này là tốn
dung lượng và không thể xem được dữ liệu mới cho đến khi xây dựng lại cubes.

- ROLAP (Relational OLAP) đây là cách lưu trữ mà dữ liệu chính được lưu trữ
trong cơ sở dữ liệ
u quan hệ. Cách truy vấn trên SSAS được thay đổi sang kiểu truy
vấn trên cơ sở dữ liệu quan hệ mỗi khi thực thi điều này làm giảm hiệu năng của truy
vấn, các truy vấn thường rất chậm so với mô hình trên. Điểm mạnh của cách lưu trữ
này là dung lượng cube chỉ giới hạn bởi dung lượng của cơ sở dữ liệu quan hệ.
- HOLAP (Hybrid OLAP): Đây là mô hình tích hợp của cả hai mô hình trên d

liệu thông thường được lưu trữ dưới dạng cơ sở dữ liệu quan hệ trong khi các dữ liệu
tổng hợp được lưu trữ dưới dạng đối tượng SSAS. Nếu dữ liệu yêu cầu là dạng tổng
hợp thì sẽ thực hiện truy vấn tại SSAS còn nếu dữ liệu yêu cầu là dạng chi tiết truy
vấn sẽ được dịch và truy vấn tại cơ
sở dữ liệu quan hệ. Điều này làm tăng tốc độ xử
lý của mô hình ROLAP và tận dụng được khả năng lưu trữ của mô hình ROLAP.
Dịch vụ SSAS của SQL Server 2005 cung cấp cho người dùng các tính năng
mạnh mẽ trong phân tích dữ liệu. Đây là công cụ mạnh để xây dựng các hệ thống xử
lý giao dịch trực tuyến.
b) Business Intelligent Developtment Studio (BIDS)
BIDS là công cụ cho phép tổ chức quản lý và khai thác kho dữ
liệu (Xử lý phân
tích trực tuyến - OLAP) cũng như xây dựng các mô hình khai phá dữ liệu rất dễ sử
dụng và hiệu quả của Microsoft.
BIDS là tập hợp những công cụ thiết kế để tạo những công việc thông minh. Đây
là công cụ dựa trên bộ Microsoft Visual Studio. Người dùng có thể kéo và thả các đối
tượng trong giao diện đồ họa hay có thể lập trình bằng mã lệnh trong giao diện soạn
thảo. Vì BIDS đã tạo một môi trường phát triển tích hợp (Integrated Development
Environment - IDE) trong đó cho phép tạo những giải pháp hoàn chỉnh nên người
dùng làm việc tách rời khỏi server . Với BIDS có thể thay đổi đối tượng khai phá dữ
Trang 19


liệu tuỳ thích, và những thay đổi này sẽ không bị phản ánh lại server cho đến sau khi
triển khai dự án. Lợi ích của việc thao tác với IDE :
• Có những công cụ chế tạo có sẵn rất mạnh đã cấu thành trong BIDS và rất phù
hợp với những yêu cầu của người dùng .
• Có thể tích hợp các dự án khác nhau. Tức là “giải pháp toàn thể có trong một
cái nhìn đơn thể”
• Tất cả mã nguồn tích hợp
điều khiển làm cho nhóm tổng thể được tạo ra trong
môi trường phát triển thông minh.
Một dự án Analysis Services (dịch vụ phân tích) gói gọn mô hình khai mỏ và
nhóm OLAP (On-line Analytical Processing) lại, cùng với những đối tượng bổ sung
tạo nên cơ sở dữ liệu Analysis Services. Từ BIDS, có thể tạo và hiệu chỉnh các đối
tượng Analysis Services trong một dự án, và triển khai dự án đó thích hợp với server
Analysis Services hoặc các server khác.
Nếu làm việc với một dự án Analysis Services có sẵ
n, người dùng cũng có thể sử
dụng BIDS để liên kết với server. Bằng cách này những thay đổi được phản ánh trực
tiếp lại với server mà không phải triển khai giải pháp.
c) SQL Server Management Studio (SSMS)
SSMS là tập hợp các công cụ điều khiển và quản lý để làm việc với các thành
phần trong MSS (Microsoft SQL Server). Môi trường SSMS khác với BIDS, trong
SSMS người dùng có thể làm việc kết nối với môi trường nơi mà những hành động
được truyền lại vào server tr
ước khi các công việc được lưu lại.
Sau khi dữ liệu đã được cân đối và chuẩn bị cho việc khai mỏ, hầu như mọi
nhiệm vụ kết hợp với giải pháp tạo một tác vụ khai phá được thể hiện trong BIDS. Sử
dụng các công cụ BIDS, người dùng có thể phát triển và kiểm tra giải pháp khai phá
dữ liệu, sử dụng một xử lý lặp để xác định mô hình nào là tốt nhất cho hoàn cả
nh đưa
ra. Khi người phát triển (developer) hài lòng với giải pháp, nó được triển khai tới

Analysis Services server. Từ đây, tiêu điểm di chuyển từ phát triển tới bảo quản và sử
Trang 20

dụng. Sử dụng SSMS, người dùng có thể quản lý cơ sở dữ liệu, và thực hiện một vài
chức năng như trong BIDS, như là thể hiện và thiết lập dự đoán từ mô hình khai mỏ dữ
liệu.
d) Data Transformation Services (DTS)
DTS bao gồm các công cụ rút trích (extract), biến đổi và lặp (ETL) trong SQL
Server 2005. Những công cụ này có thể được thể hiện một trong hầu hết các nhiệm vụ
quan trọng trong khai phá dữ liệu: d
ọn dẹp và chuẩn bị dữ liệu cho việc thiết lập mô
hình. Trong khai phá dữ liệu, người dùng cần thực hiện chuyển đổi hoàn toàn các dữ
liệu lặp đi lặp lại để dọn dẹp (clean) dữ liệu, trước khi sử dụng dữ liệu để huấn luyện
(train) một mô hình khai mỏ. Sử dụng các nhiệm vụ và các chuyển đổi trong DTS
người dùng hoàn toàn có thể phối hợp dữ
liệu chuẩn bị và thiết lập mô hình trong các
gói DTS đơn lẻ.
DTS cũng cung cấp các thiết kế DTS để giúp người dùng dễ dàng chạy các gói
(package) bao gồm tất cả các nhiệm vụ và các phép biến đổi. Sử dụng bộ thiết kế DTS
(DTS designer), ta có thể triển khai các package tới một server, và chạy chúng trên
những nền tảng lập trình. Điều này rất có lợi, ví dụ như khi sưu tầm các dữ liệu trong
tuần và mu
ốn thực hiện chuyển đổi dữ liệu đã dọn dẹp trong mỗi lần một cách tự động,
khi đó cần kết hợp giữa nền tảng lập trình có kết nối với các server chứa dữ liệu. Đây
cũng là sự cải tiến vượt bậc của Microsoft SQL Server 2005 trong lĩnh vực khai phá
dữ liệu so với Microsoft SQL Server 2000. Sự tích hợp và liên kết giữa Business
Intelligent Development Studio với Microsoft .NET 2005 đã làm cho ngườ
i sử dụng
cảm thấy dễ dàng làm việc hơn, thuận tiện hơn khi kết hợp dữ liệu với lập trình.
2.5. Khai phá dữ liệu bằng câu lệnh SQL

Trước khi tạo mô hình khai phá dữ liệu (data mining model – DMM), cần định
nghĩa cấu trúc và các thuộc tính cho mô hình. Để định nghĩa một DMM mới, dùng
lệnh CREATE DATA MINING MODEL. Tương tự như lệnh CREATE TABLE, lệnh
tạo mô hình này chỉ định nghĩa cấu trúc và các thuộc tính của nó, ch
ứ hoàn toàn không
Trang 21

có dữ liệu. Ngoài ra, lệnh này còn định nghĩa khoá, cột, thuật toán được dùng và các
tham số dùng cho việc huấn luyện DMM sau này.
Cú pháp lệnh tạo DMM:
CREATE MINING MODEL <tên mô hình> (<định nghĩa các cột>) USING <Dịch
vụ>[(<các tham số dịch vụ>)]
Trong đó:
<tên mô hình>: tên mà người dung muốn đặt cho mô hình
<định nghĩa các cột>: các cột trong mô hình (tương tự tạo bảng)
<Dịch vụ>[<tham số>]: Thuật toán sử dụng cho mô hình kèm tham số tương ứng
Ví dụ: tạo một DMM gồm các cột CustomKey (mã khách hàng), FirstName,
LastName (họ tên), Age (tuổi), TotalChildren (số con), BikeBuyer (Người mua xe
đạp), …dùng để tìm kiếm các khách hàng tiềm năng trong việc mua sản phẩm (xe đạp)
(Xem phần phụ lục cho cơ sở dữ liệu mẫ
u)
CREATE MINING MODEL [Model_SQL_DM]
([CustomerKey] LONG KEY,
[FirstName] TEXT DISCRETE,
[LastName] TEXT DISCRETE,
[Age] DOUBLE CONTINUOUS,
[Region] TEXT DISCRETE,
[TotalChildren] TINYINT DISCRETE,
[BikeBuyer] LONG DISCRETE PREDICT)
USING Microsoft_Decision_Trees

Các từ khoá LONG, DOUBLE, TINYINT và TEXT định nghĩa kiểu dữ liệu của
cột. Tuy nhiên có một vài mở rộng so với SQL chuẩn. Từ khoá KEY chỉ định cột (các
cột) làm khoá. Hai từ khoá CONTINUOUS (liên tục) và DISCRETE (rời rạc) là hai
giá trị có thể chỉ định giá trị của cột thuộc dạng nào. Từ khoá PREDICT chỉ định cột
kết quả dự báo.
Trang 22

Sau khi tạo DMM, bước tiếp theo là huấn luyện mô hình. Huấn luyện mô hình
nghĩa là chạy mô hình trên dữ liệu dùng để huấn luyện (training data) bằng cách dùng
một thuật toán đặc thù nào đó. Đây là bước tốn nhiều thời gian nhất. Thuật toán có thể
lặp lại một vài lần trên tập dữ liệu huấn luyện để tìm ra các mẫu ẩn bên trong tập dữ
liệu này. Trong SQL Server, OLE DB for Data Mining API che giấu các phức tạp của
việc hu
ấn luyện mô hình bằng cách cung cấp lệnh INSERT như là lệnh dùng để huấn
luyện. Mặc dù có một lượng dữ liệu khổng lồ được đưa vào mô hình data mining trong
giai đoạn này, nhưng nó không lưu trữ bất kỳ dữ liệu nào, thay vào đó nó lưu trữ các
mẫu của chúng. Khi mô hình đã được huấn luyện, ứng dụng khách có thể duyệt qua
nội dung của mô hình và thực hiện các truy vấn trên tập dữ li
ệu mới này.
Cú pháp của lệnh INSERT:
INSERT [INTO] <tên mô hình>
[ <các cột được ánh xạ của mô hình > ]
<truy vấn dữ liệu nguồn>
Ví dụ: Huấn luyện cho mô hình đã tạo ra bên trên
INSERT INTO [Model_SQL_DM]
([CustomerKey], [FirstName], [LastName], [Age], [Region], [TotalChildren],
[BikeBuyer])
OPENROWSET(‘SQLOLEDB’, ’…’, SELECT DISTINCT [CustomerKey],
[FirstName], [LastName], [Age], [Region], [TotalChildren], [Bike Buyer]
FROM vTargetMail)

Sau khi được huấn luyện, mô hình có thể được dùng để thực hiện các dự báo
trên các tập dữ liệu mới. Trong OLE DB for Data Mining API, lệnh dùng để thực hiện
dự báo là lệnh SELECT. Lệnh này thực hiện kết một DMM với một bảng input mới.
Phép kết đặc biệt này được gọi là PREDICTION JOIN.
Cú pháp tổng quát của lệnh SELECT:

Trang 23

SELECT [FLATTENED] <SELECT-expressions>
FROM <tên mô hình> PREDICTION JOIN <truy vấn dữ liệu nguồn> ON <điều
kiện kết>
[WHERE <WHERE-expression>]
Trong đó:
9 <truy vấn dữ liệu nguồn>: chỉ định tập dữ liệu mới có các thuộc tính được dự
báo bằng cách kết hợp tập này với tri thức trong mô hình DMM.
9 PREDICTION JOIN: các trường hợp thực tế từ <truy vấn dữ liệu nguồn> được
kết hợp với tập các trường hợp có thể có từ mô hình <tên mô hình> thông qua
phép toán PREDICTION JOIN.
9 <SELECT-expressions> : là một tập các phát biểu phân cách bởi dấu phẩy, m
ột
phát biểu có thể là một cột đơn giản dùng để tham chiếu, hay chứa các chức
năng dự báo. Các cột có thể được tham chiếu từ DMM hay từ truy vấn dữ liệu
nguồn.
9 ON và Điều kiện kết: mỗi dòng trong tập các trường hợp có thể có của DMM là
duy nhất, nên nó có thể được kết với các dòng trong truy vấn nguồn của các
trường hợp thực sự thông qua mệnh đề
<điều kiện kết> của từ khoá ON. Điều
kiện kết sẽ kết hợp các cột trong DMM với các cột trong truy vấn nguồn. Điều
kiện kết có một phát biểu “=” cho các cột được kết, và các phát biểu được nối
với nhau qua từ khoá AND trong trường có nhiều cột kết.

9 <WHERE-expression>: điều kiện lọc dữ liệu trả về từ truy vấn dự báo
Ví dụ: Hãy dự báo các khách hàng nào có khả năng mua sản phẩm nhất (>80%)
SELECT FLATTENED [T].[CustomerKey], [T].[FirstName], [T].[LastName],
[T].[Age], [T].[Region], [T].[TotalChildren], [T].[Bike Buyer])
FROM [Model_SQL_DM] AS [M]
PREDICTION JOIN OPENROWSET('SQLOLEDB', ’…’, SELECT DISTINCT
[CustomerKey], [FirstName], [LastName], [Age], [Region], [TotalChildren], [Bike
Buyer] FROM vTargetMail) AS [T] ON [M]. [CustomerKey]= [T]. [CustomerKey]
WHERE PredictProbability([M]. [BikeBuyer]) > 0.8.
Trang 24

PHỤ LỤC
Phần này trình bày một ví dụ minh họa cho việc khai phá dữ liệu trong SQL
Server 2005. Đó là Khai phá dữ liệu trên Business Intelligent Developtment Studio
(BIDS).
Cơ sở dữ liệu được sử dụng để minh họa có tên là AdventureWorksDW, đây là
kho dữ liệu của công ty Adventure Works chuyên sản xuất xe đạp. Cơ sở dữ liệu mẫu
này có thể download từ trang web của Microsoft và theo các hướng dẫn để cài vào
SQL Server. Mục đích của việc xây dựng các mô hình khai phá dữ liệu nhằm để phân
loạ
i khách hàng, tìm ra các khách hàng tiềm năng cũng như dự đoán được khách hàng
nào có thể mua sản phẩm của công ty Adventure Works giúp cho bộ phận Marketing
xây dựng các chiến lược quảng cáo, tiếp thị nhằm mở rộng thị trường, tìm kiếm khách
hàng, mở rộng kinh doanh.
Qui trình Xây dựng mô hình khai phá dữ liệu với BIDS gồm các bước như sau :
• Tạo mới một project (Analysis Services Project)
• Tạo một Data Source
• Tạo một Data Source View
• T
ạo một Mining model structure.

• Tạo các Mining models.
• Khai thác Mining models.
• Kiểm tra độ chính xác của Mining Models.
• Sử dụng Mining Models để dự đoán.
Sau đây là từng bước quá trình khai phá dữ liệu trên BDIS:
Bước 1: Khởi động SQL Server Business Intelligence Development Studio tạo một
project mới có tên “SQL_DM”
Trang 25


Bước 2: Tạo Data Source kết nối đến CSDL AdventureWorksDW
Chuột phải Data source Æ Chọn New Datasource Æ Chọn New ở khung Data
connection Æ Điền các thông tin về server, database

×