ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
ĐẠI HỌC CÔNG NGH THÔNG TIN
CHƯƠNG TRÌNH ĐÀO TẠO THẠC SỸ
________________
KHAI PHÁ DỮ LIU VÀ KHO DỮ LIU
Đề tài:
XÂY DỰNG MÔ HÌNH KHAI PHÁ DỮ
LIU VÀ CÔNG CỤ BUSSINESS
INTELLIGENCE DEVELOPMENT
STUDIO
Giảng viên hướng dẫn : PGS.TS. ĐỖ PHÚC
Học viên thực hiện : Lê Thị Xuân Diệu
Mã số : CH1101076
TP. HCM, năm 2012
Khai phá dữ liệu và kho dữ liệu
LỜI MỞ ĐẦU
Thời đại công nghệ thông tin càng ngày càng phát triển, với lượng dữ liệu thông
tin cũng càng ngày càng một lớn dần, vấn đề đặt ra cho chúng ta là làm thế nào để lưu
trữ và tận dụng tốt những nguồn thông tin mà chúng ta đang có.
Với thực tế thì một minh chứng rõ ràng nhất cho chúng ta thấy là vấn đề kinh
doanh của các công ty kinh doanh và sản xuất các sản phẩm cho người sử dụng. Nếu
như không nắm bắt được thị trường, không khai thác được những tiềm năng khách
hàng, không biết nhu cầu khách hàng của chúng ta đang cần gì thì việc kinh doanh sẽ
không phát triển tốt hơn khi chúng ta nắm bắt được nhu cầu khách hàng và đáp ứng
được nhu cầu khách hàng, có kế hoạch tiếp thị tốt cho những khách hàng tiềm năng.
Trong bài tìm hiểu này với thời gian ngắn em xin trình bày vấn đề tìm hiểu của
mình về khai thác dữ liệu và công cụ khai phá dữ liệu rất có tiềm năng của Microsoft
tích hợp trong SQL server 2008R2 là BUSINESS INTELLIGENCE DEVELOPMENT
STUDIO (BIDS)
Em xin chân thành cảm ơn PGS.TS. Đỗ Phúc – Giảng viên môn học cơ sở dữ
liệu nâng cao đã truyền đạt những kiến thức vô cùng quý báu, xin chân thành cám ơn
ban cố vấn học tập và ban quản trị chương trình đào tạo thạc sĩ Công nghệ thông tin
qua mạng của Đại Học Quốc Gia TPHCM đã tạo điều kiện về tài liệu tham khảo để
em có thể hoàn thành môn học này.
Em xin chân thành cảm ơn
Lê Thị Xuân Diệu
Khai phá dữ liệu và kho dữ liệu
Phần I. KHAI PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIU
1. Tổng quan về cơ sở dữ liệu và sự xuất hiện của khai phá dữ liệu
1.1. Tổ chức và khai thác cơ sở dữ liệu truyền thống
Việc dùng các phương tiện tin học để tổ chức và khai thác các cơ sở dữ liệu đã
được phát triển từ những năm 60. Từ đó cho đến nay, rất nhiều cơ sở dữ liệu đã
được tổ chức, phát triển và khai thác ở mọi quy mô và ở khắp các lĩnh vực hoạt
động của con người và xã hội. Theo như đánh giá cho thấy, lượng thông tin trên thế
giới cứ sau 20 tháng lại tăng gấp đôi. Kích thước và số lượng cơ sở dữ liệu thậm
chí còn tăng nhanh hơn. Năm 1989, tổng số cơ sở dữ liệu trên thế giới vào khoảng
5 triệu, hầu hết đều là các cơ sở dữ liệu cỡ nhỏ được phát triển trên DBaseIII. Với
sự phát triển mạnh mẽ của công nghệ điện tử tạo ra các bộ nhớ có dung lượng lớn,
bộ xử lý tốc độ cao cùng với các hệ thống mạng viễn thông, người ta đã xây dựng
các hệ thống thông tin nhằm tự động hóa mọi hoạt động kinh doanh của mình.
Điều này đã tạo ra một dòng dữ liệu tăng lên không ngừng vì ngay từ các giao dịch
đơn giản nhất như một cuộc gọi điện thoại, kiểm tra sức khỏe, sử dụng thẻ tín
dụng, v.v… đều được ghi vào trong máy tính. Cho đến nay, con số ày đã trở nên
khổng lồ, bao gồm các cơ sở dữ liệu cực lớn cỡ gigabytes và thậm chí terabytes lưu
trữ các dữ liệu kinh doanh, ví dụ như dữ liệu thông tin khách hàng, dữ liệu lịch sử
các giao dịch, dữ liệu bán hàng, dữ liệu các tài khoản, các khoản vay, sử dụng vốn,
… Nhiều hệ quản trị cơ sở dữ liệu mạnh với các công cụ phong phú và thuận tiện
đã giúp con người khai thác có hiệu quả các nguồn tài nguyên dữ liệu. Mô hình cơ
sở dữ liệu quan hệ và ngôn ngữ vấn đáp chuẩn (SQL) đã có vai trò hết sức quan
trọng trong việc tổ chức và khai thác các cơ sở dữ liệu đó. Cho đến nay, không một
tổ chức kinh tế nào là không sử dụng các hệ quản trị cơ sở dữ liệu và các hệ công
cụ báo cáo, ngôn ngữ hỏi đáp nhằm khai thác các cơ sở dữ liệu phục vụ cho hoạt
động tác nghiệp của mình
HV: Lê Thị Xuân Diệu CH1101076 Trang
Khai phá dữ liệu và kho dữ liệu
1.2. Bước phát triển mới của việc tổ chức và khai thác các CSDL
Cùng với việc tăng không ngừng khối lượng dữ liệu, các hệ thống thông tin
cũng được chuyên môn hóa, phân chia theo các lĩnh vực ứng dụng như sản xuất, tài
chính, buôn bán thị trường v.v. Như vậy, bên cạnh chức năng khai thác dữ liệu có tính
chất tác nghiệp, sự thành công trong kinh doanh không còn là năng suất của các hệ
thống thông tin nữa mà là tính linh hoạt và sẵn sàng đáp lại những yêu cầu trong thực
tế, CSDL cần đem lại những “tri thức” hơn là chính những dữ liệu đó. Các quyết định
cần phải có càng nhanh càng tốt và phải chính xác dựa trên những dữ liệu sẵn có trong
khi khối lượng dữ liệu cứ sau 20 tháng lại tăng gấp đôi làm ảnh hưởng đến thời gian ra
quyết định cũng như khả năng hiểu hết được nội dung dữ liệu. Lúc này các mô hình
CSDL truyền thống và ngôn ngữ SQL đã cho thấy không có khả năng thực hiện công
việc này. Để lấy được những thông tin có tính “tri thức” trong khối dữ liệu khổng lồ
này, người ta đã đi tìm những kỹ thuật có khả năng hợp nhất các dữ liệu từ các hệ
thống giao dịch khác nhau, chuyển đổi thành một tập hợp các cơ sở dữ liệu ổn định, có
chất lượng, chỉ được sử dụng riêng cho một vài mục đích nào đó. Các kỹ thuật đó
được gọi chung là kỹ thuật tạo kho dữ liệu (data warehousing) và môi trường các dữ
liệu có được gọi là các kho dữ liệu (data warehouse).
Kho dữ liệu là một môi trường có cấu trúc các hệ thống thông tin, cung cấp cho
người dùng các thông tin khó có thể truy nhập hoặc biểu diễn trong các CSDL tác
nghiệp truyền thống, nhằm mục đích hỗ trợ việc ra quyết định mang tính lịch sử hoặc
hiện tại. Theo W.H.Inmon, có thể định nghĩa kho dữ liệu như sau: “Một kho dữ liệu là
một tập hợp dữ liệu tích hợp hướng chủ đề có tính ổn định, thay đổi theo thời gian
nhằm hỗ trợ cho việc ra quyết định. Nói cách khác, một kho dữ liệu bao gồm:
- Một hoặc nhiều công cụ để chiết xuất dữ liệu từ bất kỳ dạng cấu trúc dữ
liệu nào.
- Cơ sở dữ liệu tích hợp hướng chủ đề ổn định được tổng hợp từ các dữ
liệu bằng cách lập bảng dữ liệu của dữ liệu.”
HV: Lê Thị Xuân Diệu CH1101076 Trang
Dữ liệu nguồn
Các công cụ trợ giúp và các ứng dụng
Chiết xuất dữ liệu
Làm sạch dữ liệu
Nạp dữ liệu.
MetaData
Kho dữ liệu trong DBMS
Kho dữ liệu trong DBMS
Data Mart
Hệ thống phân phối thông -n
Các công cụ hỏi đáp, báo cáo
Các công cụ OLAP
Các công cụ khai phá dữ liệu
Hình 1.1. Cấu trúc kho dữ liệu.
Khai phá dữ liệu và kho dữ liệu
Một kho dữ liệu có thể được coi là một hệ thống thông tin với những thuộc tính
sau:
- Là một cơ sở dữ liệu được thiết kế có nhiệm vụ phân tích, sử dụng các
dữ liệu từ các ứng dụng khác nhau.
- Hỗ trợ cho một số người dùng có liên quan với các thông tin liên quan.
- Là dữ liệu chỉ đọc.
- Nội dung của nó được cập nhật thường xuyên theo cách thêm thông tin.
- Chứa các dữ liệu lịch sử và hiện tại để cung cấp các xu hướng thông tin.
- Chứa các bảng dữ liệu có kích thước lớn.
- Một câu hỏi thường trả về một tập kết quả liên quan đến toàn bộ bảng và
các liên kết nhiều bảng.
Cấu trúc kho dữ liệu được xây dựng dựa trên hệ quản trị CSDL quan hệ, có
chức năng giống như một kho lưu trữ thông tin trung tâm. Trong đó, dữ liệu tác nghiệp
và phần xử lý được tách riêng khỏi quá trình xử lý kho dữ liệu. Kho lưu trữ trung tâm
được bao quanh bởi các thành phần được thiết kế để làm cho kho dữ liệu có thể hoạt
động, quản lý và truy nhập được từ người dùng đầu cuối cũng như từ các nguồn dữ
liệu.
HV: Lê Thị Xuân Diệu CH1101076 Trang
Khai phá dữ liệu và kho dữ liệu
Như trên Hình 1.1 cho thấy, kho dữ liệu bao gồm 7 thành phần:
- Dữ liệu nguồn (là các ứng dụng tác nghiệp hoặc các kho dữ liệu tác
nghiệp) và các công cụ chiết xuất, làm sạch và chuyển đổi dữ liệu.
- Kho dữ liệu về dữ liệu (MetaData)
- Các kỹ thuật xây kho
- Kho dữ liệu thông minh hay dữ liệu theo chủ đề (Data marts): là nơi các
dữ liệu được khoanh vùng theo chủ đề đến một giới hạn nào đó và có thể
được thay đổi cho phù hợp với nhu cầu của từng bộ phận người dùng.
Với các kho dữ liệu này, cũng có thể xây dựng một kho dữ liệu theo cách
tiếp cận từng giai đoạn kế tiếp, nghĩa là với một tập hợp các kho dữ liệu
thông minh, ta tạo ra một kho dữ liệu; ngược lại, một kho dữ liệu có thể
được phân tích thành nhiều kho dữ liệu thông minh.
HV: Lê Thị Xuân Diệu CH1101076 Trang
Khai phá dữ liệu và kho dữ liệu
- Các công cụ vấn đáp (query), báo cáo (reporting), phân tích trực tiếp
(OLAP) và khai phá dữ liệu (data mining). Đây chính là các cách khai
thác kho dữ liệu để đem lại những “tri thức” hơn là đem lại chính những
dữ liệu thô. Điểm mạnh và yếu của các kỹ thuật này ta sẽ phân tích kỹ
hơn ở những phần sau.
- Quản trị kho dữ liệu.
- Hệ thống phân phối thông tin.
Nhưng chỉ có kho dữ liệu thôi thì chưa đủ để có các tri thức. Như đã đề cập ở
trên, các kho dữ liệu được sử dụng theo ba cách chính:
- Theo cách khai thác truyền thống, kho dữ liệu được sử dụng để khai thác
các thông tin bằng các công cụ vấn đáp và báo cáo. Tuy nhiên, nhờ có
việc chiết xuất, tổng hợp và chuyển đổi từ các dữ liệu thô sang dạng các
dữ liệu chất lượng cao và có tính ổn định, kho dữ liệu đã giúp cho việc
nâng cao các kỹ thuật biểu diễn thông tin truyền thống (hỏi đáp và báo
cáo). Bằng cách tạo ra một tầng ẩn giữa CSDL và người dùng, các dữ
liệu đầu vào của các kỹ thuật này được đặt vào một nguồn duy nhất.
Việc hợp nhất này loại bỏ được rất nhiều lỗi sinh ra do việc phải thu thập
và biểu diễn thông tin từ rất nhiều nguồn khác nhau cũng như giảm bớt
được sự chậm trễ do phải lấy các dữ liệu bị phân đoạn trong các cơ sở dữ
liệu khác nhau, tránh cho người dùng khỏi những câu lệnh SQL phức
tạp. Tuy nhiên, đây mới chỉ là cách khai thác với kỹ thuật cao để đưa ra
các dữ liệu tinh và chính xác hơn chứ chưa đưa ra được dữ liệu “tri
thức”.
- Thứ hai là các kho dữ liệu được sử dụng để hỗ trợ cho phân tích trực
tuyến (OLAP). Trong khi ngôn ngữ vấn đáp chuẩn SQL và các công cụ
làm báo cáo truyền thống chỉ có thể mô tả những gì có trong CSDL thì
phân tích trực tuyến có khả năng phân tích dữ liệu, xác định xem giả
HV: Lê Thị Xuân Diệu CH1101076 Trang
Khai phá dữ liệu và kho dữ liệu
thuyết đúng hay sai. Tuy nhiên, phân tích trực tuyến lại không có khả
năng đưa ra được các giả thuyết.
Hơn nữa, kích thước quá lớn và tính chất phức tạp của kho dữ liệu làm cho nó
rất khó có thể được sử dụng cho những mục đích như đưa ra các giả tuyết từ các thông
tin mà chương trình ứng dụng cung cấp (ví dụ như khó có thể đưa ra được giả thuyết
giải thích được hành vi của một nhóm khách hàng).
Trước đây, kỹ thuật học máy thường được sử dụng để tìm ra những giả thuyết
từ các thông tin dữ liệu thu thập được. Tuy nhiên, thực nghiệm cho thấy chúng thể
hiện khả năng rất kém khi áp dụng với các tập dữ liệu lớn trong kho dữ liệu này.
Phương pháp thống kê tuy ra đời đã lâu nhưng không có gì cải tiến để phù hợp với sự
phát triển của dữ liệu. Đây chính là lý do tại sao một khối lượng lớn dữ liệu vẫn chưa
được khai thác và thậm chí được lưu trữ chủ yếu trong các kho dữ liệu không trực
tuyến (off-line). Điều này tạo nên một lỗ hổng lớn trong việc hỗ trợ phân tích và tìm
hiểu dữ liệu, tạo ra khoảng cách giữa việc tạo ra dữ liệu và việc khai thác các dữ liệu
đó.Trong khi đó, càng ngày người ta càng nhận thấy rằng, nếu được phân tích thông
minh thì dữ liệu sẽ là một nguồn tài nguyên quý giá trong cạnh tranh trên thương
trường.
Giới tin học đã đáp ứng lại những thách thức trong thực tiễn cũng như trong
nghiên cứu khoa học bằng cách đã đưa ra một phương pháp mới đáp ứng cả nhu cầu
trong khoa học cũng như trong hoạt động thực tiễn. Đó chính là công nghệ Khai phá
dữ liệu (data mining). Đây chính là ứng dụng thứ ba của kho dữ liệu.
2. Khai phá dữ liệu là gì?
2.1. Khái niệm
Khai phá dữ liệu là một khái niệm ra đời vào những năn cuối của thập kỷ 80. Nó
bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩn
trong các tập dữ liệu lớn (các kho dữ liệu). Về bản chất, khai phá dữ liệu liên quan
HV: Lê Thị Xuân Diệu CH1101076 Trang
Khai phá dữ liệu và kho dữ liệu
đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra các mẫu hình có
tính chính quy (regularities) trong tập dữ liệu.
Năm 1989, Fayyad, Piatestsky-Shapiro và Smyth đã dùng khái niệm Phát hiện tri
thức trong cơ sở dữ liệu (Kownledge Discovery in Database – KDD) để chỉ toàn
bộ quá trình phát hiện các tri thức có ích từ các tập dữ liệu lớn. Trong đó, khai phá
dữ liệu là một bước đặc biệt trong toàn bộ quá trình, sử dụng các giải thuật đặc biệt
để chiết xuất ra các mẫu (pattern) (hay các mô hình) từ dữ liệu.
3. Khai thác các kỹ thuật khai thác dữ liệu
3.1. Khai thác tập phổ biến và luật kết hợp
Là tiến trình khám phá các tập giá trị thuộc tính xuất hiện phổ biến trong các đối tượng
dữ liệu. Từ tập phổ biến có thể tạo ra các luật kết hợp giữa các giá trị thuộc tính nhằm
phản ánh khả năng xuất hiện đồng thời các giá trị thuộc tính trong tập các đối tượng.
Một luật kết hợp X->Y phản ánh sự xuất hiện của tập X dẫn đến sự xuất hiện đồng
thời tập Y. Luật kết hợp giúp các nhà hoạch định hiểu rõ xu thế bán hàng, tâm lý
khách hàng…từ đó đưa ra các chiến lược bố trí mặt hàng, kinh doanh, tiếp thị, tồn
kho…
Khai thác mẫu tuần tự:
Là tiến trình khám phá các mẫu tuần tự phổ biến phản ánh mối quan hệ giữa các biến
cố trong các CSDL hướng thời gian. Một luật mô tả tuần tự có dạng tiêu biểu X->Y
phản ánh sự xuất hiện của biến cố X sẽ dẫn đến việc xuất hiện kế tiếp biến cố Y.
Nhờ mẫu tuần tự, có thể khám phá các xu thế phát triến hành vi của đối tượng
Phân lớp dữ liệu:
Là tiến trình khám phá các luật phân loại hay đặc trưng cho các tập dữ liệu đã được
xếp lớp. Tập dữ liệu học bao gồm tập đối tượng đã được xác định lớp sẽ được dùng để
tạo mô hình phân lớp dựa trên đặc trưng của đối tượng trong tập dự liệu học. Các luật
HV: Lê Thị Xuân Diệu CH1101076 Trang
Khai phá dữ liệu và kho dữ liệu
phân lớp được sử dụng để xây dựng các bộ phân lớp dữ liệu. Phân lớp dữ liệu có vai
trò quan trọng trong tiến trình dự báo các khuynh hướng, quy luật phát triển. Áp dụng
vào tiến trình phân lớp dữ liệu khách hàng trong CSDL có thể xây dựng các luật phân
lớp khách hàng.
Khai thác cụm:
Là tiến trình nhận diện các cụm tiềm ẩn trong tập các đối tượng chưa được xếp lớp.
Tiến trình khai thác cụm dựa trên mức độ tương tự giữa các đối tượng. Các đối tượng
được gom cụm sao cho mức độ tương tự giữa các đối tượng trong cùng một cụm sao
cho mức độ tương tự giữa các đối tượng nằm trong các cụm khác nhau là cực tiểu. Các
cụm được đặc trưng bằng các tính chất chung của tất cả các đối tượng trong cụm. Do
vậy, khảo sát các cụm sẽ giúp khái quát, tổng kết nhanh chóng nội dung của khối dữ
liệu lớn.
HV: Lê Thị Xuân Diệu CH1101076 Trang 10
Khai phá dữ liệu và kho dữ liệu
Phần I. PHÂN LỚP DỮ LIU
Phân lớp dữ liệu (data classification) là xếp đối tượng dữ liệu vào một trong các
lớp đã được xác định trước. Phân lớp dữ liệu gồm hai bước là xây dựng mô
hình và vận hành mô hính
1. Phân lớp quy nạp trên cây quyết định
Cây quyết định gồm các nút trong biểu diễn giá trị thuộc tính, các nhánh biểu
diễn đầu ra của kiểm tra, nút lá biểu diễn nhãn lóp. Cây quyết định được tạo
theo hai giai đoạn là tạo cây và tỉa nhánh.
Trong giai đoạn tạo cây, lúc bắt đầu tất cả các mẫu học đều nằm ở nút gốc, sau
đó các mẫu học được phân chia một cách đệ quy dựa trên thuộc tính được chọn.
Bước tỉa nhánh nhằm tìm và xóa những nhánh có phần tử không thể xếp vào
lớp nào cả.
Bước vận hành nhằm kiểm tra những giá trị thuộc tính của mẫu đối với các giá
trị trên nhánh của cây quyết định.
Thuật toán tạo cây quyết định bao gồm các bước sau:
Bước 1: Cây được xây dựng đệ quy từ trên xuống và theo cách chia để
trị
Bước 2: Ban đầu tất cả mẫu học đều nằm ở gốc
Bước 3: Thuộc tính được phân loại (nếu là giá trị liên tục được rời rạc
hóa)
HV: Lê Thị Xuân Diệu CH1101076 Trang 11
Khai phá dữ liệu và kho dữ liệu
Bước 4: Các mẫu học được phân chia đệ quy dựa trên thuộc tính chọn
lựa
Bước 5: Kiểm tra những thuộc tính được chọn dựa trên heristic hoặc của
một tiêu chuẩn thống kê.
Điều kiện để dừng phân chia tập học:
Tất cả những mẫu học đối với một nút cho trước đều cùng lớp;
Không còn thuộc tính nào để phân chia tiếp;
Không còn mẫu học
Độ lợi thông tin (information gain): Là đại lượng được dùng để chọn thuộc
tính nhằm phân chia tập học. Thuộc tính được chọn là thuộc tính có độ lợi
thông tin lớn nhất.
Cho hai lớp P và N và tập học S. Lớp P có p phần tử và lớp N có n phần tử.
Khối lượng thông tin cần để quyết định các mẫu trong S thuộc về lớp P hay lớp
N được xác định bởi:
I(p,n)=log
2
Ví dụ tiêu biểu: play tennis
HV: Lê Thị Xuân Diệu CH1101076 Trang 12
Khai phá dữ liệu và kho dữ liệu
HV: Lê Thị Xuân Diệu CH1101076 Trang 13
Khai phá dữ liệu và kho dữ liệu
2. Phương pháp phân lớp BAYES
Bài toán phân lớp có thể hình thức hóa bằng xác suất a-posteriori:
P(C|X) = xác suất mẫu
X=<x
1
,…,x
k
> thuộc về lớp C
Ví dụ
P(class=N | outlook=sunny,windy=true,…)
Ý tưởng: gán cho mẫu X nhãn phân lớp là C sao cho P(C|X) là lớn nhất
Tính xác suất a-posteriori
Định lý Bayes:
P(C|X) = P(X|C)·P(C) / P(X)
P(X) là hằng số cho tất cả các lớp
P(C) = tần số liên quan của các mẫu thuộc lớp C
C sao cho P(C|X) lớn nhất = C sao cho P(X|C)·P(C) lớn nhất
Vấn đề: tính P(X|C) là không khả thi!
Phân lớp Naïve Bayesian
Thừa nhận Naïve: sự độc lập thuộc tính
P(x
1
,…,x
k
|C) = P(x
1
|C)·…·P(x
k
|C)
Nếu thuộc tính thứ i là rời rạc: P(x
i
|C) được ước lượng bởi tần số liên quan của
các mẫu có giá trị x
i
cho thuộc tính thứ i trong lớp C
Nếu thuộc tính thứ i là liên tục: P(x
i
|C) được ước lượng thông qua một hàm
mật độ Gaussian
Tính toán dễ dàng trong cả hai trường hợp
HV: Lê Thị Xuân Diệu CH1101076 Trang 14
Khai phá dữ liệu và kho dữ liệu
Ví dụ 1:
HV: Lê Thị Xuân Diệu CH1101076 Trang 15
Khai phá dữ liệu và kho dữ liệu
Ví dụ 2:
Phân lớp X:
Một mẫu chưa thấy X = <mưa, nóng, cao, không>
P(X|p)·P(p) = P(mưa|p)·P(nóng|p)·P(cao|p)·P(không|p)·P(p) =
3/9·2/9·3/9·6/9·9/14 = 0.010582
P(X|n)·P(n) = P(mưa|n)·P(nóng|n)·P(cao|n)·P(không|n)·P(n) =
2/5·2/5·4/5·2/5·5/14 = 0.018286
Mẫu X được phân vào lớp n (không chơi tennis)
Gom cụm
Gom cụm dữ liệu là hình thức học không giám sát trong đó các mẫu học chưa
được gán nhãn. Mục đích của gom cụm dữ liệu là tìm những mẫu đại diện hoặc
gom dữ liệu tương tự nhau (theo một chuẩn đánh giá nào đó) thành những
cụm. Các điểm dữ liệu trong các cụm khác nhau có độ tương tự thấp hơn các
điểm nằm trong cùng một cụm. Một số ứng dụng tiêu biểu của gom cụm như:
Xem xét phân bố dữ liệu
Tiền xử lý cho các thuật toán khác;
Khám phá thói quen và nhu cầu của khách hàng để có phương pháp tiếp thị
thích hợp
Phân loại đất theo công năng hoặc thực tế sử dụng để có chính sách quy hoạch
phù hợp;
HV: Lê Thị Xuân Diệu CH1101076 Trang 16
Khai phá dữ liệu và kho dữ liệu
Phân loại nhà theo vị trí, giá trị
Phân loại khách hàng để có chính sách bảo hiểm hợp lý;
Phân loại bệnh nhân;
Một phương pháp gom cụm tốt nếu đạt các tính chất sau:
• Có độ tương tự cao trong cùng cụm
• Có độ tương tự thấp giữa các cụm
• Có khả năng phát hiện các mẫu ẩn
• Có khả năng làm việc hiệu quả với lượng dữ liệu lớn;
• Có khả năng làm việc với nhiều loại dữ liệu khác nhau;
• Có khả năng khám phá ra các cụm có phân bố theo dạng khác nhau;
• Yêu cầu tối thiểu tri thức lĩnh vực nhằm xác định các tham biến nhập
• Có khả năng làm việc với nhiễu và mẫu cá biệt;
• Không bị ảnh hưởng bởi thứ tự nhập của dữ liệu;
• Làm việc tốt trên CSDL có số chiều cao;
• Chấp nhận các ràng buộc do người dùng chỉ định;
• Có thể hiểu và sử dụng được kết quả gom cụm
HV: Lê Thị Xuân Diệu CH1101076 Trang 17
Khai phá dữ liệu và kho dữ liệu
HV: Lê Thị Xuân Diệu CH1101076 Trang 18
Khai phá dữ liệu và kho dữ liệu
Phần III. GIỚI THIU CÔNG CỤ XÂY DỰNG MÔ HÌNH KHAI
PHÁ DỮ LIU BUSINESS INTELLIGENCE
DEVELOPMENT STUDIO (BIDS) CỦA MICROSOFT
Business Intelligence Development Studio (BIDS) là công cụ cho phép tổ chức và
khai thác kho dữ liệu (xử lý phân tích trực tuyến) cũng như xây dựng mô hình khai
phá dữ liệu rất dễ sử dụng và hiệu quả của Microsoft.
BIDS cho phép triển khai các mô hình khai phá dữ liệu sau:
1. Microsoft Decision Tree (Cây quyết định)
2. Microsoft Clustering (Phân cụm)
3. Microsoft Navie Bayes (Phân lớp với Bayes rule)
4. Microsoft Time Series (Chuỗi thời gian)
5. Microsoft Association (Luật kết hợp)
6. Microsoft Sequence Clustering (Phân tích chuỗi)
7. Microsoft Neural Network (Mạng Neural)
8. Microsoft Linear Regression (Hồi qui tuyến tính)
9. Microsoft Logistics Regression (Hồi qui Logistics)
1. Qui trình xây dựng mô hình khai phá dữ liệu BIDS như sau:
a. Tạo mới một project (Analysis Service Project)
HV: Lê Thị Xuân Diệu CH1101076 Trang 19
Khai phá dữ liệu và kho dữ liệu
b. Tạo một Data Source
c. Tạo một Data Source view
d. Tạo một Mining model structure
e. Tạo các Mining models
f. Khai thác Mining models
g. Kiểm tra độ chính xác của Mining Models
h. Sử dụng Mining Models để dự đoán
2. Mô tả dữ liệu và mục tiêu khai phá
Cơ sở dữ liệu được sử dụng để minh họa trong bài tìm hiểu này là
AdventureWorksDW, đây là kho dữ liệu của công ty Adventure Works chuyên sản
xuất xe đạp. Từ phiên bản SQL Server 2005 không tích hợp sẵn cơ sở dữ liệu này và
khi có nhu cầu hoặc muốn thử nghiệm chúng ta có thể cài đặt thêm vào.
3. Mục đích của việc xây dựng các mô hình khai phá dữ liệu:
Để phân loại khách hàng và tìm ra các khách hàng tiềm năng cũng như có thể
dự đoán khách hàng nào có thể mua sản phẩm cùa công ty Adventure Works giúp bộ
phận Marketing xây dựng chiến lược quảng cáo, tiếp thị nhằm mở rộng thị trường tìm
kiếm khách hàng, mở rộng kinh doanh.
4. Mô tả từng bước quá trình xây dựng mô hình khai phá dữ liệu với BIDS
4. 1. Khởi động SQL Server Business Intelligence Development Studio
(BIDS) tạo một project mới loại Analys Services Project mới có tên “
SQL2008_BIDS”
HV: Lê Thị Xuân Diệu CH1101076 Trang 20
Khai phá dữ liệu và kho dữ liệu
4. 2. Tạo một Data Source kết nối đến cơ sở dữ liệu AdventureWorksDW
HV: Lê Thị Xuân Diệu CH1101076 Trang 21
Khai phá dữ liệu và kho dữ liệu
4. 3. Tạo một Data Source View (Trong Data Source view chọn dữ liệu lấy
từ View có tên “vTargetMail”)
HV: Lê Thị Xuân Diệu CH1101076 Trang 22
Khai phá dữ liệu và kho dữ liệu
HV: Lê Thị Xuân Diệu CH1101076 Trang 23
Khai phá dữ liệu và kho dữ liệu
4. 4. Tạo một Mining Model Structure
Trong cửa sổ Solution Explorer, kích phải chuột chọn Mining Structures
chọn New Mining Structure. Bấm Next và chọn From existing relational
database or data warehouse và bấm Next và chọn Microsoft Decision Tree
HV: Lê Thị Xuân Diệu CH1101076 Trang 24
Khai phá dữ liệu và kho dữ liệu
Bấm chọn Next
HV: Lê Thị Xuân Diệu CH1101076 Trang 25