Tải bản đầy đủ (.ppt) (48 trang)

Báo cáo tìm hiểu datamining trong sql server 2008 và xử lý ảnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.37 MB, 48 trang )

TÌM HIỂU DATAMINING TRONG
TÌM HIỂU DATAMINING TRONG
SQL SERVER 2008 VÀ XỬ LÝ
SQL SERVER 2008 VÀ XỬ LÝ
ẢNH
ẢNH

Trần Thượng Khanh 0611082
Trần Thượng Khanh 0611082

Trần Quang Ánh 0611304
Trần Quang Ánh 0611304

Bùi Ngô Dạ Thảo 0611203
Bùi Ngô Dạ Thảo 0611203
Tp. Hồ Chí Minh, tháng 11 - 2009
Tp. Hồ Chí Minh, tháng 11 - 2009
Báo cáo của nhóm 4:
Báo cáo của nhóm 4:
Mục lục
Mục lục
Datamining trong SQL Server
Datamining trong xử lý ảnh
Sơ lược về Datamining
Sơ lược về Datamining
Sơ lược về Datamining

Sơ lược về khai khoáng dữ liệu
Sơ lược về khai khoáng dữ liệu

Ứng dụng


Ứng dụng

Nhiệm vụ của khai khoáng dữ liệu
Nhiệm vụ của khai khoáng dữ liệu

Các kỹ thuật trong khai khoáng dữ liệu
Các kỹ thuật trong khai khoáng dữ liệu
Giới thiệu Data Mining
Giới thiệu Data Mining

Là một khái niệm về các
Là một khái niệm về các
kỹ thuật được sử dụng
kỹ thuật được sử dụng
trong việc tìm ra các tri
trong việc tìm ra các tri
thức trong cơ sở dữ liệu
thức trong cơ sở dữ liệu

Xuất hiện đầu tiên trong
Xuất hiện đầu tiên trong
quyển “phát hiện tri thức
quyển “phát hiện tri thức
trong cơ sở dữ liệu”
trong cơ sở dữ liệu”
(1988) của
(1988) của
Fayyad,
Fayyad,
Piatestsky-Shapiro và

Piatestsky-Shapiro và
Smyth
Smyth
Giới thiệu Data Mining
Giới thiệu Data Mining
Giới thiệu Data Mining
Giới thiệu Data Mining

Dữ liệu lớn
Dữ liệu lớn

Dữ liệu nhiều về kích thước và số chiều
Dữ liệu nhiều về kích thước và số chiều

Có ít tri thức trong dữ liệu
Có ít tri thức trong dữ liệu
 Được ứng dụng khả thi trong trường hợp :
nhiều dữ liệu – nghèo tri thức
Ứng dụng
Ứng dụng

Thông tin thương mại
Thông tin thương mại

Thông tin sản xuất
Thông tin sản xuất

Thông tin khoa học
Thông tin khoa học
Nhiệm vụ của khai khoáng dữ liệu

Nhiệm vụ của khai khoáng dữ liệu
Kỹ thuật trong khai khoáng dữ liệu
Kỹ thuật trong khai khoáng dữ liệu

Xác suất thống kê
Xác suất thống kê

Máy học
Máy học

Hệ thống dữ liệu
Hệ thống dữ liệu

Nhận dạng mẫu …
Nhận dạng mẫu …
Kết hợp các phương pháp
Kết hợp các phương pháp
DataMining with Microsoft SQL
DataMining with Microsoft SQL
Server 2008
Server 2008
SQL SERVER
SQL SERVER

SQL Server ra đời từ năm 2000 là một công cụ
SQL Server ra đời từ năm 2000 là một công cụ
dùng trong việc quản lý dữ liệu
dùng trong việc quản lý dữ liệu

Có 3 phiên bản 2000 , 2005 , 2008 .

Có 3 phiên bản 2000 , 2005 , 2008 .

Các công nghệ trong SQL Server 2008: SQL
Các công nghệ trong SQL Server 2008: SQL
Server Database Engine , SQL Server Integration
Server Database Engine , SQL Server Integration
Services , SQL Server Analysis Services , SQL
Services , SQL Server Analysis Services , SQL
Server Reporting Services
Server Reporting Services
1.Business Intelligent
1.Business Intelligent
Developtment (BI Dev Studio)
Developtment (BI Dev Studio)



BI Dev Studio là môi trường tích hợp để tạo và
BI Dev Studio là môi trường tích hợp để tạo và
làm việc với các mô hình khai khoáng dữ liệu.
làm việc với các mô hình khai khoáng dữ liệu.
=> Xây dựng một giải pháp toàn diện cho các dự
=> Xây dựng một giải pháp toàn diện cho các dự
án.
án.

Ví dụ: Dự báo bán hàng, Xác định các sản phẩm
Ví dụ: Dự báo bán hàng, Xác định các sản phẩm
có thể được bán lại, Tìm lược đồ (sequences)
có thể được bán lại, Tìm lược đồ (sequences)

theo thứ tự các sản phầm mà thông thường,
theo thứ tự các sản phầm mà thông thường,
khách hàng thêm vào một giỏ mua hàng của
khách hàng thêm vào một giỏ mua hàng của
mình.
mình.
2.SQL server management
2.SQL server management
studio
studio



SSM studio là tập hợp các công cụ điều khiển và
SSM studio là tập hợp các công cụ điều khiển và
quản lí để làm việc với các thành phần trong
quản lí để làm việc với các thành phần trong
MSS(Microsoft SQL Server).
MSS(Microsoft SQL Server).
3. Các bước khai khoáng dữ
3. Các bước khai khoáng dữ
liệu của Microsoft
liệu của Microsoft
:
:

Định nghĩa vấn đề
Định nghĩa vấn đề

Chuẩn bị vấn đề

Chuẩn bị vấn đề

Khám phá dữ liệu
Khám phá dữ liệu

Xây dựng mô hình
Xây dựng mô hình

khai thác và đánh giá mô hình
khai thác và đánh giá mô hình

Triển khai mô hình và cập nhật mô hình
Triển khai mô hình và cập nhật mô hình
Bước 1: Định nghĩa vấn đề
Bước 1: Định nghĩa vấn đề
Bước 1: Định nghĩa vấn đề (tt)
Bước 1: Định nghĩa vấn đề (tt)

Phân tích các yêu cầu kinh doanh
Phân tích các yêu cầu kinh doanh

Xác định phạm vi của vấn đề.
Xác định phạm vi của vấn đề.

Xác định các số liệu của các mô hình cần đánh
Xác định các số liệu của các mô hình cần đánh
giá
giá




Và xác định mục tiêu cụ thể cho các dự án khai
Và xác định mục tiêu cụ thể cho các dự án khai
khoáng dữ liệu.
khoáng dữ liệu.
Bước 1: Định nghĩa vấn đề (tt)
Bước 1: Định nghĩa vấn đề (tt)

Trả lời các câu hỏi như sau:
Trả lời các câu hỏi như sau:
- Bạn đang tìm kiếm gì?
- Bạn đang tìm kiếm gì?


- Thuộc tính nào của tập dữ liệu mà bạn muốn
- Thuộc tính nào của tập dữ liệu mà bạn muốn
dự đoán?
dự đoán?
- Có những vấn đề mà bạn đang cố gắng giải
- Có những vấn đề mà bạn đang cố gắng giải
quyết có phản ánh được các chính sách hoặc
quyết có phản ánh được các chính sách hoặc
quy trình của doanh nghiệp?
quy trình của doanh nghiệp?
- Bạn có muốn thực hiện các dự báo từ các mô
- Bạn có muốn thực hiện các dự báo từ các mô
hình dữ liệu khai phá này, hay chỉ tìm kiếm các
hình dữ liệu khai phá này, hay chỉ tìm kiếm các
mẫu mà bạn cho là thú vị?

mẫu mà bạn cho là thú vị?
- Dữ liệu được phân phối như thế nào?
- Dữ liệu được phân phối như thế nào?
Bước 2:
Bước 2:
Chuẩn bị dữ liệu
Chuẩn bị dữ liệu
Bước 2: Chuẩn bị dữ liệu (tt)
Bước 2: Chuẩn bị dữ liệu (tt)

Mục đích: Để củng cố và làm sạch các dữ liệu đã
Mục đích: Để củng cố và làm sạch các dữ liệu đã
được xác định trong bước 1.
được xác định trong bước 1.

Dữ liệu có thể rải rác và được lưu trữ trong các
Dữ liệu có thể rải rác và được lưu trữ trong các
định dạng khác nhau hoặc không chính xác,
định dạng khác nhau hoặc không chính xác,
thiếu mục.
thiếu mục.
Bước 3: Khám phá dữ liệu
Bước 3: Khám phá dữ liệu
Bước 3: Khám phá dữ liệu (tt)
Bước 3: Khám phá dữ liệu (tt)

Mục đích: Để lựa chọn mô hình phù hợp.
Mục đích: Để lựa chọn mô hình phù hợp.

Kỹ thuật khám phá dữ liệu bao gồm: tính các giá

Kỹ thuật khám phá dữ liệu bao gồm: tính các giá
trị nhỏ nhất, lớn nhất, giá trị trung bình, độ lệch
trị nhỏ nhất, lớn nhất, giá trị trung bình, độ lệch
chuẩn và tìm sự phân bố dữ liệu
chuẩn và tìm sự phân bố dữ liệu
Bước 4: Xây dựng mô hình
Bước 4: Xây dựng mô hình
Bước 4: Xây dựng mô hình (tt)
Bước 4: Xây dựng mô hình (tt)

Mục đích: Để xây dựng các mô hình hay khai các
Mục đích: Để xây dựng các mô hình hay khai các
mô hình.
mô hình.

Trước hết phải chia dữ liệu thành 2 loại: Dữ liệu
Trước hết phải chia dữ liệu thành 2 loại: Dữ liệu
huấn luyện và dữ liệu kiểm tra.
huấn luyện và dữ liệu kiểm tra.

Dữ liệu huấn luyện dùng để xây dựng mô hình
Dữ liệu huấn luyện dùng để xây dựng mô hình

Dữ liệu kiểm tra dùng để kiểm tra độ chính xác
Dữ liệu kiểm tra dùng để kiểm tra độ chính xác
của mô hình bằng cách tạo ra các truy vấn.
của mô hình bằng cách tạo ra các truy vấn.

×