Tải bản đầy đủ (.docx) (14 trang)

Công nghệ cơ sở dữ liệu cho các hệ thống hỗ trợ quyết định

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (272.35 KB, 14 trang )

Công nghệ cơ sở dữ liệu cho các hệ thống hỗ trợ quyết định
Tạo ra một khung hỗ trợ hiệu quả cho hệ thống hỗ trợ ra quyết định - một trong số
đó sẽ thúc đẩy dữ liệu kinh doanh từ nhiều nguồn rời rạc rạc - là nhiệm vụ khó khăn
nhưng khả thi.
Hệ thống hỗ trợ quyết định là nòng cốt của kinh doanh dựa trên cơ sở hạ tầng CNTT, Bởi
vì chúng cung cấp cho công ty một cách chuyển đổi các thông tin kinh doanh sang kết quả cụ
thể và hữu ích hơn. Thu thập , duy trì, và phân tích lượng dữ liệu lớn, tuy nhiên,để thực hiện
nhiệm vụ to lớn này có liên quan đến những thách thức đối với kỹ thuật và chi phí mà đòi hỏi sự
đảm bảo của tổ chức.
Hệ thống xử lý giao dịch trực tuyến cho phép các tổ chức thu thập lượng lớn dữ liệu kinh
doanh hàng ngày. Ứng dụng OLTP thuộc kiểu tự động hóa cấu trúc, các nhiệm vụ thường lặp đi
lặp lại, như là nhập đơn hàng hay giao dịch ngân hàng. Cụ thể , dữ liệu cập nhật hàng ngày từ
các điểm khác nhau độc lập phải được tổng hợp ở một địa điểm duy nhất trước khi các nhà phân
tích có thể phân tích đưa ra kết quả tổng hợp. Hàng ngày, những người quản lý sẽ sử dụng những
dữ liệu tổng hợp này để ra quyết định. Tất cả mọi việc từ quản lý hàng tồn kho đến việc đặt hàng
qua thư điện tử.
CÁC THÀNH PHẦN CỦA HỆ THỐNG HỖ TRỢ QUYẾT ĐỊNH
Một hệ thống hỗ trợ quyết định thành công là một hệ thống sáng tạo phức tạp gồm nhiều
thành phần.Một ví dụ cụ thể về kinh doanh,là Công ty FootWear Seller , giúp hình dung về một
hệ thống hỗ trợ quyết định bao gồm nhiều thành phần, , FSC sản xuất giày dép và bán thông qua
hai kênh , trực tiếp cho khách hàng và thông qua các đại lý. Giám đốc điều hành tiếp thị của FSC
cần phải trích xuất các thông tin sau đây từ các dữ liệu kinh doanh tổng hợp của công ty:
• Báo cáo của 5 tiểu bang có doanh số tăng cao nhất về loại mặt hàng dành cho thanh
thiếu niên trong năm qua
• Tổng doanh số bán giày dép của thành phố New York trong tháng qua của mặt hàng
dành cho gia đình.
• 50 thành phố có lượng khách hàng cao nhất.
• 1 triệu khách hàng thích mua kiểu giày mới Walk – on – Air
Trước khi xây dựng một hệ thống cung cấp thông tin hỗ trợ ra quyết định này, các nhà phân tích
của FSC phải giải quyết ba vấn đề cơ bản:
• Thu thập những dữ liệu gì, mô hình hóa dữ liệu và quản lý lưu trữ nó thế nào?


• Phân tích dữ liệu đó như thế nào?
• Làm sao để tải dữ liệu từ nhiều nguồn.
Hình 1. Thành phần chính của một hệ thống hỗ trợ ra quyết định, Một máy chủ kho
dữ liệu những công cụ phân tích và khai phá dữ liệu.Và các công cụ đầu cuối để hỗ
trợ kho dữ liệu.
Trên hình 1 cho thấy, 3 thành phần chính của một hệ thống hỗ trợ ra quyết định: Một
máy chủ kho dữ liệu, những công cụ phân tích trực tuyến OLAP và khai phá dữ Liệu, và các
công cụ dung cho kho dữ liệu.
Kho dữ liệu bao gồm dữ liệu tổng hợp từ nhiều cơ sở dữ liệu hoạt động và xu hướng cơ
sở dữ hoạt động liệu hoạt động ngày càng có cường độ lớn hơn, Kích thước dữ liệu thường đền
hàng trăm gigabytes đến terabytes. Thông thường, các kho dữ liệu được duy trì một cách riêng
biệt từ cơ sở dữ liệu hoạt động của doanh nghiệp bởi các chức năng của các ứng dụng và Yêu
cầu thực thi là khá khác nhau từ những cơ sở dữ liệu hoạt động. Kho dữ liệu tồn tại chủ yếu phục
vụ các ứng dụng hỗ trợ quyết định và cung cấp các lịch sử sử dụng dữ liệu, tổng kết, hợp nhất và
phù hợp hơn để có thể phân tích chi tiết hơn, những bản ghi riêng biệt Khối lượng công việc bao
gồm các quảng cáo đặc biệt, truy vấn phức tạp mà truy cập, tìm kiếm, kết nối và tập hợp trên
hàng triệu bản ghi. Thời gian trả lời truy vấn quan trọng hơn là thông qua giao dịch.
Bởi vì xây dựng kho dữ liệu là một quá trình phức tạp có thể mất nhiều năm thay vào đó
một vài tổ chức đi xây dựng kho dữ liệu cục bộ. Trong đó những thông tin được hình thành từ
một tập con dữ liệu của kho dữ liệu. Ví dụ, kho dữ liệu cục bộ về tiếp thị thông minh có thể chỉ
bao gồm khách hàng, sản phẩm, và thông tin bán hàng và có thể không chứa lịch trình giao
hàng. Một số kho dữ liệu cục bộ có thể cùng tồn tại với kho dữ liệu chính và cung cấp một phần
khung nhìn về kho dữ liệu.Các dữ liệu tại kho dữ liệu cục bộ được đưa ra nhanh hơn so với kho
dữ liệu. nhưng có thể liên quan đến vấn đề tích hợp phức tạp về sau này nếu kế hoạch ban đầu
không phản ánh một mô hình trực quan kinh doanh hoàn chỉnh.
Phân tích và khai thác dữ liệu trực tuyến là công cụ phân tích cho phép phân tích dữ liệu
phức tạp. Các công cụ đầu cuối như : khai thác, chuyển đổi, và các công cụ tải giúp kho dữ liệu
lấy dữ liệu từ nhiều nguồn bên ngoài.
DATA WAREHOUSE.
Hầu hết các kho dữ liệu sử dụng công nghệ cơ sở dữ liệu quan hệ bởi vì nó cung cấp một

cách tiếp cận mạnh mẽ, tin cậy và hiệu quả để lưu trữ và quản lý khối lượng lớn dữ liệu. Vấn đề
quan trọng nhất liên quan đến xây dựng kho dữ liệu là thiết kế cơ sở dữ liệu, vừa hợp lý và hữu
hình. Xây dựng một sơ đồ hợp lý cho doanh nghiệp đòi hỏi phải có mô hình kinh doanh lớn.
THIẾT KẾ CƠ SỞ DỮ LIỆU HỢP LÝ.
Trong thiết kế lược đồ hình sao, cơ sở dữ liệu thực tế là bao gồm một bảng mô tả tất cả
các giao dịch và một bảng kích thước cho mỗi thực thể. Đối với các công ty FSC ictitious, mỗi
giao dịch bán hàng liên quan đến một số cơ quan, khách hàng, nhân viên bán hàng, một sản
phẩm, một đơn đặt hàng, một ngày giao dịch, và các thành phố nơi giao dịch xảy ra. Mỗi giao
dịch có các thuộc tính đo lường như số lượng bán, tổng số tiền khách hàng thanh toán.
Mỗi bộ trong bảng thực tế bao gồm một con trỏ đến từng đối tượng trong một giao dịch.
Và số các biện pháp liên quan đến giao dịch. Bảng một chiều bao gồm các cột tương ứng với
các thuộc tính của thực thể. Tính toán tham gia giữa một bảng thực tế và một bộ các bảng một
chiều thì hiệu quả hơn tính toán một loạt các trong quan hệ tùy ý.
Tuy nhiên một số thực thể được được kết hợp với hệ thống phân cấp mà lược đồ phân cấp
mô hình sao đó không hỗ trợ một cách rõ ràng. Một hệ thống phân cấp là một nhóm đa cấp trong
đó mỗi cấp độ bao gồm một nhóm tách rời các giá trị ở cấp độ ngay bên dưới nó. Ví dụ, tất cả
sản phẩm có thể được nhóm lại thành một tập rời nhau về chủng loại , bản thân chúng tự nhóm
lại thành một bộ tách rời nhau.
Mô hình dạng bông tuyết là cải tiến của mô hình hình sao trong đó hệ thống phân cấp
được thể hiện rõ bằng việc chuẩn hóa kích thước bảng. Trong lược đồ sao mô tả trong hình 2.
Một tập hợp các thuộc tính mô tả mỗi chiều và có thể liên quan thông qua một quan hệ hệ thống
phân cấp. Ví dụ, kích thước sản phẩm của FSC bao gồm năm thuộc tính: tên sản phẩm (Running
Show 2000), thể loại (Sport), Sản phẩm gia đình (Shoe), giá ($ 80), và tỷ suất lợi nhuận (80 phần
trăm).
Hình 2 Sơ đồ bông tuyết giả thuyết cho các Công ty bán giày dép. Một tập hợp các thuộc
tính mô tả mỗi chiều và có liên quan thông qua một hệ thống phân cấp mối quan hệ.
THIẾT KẾ CƠ SỞ DỮ LIỆU VẬT LÝ
Hệ thống cơ sở dữ liệu sử dụng thêm các cấu trúc như chỉ mục, khung nhìn để có thể xử
lý hiệu quả các truy vấn phức tạp. Xác định tập chỉ mục và khung nhìn là vấn đề khó trong thiết
kế vật lý. Trong khi tìm kiếm chỉ mục có thể hiệu quả cho các truy vấn dữ liệu chọn lọc,truy vấn

dữ liệu chuyên sâu có thể yêu cầu quét tuần tự của toàn bộ mối quan hệ hoặc dọc theo phân vùng
của một mối quan hệ. Nâng cao hiệu quả quét các bảng và khai thác song song để giảm thời gian
đáp ứng truy vấn là những cân nhắc quan trọng trong thiết kế.
CẤU TRÚC CHỈ MỤC VÀ CÁCH SỬ DỤNG
Kỹ thuật xử lý truy vấn khai thác chỉ số thông qua chỉ số giao nhau và kết hợp là hữu ích
cho việc trả lời nhiều vị từ truy vấn.Các chỉ mục giao nhau khai thác nhiều câu lệnh chọn có điều
kiện và có thể làm giảm đáng kể hoặc loại bỏ sự cần thiết phải truy cập vào bảng cơ sở nếu tất cả
các phép chiếu cột có sẵn thông qua quét chỉ mục.
Bản chất đặc biệt của các lược đồ sao làm cho chi tiết tổng thể tham gia chỉ số đặc biệt
hấp dẫn đối với quyết định hỗ trợ. Trong khi sơ đồ chỉ số truyền thống thì giá trị của một cột vào
một danh sách các hàng ứng với giá trị đó, một chỉ số tham gia duy trì với nhau bằng mối quan
hệ giữa khóa ngoài và khóa chính phù hợp với nó. Về phía lược đồ hình sao, một chỉ số tham gia
có thể liên hệ các giá trị của một hoặc nhiều thuộc tính của một bảng kích thước để phù hợp với
các hàng trong bảng thực tế. Trong sơ đồ hình 2, là ví dụ , có thể hỗ trợ một số chỉ mục tham gia
vào mục City được liên tục, cho mỗi City, một danh sách các bộ dữ liệu bản ghi các định dạng
trong bảng thực tế tương ứng với doanh số bán hàng trong thành phố.Về cơ bản, sự tham gia các
chỉ số là sự tính toán dựa trên một số nhị phân.
Chỉ số Multikey tham gia có thể đại diện cho tiền sử lý với nhiều cách tham gia, Ví dụ,
một đa chiều chỉ số tham gia được xây dựng trên cơ sở dữ liệu doanh số bán hàng có thể vào
mục City.CityName và Product.Name đến bảng thực tế. Do đó các chỉ mục cho Seattle, Running
Shoe Points để định danh bản ghi của bộ dữ liệu trong bảng bán hàng với sự kết hợp đó.
CỤ THỂ HÓA QUAN ĐIỂM VÀ CÁCH SỬ DỤNG
Nhiều truy vấn kho dữ liệu đòi hỏi dữ liệu tóm tắt và do đó sử dụng cốt lõi dữ liệu. Cụ
thể hoá dữ liệu tóm tắt có thể tăng tốc nhiều truy vấn thông thường. Trong ví dụ FSC , hai dữ liệu
lượt xem - tổng doanh thu được nhóm theo dòng sản phẩm gia đình và thành phố, và tổng số
khách hàng được phân nhóm theo thành phố có thể trả lời hiệu quả 3 truy vấn của bộ phận tiếp
thị : Các tiểu bang báo cáo mức tăng cao nhất trong nhóm sản phẩm bán cho giới trẻ, tổng doanh
số bán giày dép ở thành phố New York của sản phẩm gia đình, và 50 thành phố có số lượng
khách hàng đặc biệt cao nhất.
Những thách thức trong việc khai thác khả năng trực quan hóa thì tương tự cho các chỉ

mục.
• Xác định quan điểm cụ thể hóa .
• Khai thác quan điểm cụ thể hóa để trả lời truy vấn.
• Cập nhật các quan điểm cụ thể hóa trong quá trình tải lên và làm mới
Bởi vì cụ thể hóa quan điểm đòi hỏi rất lớn về không gian các giải pháp hiện đang áp
dụng chỉ hỗ trợ một lớp hạn chế các quan điểm cụ thể có cấu trúc đơn giản.
ỨNG DỤNG PHÂN TÍCH TRỰC TUYẾN
Trong một ứng dụng phân tích trực tuyến điển hình, một số biện pháp tập hợp truy vấn ở
cấp cao hơn trong kích thước hệ thống phân cấp. Một ví dụ là các truy vấn tiếp thị FSC đầu tiên
yêu cầu một loạt các biện pháp phân cấp tổng hợp năm tiểu bang báo cáo mức tăng cao nhất
trong loại sản phẩm bán hàng dành cho thanh thiếu niên trong năm qua, Trường Tiểu bang và
năm là cái gốc của các trường dữ liệu thành phố và ngày.
Trong điều kiện của kho dữ liệu FSC, một phiên OLAP điển hình để xác định khu vực
bán hàng giày thể thao trong quý cuối cùng có thể tiến hành như sau.
• Các nhà phân tích sử dụng truy vấn chọn đưa ra tổng hợp (bán hàng) bởi nhóm
đất nước để xem sự phân phối bán giày thể thao trong quý cuối cùng trên tất cả
các quốc gia.
• Sau khi lựa chọn được một đất nước với kết quả là doanh thu bán hàng cao nhất
hoặc thấp nhất so với quy mô thị trường, các nhà phân tích vấn đề các truy vấn
khác nhau để tính toán tổng doanh thu trong mỗi tiểu bang của đất nước đó để
hiểu lý do có kết quả doanh thu đó.
Các nhà phân tích tìm hiểu thông tin dữ liệu xuống hệ thống phân cấp các thành phố liên
quan, Giống như giảm móc nối của hệ thống phân cấp từ những tóm tắt nhất đến mức chi tiết
nhất gọi là drill-down. Trong một hoạt động rollup, các nhà phân tích đi lên một cấp có lẽ từ cấp
tiểu bang đến cấp đất nước trong kích thước một hệ thống phân cấp.
Từ khóa OLAP liên quan đến vấn đề bao gồm các khái niệm mô hình dữ liệu và kiến trúc
máy chủ.
MÔ HÌNH DỮ LIỆU KHÁI NIỆM OLAP
Mô hình đa chiều được thể hiện trong hình 3 sử dụng một số biện pháp như phân tích đối
tượng của nó. Mỗi biện pháp trong tập hợp trung tâm mô hình dữ liệu khái niệm phụ thuộc vào

kích thước mô tả các thực thể trong giao dịch. Ví dụ, không gian chiều liên quan đến việc bán
hàng trong ví dụ FSC là khách hàng, nhân viên bán hàng, thành phố, tên sản phẩm, ngày mua
bán đã được thực hiện. Cùng với nhau, không gian chiều duy nhất xác định các biện pháp, do đó,
các mô hình dữ liệu đa chiều nghiên cứu biện pháp như một giá trị trong một chiều của không
gian đa chiều.
Với một cái nhìn dữ liệu đa chiều, truy vấn roll-up và drill-down là hoạt động hợp lý trên
các đơn vị khối cube được mô tả trong Hình 3: Một hoạt động phổ biến là để so sánh hai biện
pháp được tổng hợp bởi kích thước tương tự, chẳng hạn như doanh số bán hàng và ngân sách.
Hình 3 Một mẫu CSDL đa chiều. Mỗi biện pháp trong tập hợp trung tâm mô hình dữ liệu
khái niệm phụ thuộc vào mô tả chiều các thực thể trong giao dịch.
Phân tích OLAP có thể liên quan đến tính toán thống kê phức tạp hơn so với các kết hợp
đơn giản như tổng hợp, đếm, và trung bình. Các ví dụ bao gồm các chức năng như di chuyển
trung bình và phần trăm thay đổi của một tổng hợp trong một thời gian nhất định so với một
khoảng thời gian khác nhau. Nhiều công cụ thương mại OLAP cung cấp chức năng bổ sung
tương tự như vậy.
Các chiều thời gian là đặc biệt quan trọng đối với quá trình hỗ trợ quyết định như phân
tích xu hướng. Ví dụ, các nhà phân tích thị trường của FSC có thể muốn biểu đồ hoạt động bán
hàng cho một Class giày thể thao trước hoặc sau các cuộc thi thể thao lớn của quốc gia. Phân tích
xu hướng phức tạp là có thể nếu cơ sở dữ liệu đã được xây dựng trong chi thức lịch và các đặc
điểm liên tiếp khác của chiều thời gian. Cộng đồng OLAP () đã xác
định một danh sách các hoạt động lập phương đa chiều như vậy khác.
MÁY CHỦ OLAP VÀ KIẾN TRÚC Middleware.
Mặc dù các máy chủ truyền thống không hiệu quả trong việc xử lý các truy vấn OLAP
phức tạp hoặc hỗ trợ khung nhìn đa chiều, 3 loại máy chủ của hệ quả trị CSDL quan hệ - quan
hệ, đa chiều, lai giữa quá trình phân tích trực tuyến. Bây giờ thì OLAP trên data warehouse được
hỗ trợ xây dựng trên hệ thống CSDL quan hệ.
Máy chủ ROLAP (relational OLAP)
Các máy chủ ROLAP middleware được đặt giữa các máy chủ back-end nơi lưu giữ data
warehouse và các công cụ font-end. ROLAPs hỗ trợ truy vấn OLAP nhiều chiều và thường tối
ưu hóa cho các máy chủ back-end. Họ định nghĩa các View để tổng hợp, các truy vấn hay dùng

của người dùng trong thuật ngữ materialized views thích hợp và tạo ra nhiều lệnh SQL cho máy
chủ back-end. Họ cũng cung cấp thêm các dịch vụ như lập lịch and quản lý tài sản. Máy chủ
ROLAP khai thác các khả năng mở rộng và các tính năng giao dịch của hệ thống quan hệ, nhưng
không phù hợp giữa kiểu truy vấn OLAP và SQL có thể tạo nút thắt cổ chai trong các máy chủ
OLAP.
Tắc nghẽn là vấn đề nhỏ trong đặc trưng của OLAP – các SQL mở rộng thực hiện trong
các máy chủ Oracle, IBM DB2 và Microsoft SQL Server. Các chức năng như trung bình, chế độ,
và phần trăm được mở rộng từ các chức năng tổng hợp. Tính năng bổ sung khác bao gồm tính
toán tổng hợp trên cửa sổ di chuyển, tổng số, điểm dừng để tăng cường hỗ trợ cho các ứng dụng
báo cáo.
Bảng tính đa chiều yêu cầu gộp nhóm các bộ thuộc tính khác nhau. Jim Gray và các đồng
nghiệp đề xuất 2 thao tác – roll-up và cube – làm tăng thêm SQL và giải quyết yêu cầu này. Roll-
up của danh sách các thuộc tính như là sản phẩm, năm, thành phố trên 1 tập kết quả tổng hợp là
kết quả của bộ câu trả lời các ứng dụng sau:
* Nhóm theo sản phẩm, năm và thành phố
* Nhóm theo sản phẩm, năm và
* Nhóm theo sản phẩm
Cho một danh sách k cột, mỗi thao tác trên khối lập phương cung cấp bởi một nhóm là sự
kết hợp của k cột. Nhiều hoạt động nhóm bởi như vậy có thể được thực hiện một cách hiệu quả
bằng cách nhận ra sự tương đồng giữa chúng. Khi áp dụng, tính toán trước có thể nâng cao hiệu
suất máy chủ OLAP.
Máy chủ MOLAP (multidimensional OLAP)
Máy chủ MOLAP là kiến trúc máy chủ gốc, mà không khai thác các chức năng của quan
hệ back-end nhưng lại trực tiếp hỗ trợ các view đa chiều thông qua công cụ lưu trữ đa chiều.
MOLAP cho phép thực hiện các truy vấn đa chiều trên các lớp lưu trữ thông qua bản đồ. Ưu
điểm chính của MOLAP là thuộc tính indext tốt. Nhược điểm của nó là kém trong việc lưu trữ,
đặc biệt khi các dữ liệu thưa thớt. Nhiều máy chủ thích ứng với dữ liệu thưa thớt thông qua việc
lưu trữ đại diện mức 2 và nén. Trong lưu trữ đại diện hoặc là trực tiếp hoặc là sử dụng các công
cụ thiết kế, người sử dụng xác định tập các mảng phụ một hoặc hai chiều đại diện cho chúng.
Cấu trúc chỉ mục truyền thống sau đó có thể các chỉ mục này nhỏ hơn mảng. Nhiều kỹ thuật

được đặt ra cho CSDL thống kê có liên quan cho các máy chủ MOLAP. Mặc dù MOLAP cung
cấp hiệu năng, chức năng tốt nhưng họ vẫn không qui hoạch tốt cho kích thước dữ liệu lớn.
Máy chủ HOLAP (hybrid OLAP)
Kiến trúc HOLAP kết hợp công nghệ giữa ROLAP và MOLAP. Ngược lại với MOLAP,
thực hiện tốt khi dữ liệu là hợp lý dày, máy chủ ROLAP thực hiện tốt hơn khi dữ liệu là cực kỳ
thưa thớt. Máy chủ HOLAP xác định các khu vực dữ liệu thưa và dày của không gian đa chiều
và có những phương pháp ROLAP cho các khu vực thưa thớt và cách tiếp cận MOLAP cho các
khu vựa dày đặc. Máy chủ HOLAP chia truy vấn thành nhiều truy vấn, thực hiện các truy vấn
con, kết hợp kết quả và hiển thị kết quả cho người dùng. Các view HOLAP, xây dựng index,
querry và resource scheduling thì như là MOLAP và ROLAP.
KHAI THÁC DỮ LIỆU
Giả sử rằng FSC muốn để khởi động một chiến dịch gửi thư mục với một ngân sách chi
phí ít hơn $ 1.000.000. Với hạn chế này, các nhà phân tích tiếp thị muốn xác định tập hợp các
khách hàng có nhiều khả năng để đáp ứng và mua từ các cửa hàng. Công cụ khai thác dữ liệu
cung cấp chức năng dự báo và phân tích cao cấp bằng cách xác định mô hình phân phối và
hành vi đặc trưng trong một tập hợp dữ liệu
Khám phá tri thức -Việc xử lý quá trình cụ thể và đạt được mục tiêu thông qua các dữ
liệu lặp đi lặp lại việc khai phá dữ liệu, thường bao gồm ba giai đoạn:
• chuẩn bị dữ liệu,
• Xây dựng mô hình và đánh giá, và
• triển khai mô hình
Chuẩn bị dữ liệu
Trong giai đoạn chuẩn bị dữ liệu, các nhà phân tích chuẩn bị một tập dữ liệu chứa đủ
thông tin để xây dựng mô hình chính xác trong các giai đoạn tiếp theo Từ yêu cầu địa chỉ của
thông tin FCS, 1 mô hình chính xác sẽ dự đoán 1 khách hàng có khả năng mua sản phẩm quảng
cáo trong danh mục mới. Bởi vì dự đoán được dựa trên các yếu tố có khả năng ảnh hưởng đến
mua hàng của khách hàngmột mô hình dữ liệu sẽ bao gồm tất cả những khách hàng đáp ứng với
danh mục sản phẩm gửi trong 3 năm qua, thông tin cá nhân của họ, 10 sản phẩm đắt nhất khách
hàng từng mua, và thông tin về các danh mục sản phẩm mà họ thường mua.
Chuẩn bị dữ liệu có liên đến truy vấn phức tạp với những kết quả lớn. Ví dụ, chuẩn bị dữ

liệu liên quan đến việc tham gia FSC giữa các mối quan hệ khách hàng và bán hàng cũng như
xác định 10 sản phẩm hàng đầu cho mỗi khách hàng. Tất cả các vấn đề liên quan đến xử lý hiệu
quả truy vấn hỗ trợ quyết định đều làm nằm trong nội dung khai phá dữ liệu. Trong thực tế, nền
tảng của khai phá dữ liệu sử dụng OLAP hoặc các máy chủ quan hệ để đáp ứng chuẩn bị dữ liệu.
Khai phá dữ liệu thường liên quan đến xây dựng mô hình trên một tập dữ liệu đã được
chuẩn bị và sau đó triển khai thêm một hoặc nhiều mô hình. Bởi vì xây dựng mô hình trên tập dữ
liệu lớn có thể tốn kém, các nhà phân tích thường làm việc ban đầu với bộ dữ liệu mẫu. Nền tảng
của khai phá dữ liệu. do đó, phải hỗ trợ tính toán mẫu ngẫu nhiên của dữ liệu qua truy vấn phức
tạp.
Xây dựng và đánh giá các mô hình khai phá dữ liệu
Chỉ sau khi quyết định để triển khai mô hình này, các nhà phân tích xây dựng mô hình trên toàn
bộ tập dữ liệu chuẩn bị. Mục tiêu của giai đoạn xây dựng mô hình là định ra khuôn mẫu định nghĩa 1
thuộc tính. Một thuộc tính ví dụ trong tập dữ liệu FSC là khách hàng mua ít nhất một sản phẩm từ danh
mục
Một số lớp của mô hình khai phá dữ liệu giúp dự đoán cả hai thuộc tính rõ và thuộc tính ẩn. Hai
vấn đề quan trọng ảnh hưởng đến lựa chọn mô hình là tính chính xác của mô hình và hiệu quả của các
thuật toán để xây dựng mô hình trên tập dữ liệu lớn. Theo thống kê, tính chính xác của các mô hình cải
thiện với số lượng dữ liệu được sử dụng, do đó, các thuật toán để xây dựng mô hình khai phá phải có hiệu
quả và khả năng mở rộng để xử lý dữ liệu lớn trong một khoảng thời gian hợp lý.
Các loại mô hình
Mô hình phân loại là việc dự đoán, Khi đưa ra một bộ mới các mô hình phân loại dự đoán liệu các
bộ thuộc về một trong các lớp mục tiêu Trong ví dụ danh mục FSC, một mô hình phân loại sẽ quyết định,
dựa trên hành vi trong quá khứ, là một khách hàng có hay không mua hàng từ 1 danh mục. Cây quyết
định và mô hình Bayes là hai loại phổ biến trong mô hình phân loại.
Cây hồi quy và hồi quy logistic là 2 loại phổ biến của mô hình hồi quy, mà dự đoán các thuộc tính
số, như lương hoặc tuổi của 1 khách hàng.
Với mốt số ứng dụng, các nhà phân tích không biết rõ ràng tập hợp các lớp đối tượng và coi như
chúng ẩn. Các nhà phân tích sử dụng các mô hình phân cụm như Kmeans và Brich để xác định tập hợp
các lớp và phân loại bộ mới vào trong các lớp ẩn.
Các nhà phân tích sử dụng các luật như luật kết hợp để tìm xem liệu có việc mua một tập hợp các

các sản phẩm giầy dép là chỉ tiêu định hướng, với một số mức độ tự tin, của mua sản phẩm khác.
Cân nhắc mô hình bổ sung.
Không có mô hình hoặc thuật thoán để xây dựng mô hình lý tưởng cho tất cả các ứng dụng. Do
đó, nền tảng của khai phá dữ liệu phải hỗ trợ một số loại mô hình khởi tạo để đánh giá và cung cấp các
chức năng bổ sung để mở rộng và thay thế cho nhau.
Trong một số trường hợp, nhà phân tích có thể muốn xây dựng 1 mô hình tương quan độc đáo mà
nền tảng khai thác dữ liệu không hỗ trợ. Để xử lý các yêu cầu như thế, nền tảng khai thác phải hỗ trợ mở
rộng.
Nhiều sản phẩm thương mại xây dựng mô hình cho các lĩnh vực cụ thể, nhưng CSDL thực tế mà
trên đó các mô hình phải được triển khai có thể trong một hệ thống cơ sở dữ liệu khác nhau. Do đó nền
tảng khai phá dữ liệu và các máy chủ CSDL cũng phải có khả năng trao đổi các mô hình.
Nhóm Khai thác dữ liệu () gần đây đề xuất sử dụng Predictive Model
Makup Language, một XML tiêu chuẩn, để thay đổi một số lớp mô hình dự đoán phổ biến. Ý tưởng là
một số cơ sở dữ liệu hỗ trợ tiêu chuẩn có thể import và phát triển một số mô hình mô tả ở dạng tiêu
chuẩn.
Triển khai mô hình khai phá dữ liệu
Trong giai đoạn triển khai mô hình khai thác, những nhà phân tích áp dụng mô hình lựa chọn cho
tập dữ liệu để dự đoán thuộc tính đích với một giá trị chưa xác định. Với mọi tập hiện tại của khách hàng
trong ví dụ FSC, dự đoán là liệu họ có mua 1 sản phẩm từ danh mục mới. Đang truyển khai 1 mô hình
trên tập dữ liệu đầu vào - 1 tập hợp hay 1 phân vùng của tập dữ liệu đầu vào - có thể có kết quả trong 1
tập dữ liệu khác.Trong ví dụ FSC, giai đoạn triển khai mô hình xác định tập hợp khách hàng sẽ gửi danh
mục.
Khi tập dữ liệu đầu vào là cực kỳ lớn, chiến lược triển khai phải thật hiệu quả. Sử dụng chỉ số về
mối quan hệ đầu vào để lọc ra các bộ dữ liệu mà không triển khai kết quả có thể là cần thiết, nhưng điều
này đòi hỏi tích hợp chặt chẽ giữa hệ thống cơ sở dữ liệu và triển khai mô hình. Không may, cộng đồng
nghiên cứu dành ít sự quan tâm đến hiệu quả triển khai hơn là xây dựng mô hình có khả năng mở rộng
VẤN ĐỀ BỔ SUNG OLAP VÀ KHAI PHÁ DỮ LIỆU.
Những vấn đề quan trọng khác trong bối cảnh của OLAP và công nghệ khai thác dữ liệu bao gồm
đóng gói ứng dụng, nền tảng giao diện chương trình ứng dụng và tác động của XML, xử lý truy vấn gần
đúng, OLAP và hội nhập khai thác dữ liệu, và khai thác Web.

Các ứng dụng đóng gói.
Để phát triển 1 OLAP hoàn chỉnh hoặc 1 giải pháp thống kê khai thác dữ liệu, những nhà phân
tích phải thực hiện 1 loạt truy vấn phức tạp và xây dựng, điều chỉnh và phát triển mô hình phức tạp. Một
số công cụ thương mại cố gắng thu hẹp khoảng cách giữa yêu cầu giải pháp thực tế cho các tên miền được
hiểu rõ và hỗ trợ từ OLAP cung cấp hoặc nền tảng khai thác dữ liệu. Ứng dụng đóng gói và công cụ báo
cáo có thể khai thác kiến thức dọc tên miền để nhiệm vụ của những nhà phân tích đơn giản hơn bằng cách
cung cấp mức cao hơn, trừu tượng tên miền cụ thể. Data Ware housing Information
Center(dwinfocenter.org) và KDnuggets (kdnuggets.com/solutions/index.html) cung cấp đầy đủ danh
sách giải pháp tên miền cụ thể.
Các doanh nghiệp có thể mua các giải pháp thay vì phát triển các phân tích của của mình, nhưng
những giải pháp tên miền cụ thể được giới hạn bởi toàn bộ đặc điểm và do đó có thể không đáp ứng tất
cả các phân tích của một công ty cần như kinh doanh của mình phát triển.
Nền tảng APIs và tác động XML.
Một số OLAP và khai phá dữ liệu cung cấp APIs để các nhà phân tích có thể xây dựng giải pháp
tuỳ chỉnh Tuy nhiên, giải pháp cung cấp thường có chương trình cho một loạt OLAP hoặc các công cụ
khai thác dữ liệu để cung cấp 1 giải pháp độc lập. 1 dịch vụ giải pháp web XML mới cung cấp 1 giao diện
phổ biến cho các công cụ OLAP. Microsoft và Hyperion đã xuất bản đặc tả XML dành cho những nhà
thiết kế ( 1 ví dụ đối tượng truy cập giao
thức cơ bản XML API thiết kế đặc biệt chuẩn hóa cho sự tương tác truy cập dữ liệu giữa 1 ứng dụng và 1
nhà cung cấp dữ liệu (OLAP và khai thác dữ liệu) đang làm việc trên web. Với 1 đặc tả, giải pháp cung
cấp có thể sử dụng chương trình như đơn XML API thay vì nhiều nhà cung cấp APIs.
Xử lý truy vấn gần đúng (xấp xỉ)
Xử lý các truy vấn tổng hợp thường đòi hỏi phải truy cập vào một lượng lớn dữ liệu trong kho dữ
liệu. Ví dụ, doanh số bàn hàng trung bình của máy tính FSC trên toàn thành phố đòi hỏi quét tất cả dữ liệu
của kho dữ liệu. Tổng hợp các xử lý truy vấn phức tạp thường đòi hỏi phải truy cập vào lượng lớn dữ liệu
trong warehouse. Ví dụ, doanh số bàn hàng trung bình của máy tính FSC trên toàn thành phố đòi hỏi quét
tất cả dữ liệu của warehouse. Trong nhiều trường hợp, tuy nhiên, xử lý truy vấn gần đúng như là một lựa
chọn để có được một ước lượng chính xác rất nhanh chóng. Ý tưởng cơ bản từ tổng hợp các dữ liệu cơ
bản là giống nhất có thể và sau đó trả lới truy vấn tổng hợp sử dụng tóm tắt thay vì dữ liệu thực tế. Dự án
xử lý truy vấn gần đúng ( và dự án AQUA

( /project/aqua) cung cấp giải pháp bổ sung cho phương pháp tiếp cận này.
OLAP và khai thác dữ liệu tích hợp.
Công cụ OLAP giúp đỡ các nhà thiết kế xác định các thành phần liên quan đến dữ liệu, khi mô
hình khai thác nâng cao hiệu quả của chức năng này. Ví dụ, nếu sản phẩm FSC tăng doanh thu không đáp
ứng mục tiêu lãi suất, các nhà kinh doanh sẽ muốn biết khu vực bất thường và danh mục sản phẩm không
đáp ứng mục tiêu. Một phân tích thăm dò xác định bất thường sử dụng một kỹ thuật đánh dấu biện pháp
tổng hợp ở mức độ cao hơn trong một hệ thống phân cấp với một điểm số bất thường. Điểm số bất thường
tính toán độ lệch tổng thể các giá trị tổng hợp thực tế từ giá trị dự kiến trên tất cả các thành phần con. Các
nhà phân tích có thể sử dụng các công cụ khai thác dữ liệu như mô hình hồi quy để tính toán giá trị dự
kiến tương ứng.
Khai phá dữ liệu web.
Hầu hết các doanh nghiệp lớn duy trì một sự hiện diện web, nơi khách hàng có thể duyệt, tìm hiểu
về và mua sản phẩm. Bởi vì mỗi khách hàng tiếp xúc với các doanh nghiệp thông qua các trang web, các
công ty có thể cá nhân hoá trải nghiệm. Ví dụ, trang web có thể giới thiệu sản phẩm, dịch vụ, hoặc các sản
phẩm trong danh mục quan tâm của khách hàng. Amazon.com đã đi tiên phong trong việc triển khai các
hệ thống cá nhân.
Hai vấn đề quan trọng liên quan đến phát triển và triển khai các hệ thống Web là kỹ thuật thu thập
dữ liệu và cá nhân. Phân tích các dữ liệu đăng nhập web tự động thu thập được hồ sơ về hành vi khách
hàng tại Web site-có thể tiết lộ các mẫu điển hình. Ví dụ các phân tích này muốn cho phép FSC cung cấp
1 trường hợp đặc biệt của tất thể thao cho 1 khách hàng mua giày. Mô hình khai thác dữ liệu có thể khai
thác như hành vi dữ liệu đặc biệt là khi nó được kết hợp với dữ liệu cá nhân của khách hàng nhập vào
trong đăng ký hoặc kiểm tra để cá nhân hoá các trang web khách hàng nhìn thấy các quảng cáo thích hợp.
Theo thời gian, khi một cộng đồng người dùng lớn phát triển, các doanh nghiệp có thể được khuyến cáo-
sửa chữa các sản phẩm bổ sung dựa trên sự tương đồng giữa các mô hình hành vi của người sử dụng. Mô
hình khai thác dữ liệu có thể xác định người sử dụng như các lớp học tương tự.
CÔNG CỤ KHO DỮ LIỆU
Xây dựng data warehouse từ nhiều nguồn dữ liệu độc lập là một quá trình gồm nhiều bước liên
quan đến việc giải nén dữ liệu, biến đổi nó cho phù hợp với lược đồ kho dữ liệu, làm sạch, và sau đó là tải
nó vào kho dữ liệu. Các trung tâm Thông tin kho dữ liệu cung cấp một danh sách đầy đủ của ETL (trích
xuất, chuyển đổi, tải) công cụ để sử dụng trong chuỗi các hoạt động này.

Gỉai nén và chuyển đổi.
Mục tiêu của bước khai thác dữ liệu để đưa dữ liệu từ các nguồn khác nhau vào một cơ sở dữ liệu
mà nó có thể được sửa đổi và đưa vào kho dữ liệu. Mục tiêu của bước chuyển đổi dữ liệu tiếp theo là để
giải quyết sự khác biệt trong giản đồ và giá trị thuộc tính quy ước. Một tập hợp các quy tắc và các kịch
bản thường xử lý việc chuyển đổi dữ liệu từ một lược đồ đầu vào lược đồ đích.
Ví dụ, một nhà phân phối FSC có thể báo cáo các giao dịch bán hàng như một tập tin trong đó
mỗi bản ghi mô tả tất cả các đơn vị và số lượng các đơn vị tham gia giao dịch. Các nhà phân phối có thể
chia mỗi tên khách hàng vào ba lĩnh vực: tên, tên lót và tên cuối cùng. Đưa thông tin doanh số bán hàng
của nhà phân phối vào kho dữ liệu FSC với các lược đồ thể hiện trong hình 2, các nhà phân tích trước tiên
phải giải nén các hồ sơ và sau đó, cho mỗi bản ghi, chuyển đổi tất cả ba tên liên quan đến cột nguồn để
đưa ra một giá trị cho các thuộc tính tên của khách hàng .
Làm sạch dữ liệu.
Lỗi nhập dữ liệu và sự khác biệt trong lược đồ có thể là nguyên nhân bảng kích thước khách hàng
để có nhiều bộ dữ liệu tương ứng cho một khách hàng, dẫn đến kết quả của truy vấn không chính xác và
các mô hình khai phá không phù hợp. Ví dụ, nếu bảng khách hàng có nhiều bộ dữ liệu cho một số khách
hàng FSC tại New York, New York có thể không chính xác xuất hiện là sẽ trong danh sách top 50 thành
phố có số lượng cao nhất khách hàng độc đáo. Công cụ giúp phát hiện và dị thường dữ liệu chính xác có
thể dẫn đến kết quả cao, và một số lượng đáng kể của nghiên cứu giải quyết các vấn đề của dữ liệu loại bỏ
và làm sạch dữ liệu trùng lặp.
Tải dữ liệu
Sau khi giải nén và chuyển đổi của nó, dữ liệu vẫn có thể yêu cầu thêm tiền xử lý trước khi nó
được tải vào kho dữ liệu. Thông thường, tiện ích tải hàng loạt cũng như xử lý các chức năng kiểm tra ràng
buộc toàn vẹn; phân loại; tổng hợp, tập hợp và thực hiện các tính toán khác để xây dựng bảng gốc được
lưu trữ trong kho dữ liệu; và xây dựng chỉ mục và các vùng truy cập khác. Trong việc thêm dữ liệu vào
kho dữ liệu, 1 công cụ tải phải cho phép người quản trị hệ thống theo dõi tình trạng, hủy bỏ, tạm dừng
hoặc tiếp tục tải, và khởi động sau khi thất bại mà không làm giảm tính toàn vẹn dữ liệu. Bởi vì tiện ích
tải dữ liệu cho kho dữ liệu xử lý khối lượng dữ liệu lớn hơn nhiều so với các thao tác trên dữ liệu, họ sử
dụng kỹ thuật tính toán song song và phân vùng.
Làm mới dữ liệu.
Làm mới dữ liệu trong kho dữ liệu bao gồm việc cập nhật dữ liệu vào nguồn dữ liệu tương ứng và

cập nhật vào bảng cơ sở, và các khung nhìn được lưu trữ trong kho dữ liệu.
Hai vấn đề cần xem xét là khi nào cần tải lại và tải lại bằng cách nào. Thông thường, các kho dữ
liệu được làm mới (tải lại) theo định kỳ được lập lịch trước, chẳng hạn như hàng ngày, hàng tuần… chỉ
khi một số truy vấn OLAP yêu cầu dữ liệu hiện tại như là giá cổ phiếu thì cần thiết phải cập nhật thường
xuyên. Người quản trị data warehouse thiết lập các chính sách làm mới dữ liệu tùy thuộc vào nhu cầu
người dùng và hệ thống mạng. Lịch trình làm mới có thể khác nhau với nhiều nguồn khác nhau. Các quản
trị hệ thống phải chọn đúng chu kỳ làm mới để khối lượng dữ liệu không làm quá tải các tiện ích tải dữ
liệu.
Hầu hết các tiện ích thương mại sử dụng tải gia tăng trong quá trình làm mới để giảm khối lượng
dữ liệu, thao tác chèn chỉ có thể thực hiện được nếu nguồn dữ liệu hỗ trợ giải nén phần có liên quan của
dữ liệu. Tuy nhiên quá trình tải gia tăng có thể làm khó khăn để quản lý vì bản cập nhật phải được phối
hợp với các giao dịch liên tục.
Quản lý siêu dữ liệu.
Siêu dữ liệu là bất kỳ thông tin cần thiết để quản lý kho dữ liệu, và quản lý siêu dữ liệu là một yếu
tố kiến trúc kho cần thiết. Siêu dữ liệu hành chính bao gồm tất cả thông tin cần thiết để thiết lập và sử
dụng một nhà kho. Siêu dữ liệu kinh doanh bao gồm các điều khoản kinh doanh và định nghĩa, quyền sở
hữu dữ liệu, và các chính sách thu phí. Siêu dữ liệu hoạt động bao gồm các thông tin thu thập được trong
quá trình hoạt động kho chẳng hạn như dòng dữ liệu di cư và chuyển đổi; đồng tiền dữ liệu (hoạt động,
lưu trữ, hoặc thanh lọc); và giám sát các thông tin như thống kê sử dụng, báo cáo lỗi, và những con đường
mòn kiểm toán. Siêu dữ liệu kho thường nằm trong một kho lưu trữ cho phép chia sẻ siêu dữ liệu giữa các
công cụ và quy trình thiết kế, xây dựng, sử dụng, vận hành, và quản lý một kho dữ liệu
Tổng kết.
Nỗ lực trong ngành công nghiệp và học thuật đã mang lại tiến bộ công nghệ đáng kể đến công
việc lưu trữ dữ liệu, thể hiện qua số lượng các công cụ thương mại mà tồn tại trong một trong ba hoạt
động chính: Populating các kho dữ liệu từ cơ sở dữ liệu hoạt động độc lập, lưu trữ và quản lý dữ liệu, và
phân tích dữ liệu để đưa ra quyết định kinh doanh thông minh. Tuy nhiên, mặc dù có rất nhiều công cụ
thương mại, một số con đường thú vị cho nghiên cứu vẫn còn.
Làm sạch dữ liệu có liên quan đến tích hợp dữ liệu không đồng nhất, một vấn đề mà đã được
nghiên cứu trong nhiều năm. đang tập trung nhiều vào mâu thuẫn dữ liệu chứ không phải là mâu thuẫn
lược đồ. Mặc dù dữ liệu sạch là đối tượng của sự chú ý gần đây, nhiều việc cần phải làm để phát triển lĩnh

vực công cụ độc lập, giải quyết nhiều vấn đề làm sạch dử liệu gắn với phát triển kho dữ liệu.
Hầu hết các nghiên cứu khai thác dữ liệu đã tập trung vào phát triển các thuật toán để xây dựng
mô hình chính xác hơn hoặc để xây dựng mô hình nhanh hơn. Hai giai đoạn khác của quá trình khai phá
tri thức- chuẩn bị dữ liệu và mô hình khai thác triển khai - phần lớn đã bị bỏ qua. Cả hai giai đoạn hiện
nay một số vấn đề thú vị liên quan đặc biệt để đạt được sức mạnh tổng hợp tốt hơn giữa các hệ thống cơ
sở dữ liệu và công nghệ khai phá dữ liệu. Cuối cùng, công cụ mới sẽ cung cấp cho các nhà phân tích cách
hiệu quả hơn để chuẩn bị một bộ dữ liệu tốt để đạt được một mục tiêu cụ thể và cách thức hiệu quả hơn để
triển khai mô hình trên các kết quả của các truy vấn SQL tùy ý.

×