Tải bản đầy đủ (.doc) (45 trang)

TÌM HIỂU KHO DỮ LIỆU VÀ KỸ THUẬT KHAI PHÁ DỮ LIỆU

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (898.11 KB, 45 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
BÀI THU HOẠCH
CHUYÊN ĐỀ
KHAI PHÁ DỮ LIỆU VÀ NHÀ KHO DỮ LIỆU

ĐỀ TÀI: TÌM HIỂU KHO DỮ LIỆU VÀ
KỸ THUẬT KHAI PHÁ DỮ LIỆU
Giảng viên : PGS.TS. Đỗ Phúc
Học viên thực hiện : Đinh Đức Khoa
Mã số : CH1102003
Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu
HÀ NỘI - 2012
MỤC LỤC
CHƯƠNG I: GIỚI THIỆU VỀ KHO DỮ LIỆU 3
1. KHO DỮ LIỆU – DATA WAREHOUSE 3
2. MỤC ĐÍCH CỦA KHO DỮ LIỆU 4
3. ĐẶC TÍNH DỮ LIỆU TRONG KHO DỮ LIỆU 4
4. PHÂN BIỆT DW VỚI NHỮNG HỆ CƠ SỞ DỮ LIỆU TÁC GHIỆP 6
CHƯƠNG 2: KIẾN TRÚC KHO DỮ LIỆU 9
1. KIẾN TRÚC DỮ LIỆU MỘT TẦNG(Single-layer Architecture) 11
2. KIẾN TRÚC DỮ LIỆU HAI TẦNG (Two-layer Architecture) 12
3. KIẾN TRÚC DỮ LIỆU BA TẦNG (Three-layer Architecture) 13
CHƯƠNG 3: XÂY DỰNG VÀ SỬ DỤNG KHO DỮ LIỆU 15
1. PHÂN TÍCH CÁC YÊU CẦU CỦA KHO DỮ LIỆU 15
2. CÁC MÔ HÌNH DỮ LIỆU CỦA DW 16
3. TẠO LẬP CÁC KHO DỮ LIỆU 20
4. TRUY CẬP VÀ KHAI THÁC DỮ LIỆU 22
CHƯƠNG 4: KỸ THUẬT KHAI PHÁ DỮ LIỆU 29
1. VÀI NÉT VỀ KHAI PHÁ DỮ LIỆU 29
2. KỸ THUẬT PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU 29


3. KỸ THUẬT PHÂN CỤM 33
4. KỸ THUẬT KHÁM PHÁ LUẬT KẾ HỢP 35
CHƯƠNG 5: XÂY DỰNG CHƯƠNG TRÌNH DEMO 37
1. MÔ TẢ BÀI TOÁN 37
2. CẤU TRÚC DỮ LIỆU 38
3. THUẬT TOÁN 38
4. GIAO DIỆN CHƯƠNG TRÌNH 39
5. TRÌNH TỰ THỰC HIỆN 43
KẾT LUẬN 44
Đinh Đức Khoa – CH1102003
2
Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu
CHƯƠNG I: GIỚI THIỆU VỀ KHO DỮ LIỆU
Dữ liệu ngày một nhiều, lưu trữ phân tán ở nhiều dạng không tương thích với
nhau, thậm chí còn ở những dạng phi cấu trúc. Nhiều hệ CSDL đã được xây dựng
không tương thích với nhau và không tương thích với những hệ thông tin mới được
xây dựng. Bên cạnh đó, Internet đã mở ra nhiều khả năng và triển vọng cho các doanh
nghiệp, cung cấp cho chúng ta nhiều thông tin phong phú về mọi lĩnh vực của xã hội
loài người, từ các công trình nghiên cứu, kết quả học tập, thông tin quảng cáo, du lịch,
các loại trò chơi giải trí, thương mại điện tử, v.v. Rất nhiều hoạt động của chúng ta có
thể thực hiện được thông qua Internet. Tuy nhiên, một vấn đề đặt ra là làm thế nào để
tổ chức, khai thác được những khối lượng dữ liệu khổng lồ và đa dạng đó được?
Về phía người sử dụng, các khó khăn gặp phải thường là:
• Không thể tìm thấy dữ liệu cần thiết
• Không thể lấy ra được dữ liệu cần thiết
• Không thể hiểu dữ liệu tìm thấy
• Không thể sử dụng được dữ liệu tìm thấy
Những vấn đề về hệ thống thông tin:
• Khối lượng dữ liệu lưu trữ tăng rất nhanh
• Quản trị dữ liệu phức tạp

• Phát triển các chương trình khác nhau là không đơn giản
• Duy trì những chương trình này gặp rất nhiều vấn đề
Giải pháp cho tất cả các vấn đề nêu trên chính là việc xây dựng một kho chứa
dữ liệu (Data Warehouse).
1. KHO DỮ LIỆU – DATA WAREHOUSE
Định nghĩa: Kho dữ liệu (Data Warehouse - DW) là tuyển tập các CSDL tích hợp,
hướng chủ đề, được thiết kế để hỗ trợ cho chức năng trợ giúp quyết định, mà mỗi đơn
vị dữ liệu đều liên quan tới một khoảng thời gian cụ thể.
Kho dữ liệu thường rất lớn tới hàng trăm GB hay thậm chí hàng Terabyte Kho
dữ liệu được xây dựng để tiện lợi cho việc truy cập theo nhiều nguồn, nhiều kiểu dữ
liệu khác nhau sao cho có thể kết hợp được cả những ứng dụng của các công nghệ hiện
đại và kế thừa được từ những hệ thống đã có sẵn từ trước. Dữ liệu phát sinh từ các
Đinh Đức Khoa – CH1102003
3
Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu
hoạt động hàng ngày và được thu thập xử lý để phục vụ công việc nghiệp vụ cụ thể của
một tổ chức thường được gọi là dữ liệu tác nghiệp (operational data) và hoạt động thu
thập xử lýloại dữ liệu này được gọi là xử lý giao dịch trực tuyến (On_line Transaction
Processing - OLPT). Kho dữ liệu trái lại phục vụ cho việc phân tích với kết quả mang
tính thông tin cao. Các hệ thống thông tin thu thập xử lýdữ liệu loại này còn gọi là hệ
xử lýphân tích trực tuyến (On_Line Analytical Processing - OLAP).
2. MỤC ĐÍCH CỦA KHO DỮ LIỆU
• Có khả năng đáp ứng mọi yêu cầu về thông tin của NSD.
• Hỗ trợ để các nhân viên của tổ chức thực hiện tốt, hiệu quả công việc của mình,
có những quyết định hợp lý, nhanh và bán được nhiều hàng hơn, thu được lợi
nhuận cao hơn, v.v.
• Giúp cho tổ chức, xác định, quản lý và điều hành các dự án, các nghiệp vụ một
cách hiệu quả và chính xác.
• Tích hợp dữ liệu và các siêu dữ liệu từ nhiều nguồn khác nhau
• Muốn đạt được những yêu cầu trên thì DW phải:

• Nâng cao chất lượng dữ liệu bằng các phương pháp làm sạch và tinh lọc dữ liệu
theo những hướng chủ đề nhất định
• Tổng hợp và kết nối dữ liệu
• Đồng bộ hoá các nguồn dữ liệu với DW
• Phân định và đồng nhất các hệ quản trị cơ sở dữ liệu tác nghiệp như là các công
cụ chuẩn để phục vụ cho DW.
• Quản lí siêu dữ liệu
• Cung cấp thông tin được tích hợp, tóm tắt hoặc được liên kết, tổ chức theo các
chủ đề
• Dùng trong các hệ thống hỗ trợ quyết định (Decision suport system - DSS), các
hệ thống thông tin tác nghiệp hoặc hỗ trợ cho các truy vấn đặc biệt
3. ĐẶC TÍNH DỮ LIỆU TRONG KHO DỮ LIỆU
1. Tính tích hợp
Đinh Đức Khoa – CH1102003
4
Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu
Khái niệm tích hợp có nghĩa là kho dữ liệu có khả năng thu thập dữ liệu từ
nhiều nguồn và trộn ghép với nhau tạo thành một thể thống nhất.
2. Gắn thời gian
Mỗi bản ghi của kho dữ liệu chứa một yếu tố thời gian như một phần của khóa
chính để bảo đảm tính duy nhất của mỗi bản ghi và cung cấp một đặc trưng về thời
gian cho dữ liệu. Toàn bộ dữ liệu trong kho được tạo ra và gắn liền với một giá trị thời
gian nhất định.
3. Có tính lịch sử
Các thông tin trong kho dữ liệu được tập trung theo thời gian và thể hiện một
khung nhìn của một chủ đề trong một giai đoạn.
CSDL tác nghiệp Data Warehouse
Thời gian ngắn 30-60 ngày
Có thể có yếu tố thời gian hoặc không
Dữ liệu có thể cập nhật

Thời gian dài
Luôn có yếu tố thời gian
Khi dữ liệu được chụp lại thì không cập
nhật được
4. Chỉ đọc
Dữ liệu trong kho là dữ liệu chỉ đọc và chỉ có thể tra cứu, không được sửa đổi
bởi người sử dụng cuối.
5. Không biến động
Tính không biến động của kho dữ liệu được hiểu theo nghĩa: dữ liệu được lưu
trữ lâu dài trong kho dữ liệu. Mặc dù có thêm dữ liệu mới nhập vào nhưng dữ liệu cũ
trong kho vẫn không bị xóa, điều đó cho phép cung cấp thông tin về một khoảng thời
gian dài, cung cấp đủ số liệu cần thiết cho các mô hình nghiệp vụ phân tích, dự báo.
Đinh Đức Khoa – CH1102003
5
Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu

6. Dữ liệu tổng hợp và chi tiết
Dữ liệu chi tiết là thông tin mức thấp nhất được lưu trữ trong kho dữ liệu. Dữ
liệu tác nghiệp chính là thông tin mức thấp nhất. Dữ liệu tổng hợp được tích hợp lại
qua nhiều giai đoạn khác nhau.
4. PHÂN BIỆT DW VỚI NHỮNG HỆ CƠ SỞ DỮ LIỆU TÁC GHIỆP
• Kho dữ liệu phải được xác định theo hướng chủ đề. Nó được thực hiện theo ý
đồ của người sử dụng đầu cuối trong khi các hệ CSDL tác nghiệp dùng để phục
vụ các mục đích áp dụng chung.
• DW quản lí một khối lượng lớn thông tin được lưu trữ trên nhiều phương tiện
lưu trữ và xử lýkhác nhau. Những hệ CSDL thông thường không phải quản lí
những lượng thông tin lớn mà quản lí những lượng thông tin vừa và nhỏ. Trong
khi đó thì DW phải quản lí những lượng thông tin rất lớn và đó cũng chính là
đặc thù của kho dữ liệu.
• DW có thể ghép nối các version khác nhau của các loại cấu trúc CSDL. DW

tổng hợp thông tin để thể hiện chúng dưới những hình thức dễ hiểu đối với
người sử dụng.
• DW tích hợp và kết nối thông tin từ những nguồn khác nhau trên nhiều loại
phương tiện lưu trữ và xử lýthông tin nhằm phục vụ cho những ứng dụng xử
lýtác nghiệp trực tuyến.
Đinh Đức Khoa – CH1102003
6
Đọc
Đọc
Thêm
Xóa
Sửa
Hệ tác nghiệp
Tải dữ liệu
Kho dữ liệu
Tính không biến động của DW
Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu
• DW có thể lưu trữ các thông tin tổng hợp theo một chủ đề nghiệp vụ nào đó sao
cho tạo ra các thông tin phục vụ hiệu quả cho việc phân tích của người sử dụng.
• DW thông thường chứa các dữ liệu lịch sử kết nối nhiều năm trước của các
thông tin tác nghiệp được tổ chức lưu trữ có hiệu quả và có thể hiệu chỉnh lại dễ
dàng. Dữ liệu trong CSDL tác nghiệp thường là mới, có tính thời sự trong
khoảng thời gian ngắn.
• Dữ liệu từ CSDL tác nghiệp được chắt lọc và tổng hợp lại để chuyển sang môi
trường DW. Rất nhiều dữ liệu khác không được chuyển về DW, chỉ những dữ
liệu cần thiết cho công tác quản lý hay trợ giúp quyết định mới được chuyển
sang DW.
Nói một cách tổng quát, DW làm nhiệm vụ phân phát dữ liệu cho nhiều đối
tượng (khách hàng) xử lý thông tin dưới nhiều dạng như: CSDL, SQL query, Report
Một số tiêu chí so sánh 2 hệ thống CSDL tác nghiệp - DW

Các tiêu chí so sánh Hệ thống tác nghiệp Kho dữ liệu
Cỡ Database Cỡ GigaByte Cỡ GigaByte đến
TeraByte
Nguồn dữ liệu Nội tại Cả trong lẫn ngoài
Truy nhập Đọc và Ghi Chỉ đọc
Thời gian tác dụng Hiện tại Từ quá khứ đến tương lai
Số lượng giao dịch Lớn Từ nhỏ đến lớn
Khối lượng công việc Dự đoán được, định kỳ Không dự đoán được
Hoạt động NSD Tập trung, tính toán, báo cáo Thăm dò, phân tích, quản
lý và khai phá dữ liệu
Các ứng dụng của kho dữ liệu
Các kỹ thuật kho dữ liệu và khai phá dữ liệu có thể ứng dụng vào nhiều tình
huống thực hiện ra quyết định đa dạng và trong nhiều phạm vi rộng của các hoạt động
nghiệp vụ.
• Marketing: phân tích các nhu cầu của khách hàng dựa trên các mẫu dữ liệu mua
bán hàng, phân loại khách hàng, phân loại các mặt hàng trong thời gian dài để từ
đó xác định chiến lược kinh doanh, quảng cáo, xác định các kế hoạch sản xuất
và kinh doanh theo các thời kỳ khác nhau.
Đinh Đức Khoa – CH1102003
7
Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu
• Tài chính, ngân hàng, thị trường chứng khoán: phân tích các khả năng vay, trả
nợ của khác hàng, đánh tính hiệu quả của các hoạt động kinh doanh tiền tệ của
ngân hàng, phân tích thị trường đầu tư chứng khoán, các hợp đồng (khế ước),
công trái, phát hiện sự gian lận trong các hoạt động kinh tế, tài chính, v.v.
• Sản xuất, chế tạo, công nghệ: thực hiện phân tích dữ liệu về các sản xuất, chế
tạo để đề xuất tối ưu hoá về tài nguyên, vật liệu, nhân lực trong các qui trình sản
xuất và chế tạo mới, v.v.
• Chăm sóc sức khoẻ cộng đồng: phân tích các kết quả phòng chống và điều trị
các loại bệnh, công tác chăm sóc và bảo vệ sức khoẻ của cộng đồng, phân tích

sự tác hại của ma tuý, những tệ nạn xã hội khác, v.v.
Đinh Đức Khoa – CH1102003
8
Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu
CHƯƠNG 2: KIẾN TRÚC KHO DỮ LIỆU
Kiến trúc kho dữ liệu dưới đây mô tả thành phần cơ bản của một kho dữ liệu.
Kiến trúc của Kho dữ liệu
Giải thích
* Lớp quản lý dữ liệu
Sao lưu dữ liệu tích hợp từ nguồn dữ liệu đã chọn phục vụ cho việc tinh chế và
gia công lại dữ liệu trong kho. Giám sát và đáp ứng các đòi hỏi cho các dữ liệu mới rút
từ các nguồn dữ liệu khác nhau. Bảo quản dữ liệu trong các nguồn dữ liệu tác nghiệp
và nạp lại hay cập nhật và làm sạch dữ liệu.
* Lớp quản lý siêu dữ liệu
Các chức năng chính của lớp này là sao chép, tạo mới, lưu trữ, phục hồi, làm
sạch và cập nhật các siêu dữ liệu.
* Lớp chuyển tải dữ liệu
Thực hiện chuyển tải dữ liệu giữa các khối, lớp này sử dụng các chức năng cập
nhật sao chép chuyển tải dữ liệu và các hệ thống mạng, các phần mềm trung gian. Lớp
chuyển tải xác định các cầu nối truyền thông cần thiết giữa các trang thiết bị phần cứng
và phần mềm của kho dữ liệu. Thực hiện các yêu cầu về an toàn dữ liệu.
* Lớp kết cấu hạ tầng
Thành phần quản lý các hệ thống: cung cấp khả năng tìm kiếm, quản lý; trợ giúp
cho quá trình tích hợp, quản lý các phần mềm chuẩn; phục vụ cho công việc lưu trữ;
cung cấp các dịch vụ quản lý và tạo ra môi trường làm việc cho khối các nguồn dữ liệu
* Khối các nguồn dữ liệu
Đinh Đức Khoa – CH1102003
9
Lớp quản lý dữ liệu
Các nguồn

dữ liệu
Khối tạo DW Khối tạo dựng
Datamart
Truy nhập và sử
dụng
Lớp kết cấu hạ tầng
Lớp chuyển tải siêu dữ liệu
Lớp quản lý siêu dữ liệu
Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu
Dữ liệu tác nghiệp: các loại dữ liệu được chắt lọc từ các phần mềm ứng dụng và
các hệ CSDL tác nghiệp đủ loại: Các hệ thống dữ liệu bên trong. Các hệ thống dữ liệu
bên ngoài. Hệ quản lý siêu dữ liệu cho khối này.
*Khối tạo dựng kho dữ liệu
Khối con tinh chế có các chức năng chính như chuẩn hoá, làm sạch, sàng lọc,
tương hợp, phân định thời gian cho các thông tin nguồn, quản lý siêu dữ liệu đối với
khối này liên quan đến việc nâng cao chất lượng của dữ liệu.
Khối con gia công lại có các chức năng tích hợp, phân loại, tính toán sơ bộ tổng
hợp và kết xuất dữ liệu theo yêu cầu của người sử dụng; chuyển đổi và hình thành lại
các dữ liệu từ các nguồn khác nhau để có thể kết hợp trong cùng một khuôn dạng.
Khối con kho dữ liệu có các chức năng mô hình hoá, tổng hợp và kết nối ở mức
độ cao các loại dữ liệu; tăng chất lượng, giá trị của dữ liệu; mô tả loại cơ sở dữ liệu. về
cơ bản các dữ liệu xử lý ở đây được lấy trực tiếp từ khối các nguồn dữ liệu.
* Khối tạo dựng kho dữ liệu chủ đề
Dùng để tạo các chủ đề từ nội dung của kho dữ liệu, các chức năng chính của
khối này là tinh chế và gia công lại bằng các phương pháp sàng lọc dữ liệu từ khối
DW, tổng hợp dữ liệu và tạo dữ liệu hướng chủ đề cụ thể; cơ chế quản lý siêu dữ liệu
cho khối này.
* Khối truy nhập và sử dụng
Khối con truy nhập có các chức năng truy nhập trực tiếp vào khối tạo dựng kho
dữ liệu; truy nhập vào các kho dữ liệu chủ đề; gia công lại và biến đổi dữ liệu thành

các loại dữ liệu có cấu trúc phức tạp hơn.
Khối con phân tích và tạo báo cáo có các chức năng tạo ra các công cụ chuẩn để
tạo báo cáo, phân tích dữ liệu, mô hình hoá tác nghiệp; tạo ra các phần mềm trợ giúp ra
quyết định, các phần mềm khai thác dữ liệu.
Đinh Đức Khoa – CH1102003
10
Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu

Có ba mô hình kiến trúc dữ liệu:
1. Kiến trúc dữ liệu một tầng,
2. Kiến trúc dữ liệu hai tầng
3. Kiến trúc dữ liệu ba tầng.
1. KIẾN TRÚC DỮ LIỆU MỘT TẦNG(Single-layer Architecture)
Nguyên lý chính của kiến trúc này là mỗi phần tử dữ liệu một lần lưu trữ và chỉ
một lần. Đây cũng chính là điểm mạnh của kiến trúc này. Bởi vì như thế sẽ tối thiểu
được không gian nhớ và tránh được vấn đề phải quản lý việc duy truỳ nhiều bản ghi dữ
liệu bị sao chép để đảm bảo chúng phải đồng bộ, nhất quán.
Kiến trúc này phù hợp cho việc tổ chức kho dữ liệu thông tin địa chất, địa lý
GIS, như các dữ liệu phục vụ cho việc khai thác dầu chẳng hạn. Thông thường, dữ liệu
khai thác là rất lớn và việc phân tích dữ liệu đòi hỏi tìm kiếm nhiều mẫu cực kỳ chi
tiết.
Điểm yếu của kiến trúc một tầng:
Đinh Đức Khoa – CH1102003
11
Operational System
Informational System
Real-time Data
Tích hợp
dữ liệu
Các nguồn

dữ liệu
Kho dữ
liệu
Các vùng
chủ đề
Quy trình tích hợp dữ liệu và truy nhập sử dụng
Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu
• Chủ yếu là thường có sự tranh chấp nhau giữa các ứng dụng tác nghiệp với các
ứng dụng thông tin, dẫn tới việc các dữ liệu được cung cấp không đáp ứng về
thời gian.
• Không hỗ trợ để sử dụng phân tán dữ liệu.
Trong thực tế, việc phát triển DW các dữ liệu lịch sử từ một nguồn thường
nhanh hơn kho dữ liệu tương tự từ nhiều nguồn khác nhau. Như ở trên đã nêu, người ta
có thể sử dụng khái niệm Virtual Data Warehouse- VDW như là một cách để cài đặt
nhanh chóng DW mà không cần sao chép lại nhiều bộ dữ liệu.
2. KIẾN TRÚC DỮ LIỆU HAI TẦNG (Two-layer Architecture)
Một điểm cải tiến của kiến trúc nêu trên là phân tách vùng dữ liệu sử dụng khác
nhau của hai loại hệ thống: hệ thống thao tác và hệ thống xử lý thông tin.
Tầng dưới, gồm những dữ liệu được sử dụng cho các ứng dụng tác nghiệp, thực
hiện được cả đọc và ghi, đó là những dữ liệu thời gian thực. Tầng trên bao gồm những
dữ liệu dẫn xuất giành cho các ứng dụng tìm kiếm thông tin. Dữ liệu dẫn xuất có thể
được xác định từ dữ liệu thời gian thực thông qua các quá trình tính toán, hoặc cũng có
thể là bản sao của dữ liệu thời gian thực.
Ưu điểm:
• Kiến trúc này giải quyết được vấn đề tranh chấp giữa hai loại hệ thống của kiến
trúc một tầng.
• Hỗ trợ để những NSD đầu cuối có những nhu cầảư lý được dữ liệu khác nhau
được lưu trữ trong vùng dữ liệu thời gian thực. Điều này có nghĩa là cho phép
đưa ra nhiều dữ liệu dẫn xuất khác nhau từ cùng một dữ liệu thời gian thực.
Đinh Đức Khoa – CH1102003

12
Operational System
Informational System
Real-time Data
Derived Data
Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu
Nhược điểm:
• Dữ liệu có thể bị lặp lại ở mức cao. Việc tổ chức dữ liệu lặp dẫn đến yêu cầu lưu
trữ tốn kém không gian nhớ và vấn đề quan trọng hơn là vấn đề quản lý, duy trì
lại phức tạp hơn nhiều.
• Không có sự tương quan một-một giữa dữ liệu thời gian thực với dữ liệu dẫn
xuất.
Mặc dù có những nhược điểm như trên, nhưng không có nghĩa là kiến trúc này
không được sử dụng. Kiến trúc này được Info Center sử dụng để xây dựng kho dữ liệu
thông tin khoa học và ứng dụng.
Ngày nay, nhu cầu phân tán dữ liệu tới tận các máy PC cho nhiều NSD ở khắp
nơi trên mạng diện rộng WAN và mạng cục bộ LAN đòi hởi phải có giải pháp khác, đó
chính là kiến trúc ba tầng.
3. KIẾN TRÚC DỮ LIỆU BA TẦNG (Three-layer Architecture)
Vấn đề cốt lõi của kiến trúc này là dữ liệu thời gian thực chuyển sang dữ liệu
dẫn xuất thay vì một bước như ở kiến trúc trên là phải thực hiện qua hai bước.
1. Hoà hợp (Reconcile) các dữ liệu từ tập dữ liệu thời gian thực, tầng trung gian
2. Dữ liệu được hoà hợp cung cấp dữ liệu dẫn xuất theo yêu cầu NSD.
Tầng dữ liệu hoà hợp trung gian chính là một cách thực hiện để chuẩn hoá
CSDL.
Đinh Đức Khoa – CH1102003
13
Operational System
Informational System
Real-time Data

Derived Data
Reconciled Data
Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu
Mục đích chính của tầng trung gian là thu thập nhiều dữ liệu khác nhau từ các
hệ thống thông tin tác nghiệp phân tán để tổ hợp lại vào một bức tranh dữ liệu chung
cho mỗi xí nghiệp.
Đặc trưng của kiến trúc ba tầng:
• Hỗ trợ cho những yêu cầu cần những thông tin mới từ dữ liệu
• Hỗ trợ việc tái kỹ nghệ các ứng dụng tác nghiệp
• Giảm thiểu được số lượng dữ liệu thông tin quản lý
• Giảm thiểu sự lặp lại của dữ liệu.
Đinh Đức Khoa – CH1102003
14
Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu
CHƯƠNG 3: XÂY DỰNG VÀ SỬ DỤNG KHO DỮ LIỆU
Hệ thống kho dữ liệu DW cũng giống như các hệ thống phần mềm khác, có chu
trình phát triển được cải tiên và hoàn thiện liên tục. Để phát triển được kho dữ liệu
DW, chúng ta phải thực hiện lần lượt các bước: lập kế hoạch, xác định các yêu cầu,
phân tích thành phần, thiết kế, cài đặt , trắc nghiệm và bảo trì hệ thống kho dữ liệu.
1. PHÂN TÍCH CÁC YÊU CẦU CỦA KHO DỮ LIỆU
Xác định chiến lược cài đặt: Có ba cách tiếp cận chính:
• Thực hiện trên xuống (Top-down)
• Thực hiện dưới lên (Bottom up)
• Tổ hợp của hai cách tiếp cận trên.
Lựa chọn phương pháp và mô hình phát triển kho dữ liệu: Để phát triển hệ thống kho
dữ liệu có hai phương pháp cơ bản:
• Phương pháp hướng chức năng: tập trung vào chức năng là chính, dữ liệu là
phụ.
• Phương pháp hướng đối tượng: xem hệ thống là tập các đối tượng và do vậy tập
trung chính vào dữ liệu.

Xác định mục tiêu của kho dữ liệu: Để hỗ trợ cho việc định rõ mục tiêu của dự án, khi
lập kế hoạch, nên dựa vào những câu hỏi sau:
• Thị trường (những NSD tiềm năng) của kho dữ liệu là gì?
Đinh Đức Khoa – CH1102003
15
Xác định chiến lược cài đặt
Lựa chọn phương pháp và mô hình
Xác định phạm vi
Xây dựng kiến trúc
Tập hợp Metadata
Lập kế hoạch
Xác định mục tiêu
Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu
• Những lĩnh vực nào đang sử dụng hoặc sẽ phải sử dụng kho dữ liệu?
• Những vấn đề cần lập kế hoạch, chủ yếu là những đặc tính, chức năng nào?
• Những nguồn dữ liệu nào có thể hoặc cần phải tích hợp để đưa vào kho dữ liệu?
• Khi nào thì kho dữ liệu được triển khai ứng dụng?
Xác định phạm vi: Căn cứ vào:
• Số lượng & loại đối tượng phục vụ
• Số lượng các nguồn cung cấp dữ liệu
• Tập các mô hình được lựa chọn
• Khả năng ngân sách, tài chính
• Thời gian thực hiện dự án
Xây dựng kiến trúc: Có một số hệ phần mềm DBMS được thiết kế để làm việc trong
môi trường dựa trên những phần cứng, hệ thống phần mềm khác nhau:
• Oracle
• Sysbase
• Informix
• DB2/6000
• Microsoft SQL Server

- Các yêu cầu của kho dữ liệu bao gồm:
• Các yêu cầu của chủ sở hữu
• Các yêu cầu của các kiến trúc sư
• Các yêu cầu của người phát triển
• Các yêu cầu của NSD.
2. CÁC MÔ HÌNH DỮ LIỆU CỦA DW
Mô hình dữ liệu của DW có thể thiết lập theo:
• Hình sao (Star Schema)
• Tuyết rơi (Snowflake)
• Mô hình đa chiều (Mutiple Dimension)
Đinh Đức Khoa – CH1102003
16
Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu
Hình sao: Một lược đồ gọi là lược đồ hình sao nếu tất cả các bảng chiều có thể
được kết nối trực tiếp tới bảng sự kiện (fact).
Trong sơ đồ hình sao, dữ liệu được xác định và phân loại 2 kiểu: bảng sự kiện
(bảng fact) và các bảng chiều (các bảng dimension). Bảng Sự kiện (FT) chứa thông tin
chi tiết (gọi là measure) cần được phân tích. Nó được gọi là sơ đồ hình sao bởi vì các
FT nằm ở trung tâm của mô hình và được bao quanh bởi các chiều liên quan, rất giống
với các điểm của một ngôi sao. Các sự kiện là các đại lượng số của công việc. Các
chiều là các bộ lọc hoặc các ràng buộc của những sự kiện này.
Sơ đồ hình sao cải thiện đáng kể thời gian truy vấn, cho phép thực hiện một số
tính năng đa chiều nhưng lại rất trực quan, dễ sử dụng.
Khóa của bảng sự kiện được tạo bởi những khóa của các bảng chứa thông tin
theo từng chiều (dimension table). Tất cả các khoá đều được xác định với cùng một
tiêu chuẩn đặt tên.
Những bảng sự kiện có chứa khóa của các bảng chiều, có thể là với tên khác đi
để đảm bảo tính duy nhất của mỗi bảng.
Các bảng chiều có định danh duy nhất và chứa đựng những thông tin về chiều
của bảng đó.

Bảng sự kiện và các bảng theo chiều đều không bắt buộc ở dạng chuẩn như đối
với phương pháp thiết kế truyền thống tức là trong kho có thể có sự dư thừa dữ liệu.
Với loại sơ đồ này cho phép lưu trữ dư thừa dữ liệu đổi lại khả năng truy nhập nhanh
hơn phù hợp với những câu hỏi phân tích nhiều chiều, phức tạp.
Đinh Đức Khoa – CH1102003
17
Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu
Tuyết rơi: Một lược đồ được gọi là lược đồ tuyết rơi nếu một hoặc nhiều bảng
chiều không chỉ kết nối trực tiếp với bảng fact mà còn kết nối với các bảng chiều khác.
Ví dụ: Một chiều sản phẩm có thể chia ra thành 3 bảng như minh họa trong lược
đồ sau:
Sơ đồ hình tuyết rơi cho bảng sản phẩm
Trong dạng sơ đồ này, mỗi bảng theo chiều của sơ đồ hình sao được chuẩn hóa
hơn.
Sơ đồ hình tuyết rơi với các bảng chiều chứa các sơ đồ tuyết rơi khác
Sơ đồ hình tuyết rơi cải thiện năng suất truy vấn, tối thiểu không gian đĩa cần
thiết để lưu trữ dữ liệu và cải thiện năng suất nhờ việc chỉ phải kết hợp những bảng có
kích thước nhỏ hơn thay vì phải kết hợp những bảng có kích thước lớn lại không chuẩn
hóa.
Nó cũng làm tăng tính linh hoạt của các ứng dụng bởi sự chuẩn hóa và ít mang
bản chất theo chiều hơn.
Nó làm tăng số lượng các bảng và làm tăng tính phức tạp của một vài truy vấn
cần có sự tham chiếu tới nhiều bảng
Kết hợp: Là kết hợp giữa hình sao dựa trên bảng Fact và những bảng
Dimension không chuẩn hóa theo các chuẩn 1, 2, 3 và mô hình tuyết rơi trong đó tất cả
Đinh Đức Khoa – CH1102003
18
Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu
các bảng Dimension đều đã được chuẩn hóa. Trong mô hình loại này chỉ những bảng
Dimension lớn là được chuẩn hóa còn những bảng khác chứa một khối lượng lớn các

cột dữ liệu chưa được chuẩn hóa.
Một vài cơ sở dữ liệu và các công cụ truy vấn của người sử dụng đầu cuối nhất
là các công cụ xử lýphân tích trực tuyến (OLAP) đòi hỏi mô hình dữ liệu phải là sơ đồ
hình sao bởi vì nó là một mô hình dữ liệu quan hệ nhưng lại được thiết kế để hỗ trợ mô
hình dữ liệu đa chiều là điểm cốt lõi của OLAP. Các cơ sở dữ liệu và công cụ này được
điều chỉnh cho phù hợp để thực hiện được các yêu cầu truy vấn đối với mô hình này.
GIẢI PHÁP CHO VẤN ĐỀ NĂNG SUẤT THỰC HIỆN CỦA MÔ HÌNH DỮ
LIỆU
Tư tưởng cơ bản của việc tối ưu là chiến lược kết hợp các cặp bảng bằng cách
lựa chọn chỉ các bảng có liên quan tới nhau ít nhất. Nói một cách khác, chiến lược tối
ưu này cho phép những sản phẩm của các nhà cung cấp nổi tiếng như ORACLE kết
hợp những bảng không quan hệ với nhau. Khi 2 bảng được kết hợp và không có cột
nào liên kết 2 bảng đó với nhau sự kết hợp các hàng của 2 bảng được thực hiện. Trong
đại số quan hệ, cách kết hợp này được gọi là tích Đề các. Lấy ví dụ bảng PRODUCTS
có 2 hàng (‘bolts’, ‘nut’) và bảng MARKETS có 3 hàng (‘east’,’west’, ‘central’), tích
đề các bao gồm 6 hàng ( ‘bolts’/’east’, ‘bolts’/’west’, ‘bolts’/’central’, ‘nut’/’east’,
‘nut’/’west’, ‘nut’/’central’)
RDBMS không bao giờ coi tích Đề các như một phép kết hợp tốt, nhưng đối với
sơ đồ hình sao những tích đề các này đôi khi cải thiện công suất truy vấn. Bởi vì bảng
Fact trong sơ đồ hình sao có kích thước lớn hơn rất nhiều các bảng Dimension mà sự
kết hợp các cặp bảng được thực hiện đầu tiên với bảng Fact. Sự lựa chọn này là không
hợp lí vì như vậy sẽ tạo ra các bảng trung gian rất lớn. Một tích đề các được thực hiện
đầu tiên với tất cả các bảng Dimension (bằng cách kết hợp các cặp bảng liên tiếp nhau)
và sự kết hợp với bảng Fact được lùi lại cuối cùng. Lợi ích quan trọng là bảng Fact
không tìm thấy dấu vết của nó trong bất kì một bảng kết quả trung gian nào. Chi phí
lớn nhất là tạo ra tích Đề các cho tất cả các bảng Dimension. Chi phí này ít tốn kém
hơn việc tạo ra các bảng trung gian do kết hợp với bảng Fact.
Sự tối ưu đơn giản không giải quyết được tất cả các vấn đề về năng suất thực
hiện. Chiến lược này chỉ dùng được chỉ khi tích đề các của các hàng trong các bảng
Dimension được chọn ít hơn rất nhiều so với số lượng hàng trong bảng Fact. Như vậy

Đinh Đức Khoa – CH1102003
19
Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu
việc kết hợp đề các này chỉ có ích cho những sự kết hợp có kích thước nhỏ. Nhưng
DW liên quan tới những bảng có kích thước không nhỏ vì vậy một số nhà cung cấp
dùng giải pháp sử dụng phần cứng và các phần mềm song song để giải quyết vấn đề
này. Dùng hệ thống song song có thể làm giảm thời gian thực hiện một truy vấn đơn
giản hoặc làm thêm một số công việc mà không làm thay đổi thời gian thực hiện công
việc. Ngoài ra dùng các CPU gồm nhiều bộ vi xử lýcũng cải tiến được thời gian cho
một câu truy vấn từ 500 giây xuống còn 50 giây. Cơ chế song song không tối ưu một
cách đầy đủ các xử lýcủa sơ đồ hình sao.
3. TẠO LẬP CÁC KHO DỮ LIỆU
Xây dựng kho dữ liệu là quá trình tích hợp dữ liệu từ các nguồn khác nhau vào
một kho. Các nhà phân tích nghiệp vụ có thể truy vấn kho dữ liệu và sinh các báo cáo,
biểu đồ để trợ giúp quá trình ra quyết định của họ. Một kho dữ liệu có thể chứa CSDL
lớn toàn xí nghiệp mà NSD và người quản trị có thể truy cập hoặc có thể kết hợp một
số hệ thống nhỏ thường gọi là kho dữ liệu chủ đề (DataMarts - DM). Điển hình, mỗi
DM gắn với một miền chủ đề bên trong một kho dữ liệu lớn.
3.1. CÁC NGUỒN DỮ LIỆU
Các nguồn dữ liệu bao gồm các hệ thống dữ liệu ở bên trong, hoặc bên ngoài
của một cơ quan, tổ chức hay một xí nghiệp.
Các hệ thống dữ liệu về một tổ chức được coi như các hệ thống nguồn, dữ liệu
bên trong, thường là những hệ thống thông tin có sẵn (Legacy System - LS). Đó là
những hệ thống tác nghiệp, hỗ trợ các hoạt động nghiệp vụ như sản xuất, hay kinh
doanh. Hệ thống này đã từng được phát triển, sử dụng các công nghệ có sẵn và vẫn phù
hợp với các nhu cầu của kinh doanh hiện tại. Các hệ thống này có thể được thực hiện
trong nhiều năm tới và có lẽ không có hoặc có rất ít minh chứng bằng tài liệu.
Dữ liệu bên ngoài ( External Data): là dữ liệu không nằm trong các hệ thống
tác nghiệp của tỏ chức đó, là những dữ liệu do người sử dụng đầu cuối yêu cầu để điền
vào bức tranh tổng thể phục vụ các nhu cầu công việc của họ.

Phân tích các nguồn dữ liệu: Các ứng dụng được phát triển với dữ liệu mà các
dữ liệu này phù hợp với các nhu cầu khác nhau, với cùng một hệ thống dữ liệu nhưng
với tên khác nhau, hoặc với các hệ thống đo lường khác nhau, định nghĩa dữ liệu thậm
chí chúng có những yêu cầu về dữ liệu tương tự như nhau. Kết quả cuối cùng là các
Đinh Đức Khoa – CH1102003
20
Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu
nguồn dữ liệu cần được đánh giá và các định nghĩa dựa vào Metadata để nhắm tới các
vấn đề sau:
• Xác định các nguồn, các cấu trúc file, các nền cơ sở (platform) khác nhau.
• Hiểu được dữ liệu nào có trong các hệ thống nguồn đang tồn tại, các định nghĩa
về nghiệp vụ của dữ liệu, và bất kì các luật nghiệp vụ nào cho dữ liệu.
• Phát hiện sự giao nhau về thông tin của các hệ thống khác nhau.
• Quyết định dữ liệu tốt nhất trong các hệ thống- có thể cùng một dữ liệu của
nhiều hơn một hệ thống. Mỗi hệ thống cần được đánh giá để quyết định hệ
thống nào có dữ liệu rõ ràng và chính xác hơn.
Thu thập và tạo lập dữ liệu
Một phần quan trọng của việc cài đặt kho dữ liệu là sử dụng những dữ liệu đã
được tinh chế từ những hệ thống tác nghiệp và đưa chúng vào một khuôn dạng thích
hợp cho các ứng dụng thông tin.
Những công cụ này thực hiện tất cả các công việc chuyển đổi, tóm tắt những
thay đổi quan trọng, những thay đổi về cấu trúc và những cô đọng cần thiết cho sự
chuyển đổi dữ liệu riêng rẽ thành thông tin có thể được dùng trong những công cụ hỗ
trợ quyết định. Nó sản sinh ra những chương trình và kiểm soát những câu lệnh của
Cobol, ngôn ngữ C, Unix script và ngôn ngữ định nghĩa dữ liệu SQL cần thiết để
chuyển dữ liệu vào DW từ nhiều hệ thống tác nghiệp khác nhau. Nó cũng duy trì
Metadata. Các chức năng chính bao gồm:
• Loại bỏ những dữ liệu không mong muốn từ những cơ sở dữ liệu tác nghiệp
• Chuyển đổi thành những tên gọi và những định nghĩa dữ liệu chung, tổng quát
• Tính toán các tổng và dữ liệu đã được chuyển hóa.

• Thiết lập những mặc định cho các dữ liệu bị mất.
• Làm cho những thay đổi về định nghĩa dữ liệu nguồn trở nên thích hợp.
Quá trình này thu thập và thiết lập các kho dữ liệu gồm những bước sau:
Đinh Đức Khoa – CH1102003
21
Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu
3.2. DUY TRÌ VÀ TRIỂN KHAI KHO DỮ LIỆU
Triển khai liên quan tới thực tế nằm ngoài DW, ngoài Metadata, liên quan tới
việc thực hiện, đào tạo và giáo dục, quản lí các nhu cầu vế công cụ truy vấn của người
sử dụng đầu cuối, lưu trữ các dữ liệu cũ. Giai đoạn triển khai đưa những thành phần
phụ và cố định vào DW.
- Giai đoạn triển khai đưa vào các phần trang trí và những bộ phận bất động
vào Data Warehouse. Tại giai đoạn này, công cụ truy nhập và phân tích đã
phải được lựa chọn để cung cấp tập kết qủa
4. TRUY CẬP VÀ KHAI THÁC DỮ LIỆU
Mục đích chính của phương pháp DW là cung cấp thông tin cho những nhà
nghiệp vụ để tạo ra những quyết định chiến lược. Những người sử dụng này liên hệ với
DW thông qua việc sử dụng công cụ đầu cuối. Với các mục đích khác nhau công cụ
được chia ra làm năm loại chính sau:
Đinh Đức Khoa – CH1102003
22
Source
Load
Archive
Target
Extrac
t
Filter
Validate
AggregateMerge

System
• Roll out
- Snow ball effect
- Feed back loop
• Ongoing Maintenance
- Turning
- Performance Strategies
• Archieve Strategies
- Business
- Technical
Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu
• Các công cụ tạo báo cáo và truy vấn dữ liệu
• Các công cụ phát triển ứng dụng
• Các công cụ thực hiện hệ thống thông tin (EIS )
• Các công cụ xử lýphân tích trực tuyến (OLAP)
• Các công cụ khai phá dữ liệu
Đinh Đức Khoa – CH1102003
23
Highly Summarized
Lightly Summarized
Detail Level
Query SQL
Reports
File Maint. Dictionary Comments
History
Application-Based Access
Data Warehouse
Desktop Tool Access
Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu
Các công cụ hỗ trợ khai thác kho dữ liệu

Các bước thực hiện để sử dụng dữ liệu trong kho
QUẢN LÝ VÀ QUẢN TRỊ KHO DỮ LIỆU
DW có độ lớn gấp khoảng 4 lần một kho dữ liệu tác nghiệp tổng thể (ODS). Nó
không được đồng bộ với dữ liệu tác nghiệp liên quan trong thời gian thực nhưng có thể
được cập nhật thường xuyên một lần trong một ngày nếu như ứng dụng yêu cầu đến
nó.
Hầu hết các sản phẩm của DW bao gồm các cổng để truy nhập tới các nguồn dữ
liệu phức tạp của công ty mà không phải viết lại các phần mềm chuyển đổi, dịch và sử
dụng dữ liệu. Trong một môi trường DW hỗn tạp, rất nhiều các cơ sở dữ liệu khác nhau
nằm trên những hệ thống riêng rẽ vì thế đòi hỏi các công cụ làm việc trao đổi giữa các
mạng. Mặc dù không có một công nghệ mạng trong DW, một cài đặt DW có thể dựa
trên những phần mềm truyền thông cũng như đối với các hệ thống xử lýcác giao dịch
Đinh Đức Khoa – CH1102003
24
Xác định mục tiêu,
những vấn đề cần
giải quyết
Xác định mục tiêu,
những vấn đề cần
giải quyết
Kiểm tra chất
lượng và tính
chất dữ liệu
Kiểm tra chất
lượng và tính
chất dữ liệu
Xây dựng
cách truy cập
vào kho
Xây dựng

cách truy cập
vào kho
Truy nhập
và tìm kiếm
thông tin
Truy nhập
và tìm kiếm
thông tin
Phân tích
và xử lý dữ
liệu
Phân tích
và xử lý dữ
liệu
Quyết định
và thực thi
công việc
Quyết định
và thực thi
công việc
Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu
hay gửi thông báo khác (ví dụ như NetWare, giao thức TCP/IP hay các sản phẩm dựa
trên công nghệ DCE). Điều đó dẫn đến sự cần thiết phải quản lí các thành phần hạ
tầng. Quản lí DW bao gồm:
• Quản lí về an toàn, bảo mật và độ ưu tiên
• Quản lí sự cập nhật từ nhiều nguồn khác nhau
• Kiểm tra chất lượng dữ liệu
• Quản lí và cập nhật Metadata
• Kiểm toán và lập báo cáo về việc sử dụng và trạng thái của DW (quản lí thời
gian sử dụng và việc sử dụng các tài nguyên, cung cấp các thông tin về giá tiền

phải trả )
• Làm sạch dữ liệu
• Tái tạo dữ liệu, chia nhỏ dữ liệu thành những tập con và phân tán dữ liệu
• Lưu trữ các bản sao và phục hồi dữ liệu
• Quản lí các kho DW
XỬ LÝ PHÂN TÍCH TRỰC TUYẾN OLAP
OLAP là một công nghệ xử lýtrực tuyến các thông tin mới được tạo ra từ những
dữ liệu đang tồn tại, thông qua một tập những chuyển đổi và các tính toán số. Về bản
chất, một hệ OLAP là hệ thống lưu giữ những thông tin tổng hợp và cho phép thể hiện
thông tin tổng hợp đó dưới dạng bảng 2 chiều.
Định nghĩa: OLAP là một công nghệ phân tích dữ liệu thực hiện những công việc
sau:
- Đưa ra một khung nhìn logic, nhiều chiều của dữ liệu trong DW.
- Thường liên quan tới những truy vấn phân tích tương tác dữ liệu
- Cung cấp khả năng thiết lập mô hình phân tích bao gồm một mô tơ tính toán cho
việc tính tỉ lệ, những biến đổi, liên quan tới những đại lượng số hoặc dữ liệu
là con số qua các chiều dữ liệu khác nhau.
- Tạo ra sự tổng hợp và kết hợp, phân cấp và dùng những mức tổng hợp, kết hợp
đó cho mỗi phép giao của các bảng theo mỗi chiều.
Đinh Đức Khoa – CH1102003
25

×