Tải bản đầy đủ (.pdf) (91 trang)

Kho dữ liệu - Data Warehouse. Một số vấn đề khai phá dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (25.37 MB, 91 trang )

JO S
V: ^
u>ữ
ĐẠI HỌC QUÓC GIA HÀ NỘI
KHOA CÔNG NGHỆ
LÊ MẠNH CƯỜNG
KHO DỮ LIỆU - DATA WAREHOUSE
MỘT SỐ VÁN ĐÈ KHAI PHÁ DỮ LIỆU
LUẬN VĂN THẠC s ĩ KHOA HỌC
• • •
HÀ NỘI - 2002
ĐẠI HỌC QUÓC GIA HÀ NỘI
KHOA CÔNG NGHỆ
LÊ M Ạ N H C Ư ỜNG
KHO DỮ LIỆU - DATA WAREHOUSE
MỘT SÓ VẨN ĐÈ KHAI PHÁ DỮ LIỆU
CH UYÊN N G H À NH : C ÔNG NG H Ệ T HÔ NG TIN
M Ã SÓ : 01.01.10
LUẬN VÃN TH Ạ C s ĩ K H OA H Ọ C
• • •
NG Ư ỜI H Ư Ớ NG DẨN K H O A HỌC
TS VŨ ĐỨ C THI
TRƠNọTÂM 1 HỒNG TIN. TKií y ị í i ị
I V - L o / t o j
HÀ NỘI - 2002
M ực LỤC
GIỚI THIỆU 5
CHƯƠNG 1 TÓNG QUAN
7
1.1 Tổng quan về cơ sở dữ liệu & Khai phá dữ liệu. 7
1.1.1 Tổ chức & Khai thác cơ sở dữ liệu truyền thống



7
1.1.2 Bước phát triển mới việc tổ chức & khai phá cơ sớ dữ
liệu

.

8
1.2 Kho dừ liệu 9
1.3 Khai phá dữ liệu & quá trình phát hiện tri thức

CHƯƠNG 2 KHO DỮ LIỆU 13
2.1 Giới thiệu chung về kho dừ liệu 13
2.1.1 Sự cần thiết Kho dữ liệu 13
2.1.2 Định nghĩa kho dữ liệu 16
2.1.3 Hệ thống cơ sở dữ liệu tác nghiệp & Hệ thống kho dữ 18
liệu
2.2 Sử dụng dừ liệu trong kho dừ liệu 21
2.3 Kiến trúc Kho dừ liệu 22
2.3.1 Kiến trúc chung 22
2.3.2 Các kiểu kiến trúc kho dừ liệu 29
2.3.2.1 Kiến trúc theo nhu cầu quản lý của cơ quan

30
2.3.2.1 Kiến trúc dựa theo sự phân lớp dữ liệu 31
2.3.2.3 Kiến trúc theo mô hình Client/Server

31
CHƯƠNG 3. KHAI PHÁ DỮ LIỆU 34
Kho dừ liệu Data Warehouse - Một số vấn đề khai phá số liệu

3.1 Khái niệm khai phá dừ liệu
3.1.1 Khái niệm
3.1.2 Khai phá dừ liệu trong quá trình phát hiện tri thức

3.2 Ọuá trình khai phá dừ liệu
3.2.1 Ọuá trình Khai phá số liệu
3.2.2 Các thành phần giải thuật Khai phá dừ liệu

3.3 Các phương pháp khai phá dữ liệu phổ biến
3.3.1 Phương pháp Suy diễn - Qui nạp
3.3.2 Cây quyết định và Luật

3.3.3 Phát hiện các Luật kết hợp
3.3.4 Phân nhóm và phân đoạn
3.3.5 Phương pháp dựa trên mẫu

3.3.6 Khai phá dừ liệu dạng văn bản

3.3.7 Mạng Neutron

3.3.8 Giải thuật di truyền
3.4. Khó khăn & Lợi thế khai phá dừ liệu so với các phương pháp
cơ bản
3.4.1 Khó khăn
3.4.2 Lợi thế của khai phá dừ liệu so với các phương pháp cơ
bản
CHƯƠNG 4 ỨNG DỤNG GIẢI THUẬT DI TRUYỀN TRONG
KHAI PHÁ SỐ LIỆU VẬN CHUYÊN HÀNG KHÔNG

4.1 Giải thuật di truyền

34
34
34
37
37
39
40
40
41
42
43
44
44
45
46
47
47
48
52
52
Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu
4.2.1 Xác định nhiệm vụ khai phá dừ liệu
56
4.2.2 Lựa chọn phương pháp 56
4.2.3 Thiết kế giải thuật 57
4.2.4 Thử nghiệm & đánh giá 61
4.2.5 Mã chương trình 68
KÉT LUẬN
89
TÀI LIỆU THAM KHẢO 90

4.2 ứng dụng trong khai phá dừ liệu vận chuyển Hàng không 56
Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu
Trong thời đại ngày nay, con người đang sống trong một môi
trường xã hội phát triển cao với sự bùng nồ về dừ liệu. Khi trình độ xã
hội càng phát triển thì kiến thức con người càng được phát triển đồng
thời lượng dừ liệu cũng gia tăng theo mức độ đó. Mặc dù trong môi
trường tràn ngập dừ liệu, nhưng con người dường như vẫn thiếu thông
tin. Theo thống kê của một số tổ chức uy tín thì chỉ có 2%-3% lượng dữ
liệu được chuyến thành thông tin có ích.
Khi xã hội càng phát triển, lượng thông tin cần càng nhiều thì
công việc tồ chức, khai phá dữ liệu ngày càng khó khăn, vấn đề đặt ra,
làm sao để xử lý tình trạng trên ? Kho dừ liệu là một giải pháp cho vấn
đề trên. Kho dừ liệu ra đời đáp ứng đòi hởi lưu trữ và khai thác thông tin.
Nhưng, yếu tố thành công trong mọi hoạt động xã hội ngày nay
không chỉ dừng ở nắm giữ thông tin, mà cần biết sử dụng thông tin một
cách có hiệu quả. điều đó có nghĩa là từ các dữ liệu sẵn có phải tìm ra
những thông tin tiềm ẩn có giá trị mà trước đó chưa được phát hiện, tìm
ra những xu hướng phát triển và những yếu tổ tác động lên chúng. Thực
hiện công việc đó chính là thực hiện quá trình phát hiện tri thức trong cơ
sở dừ liệu mà trong đó kỳ thuật cho phép ta lấy được các tri thức chính
là kỳ thuật khai phá dừ liệu.
Với phương hướng trên, Bản luận văn gồm các phần chính sau:
Chương 1 : Tổng quan
Giới thiệu tống quan về cơ sớ dữ liệu & quá trình phát hiện
tri thức trong đó kĩ thuật khai phá dừ liệu là cốt lỗi.
Chương 2: Kho dữ liệu:
GI ƠI THIỆU
Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu
-6-
Giới thiệu chi tiết - định nghĩa về kho dừ liệu, Kiến trúc

chung cua kho dữ liệu, các kiếu kiến trúc & các loại dừ liệu
trong kho.
Chương 3: Khai phá dừ liệu.
Chương này mô tả chi tiết về vị trí vai trò , sự cần thiết của
khai phá dữ liệu trong quá trình phát hiện tri thức. Các
thành phần giải thuật khai phá dữ liệu cũng như các phươnạ
pháp khai phá phổ biến.
Chương 4: ứng dụng giải thuật di truyền trong khai phá số liệu
Vận chuyển hàng không.
Hà nội, Năm 2002
Lê Mạnh Cường
Kho dừ liệu Data Warehouse - Một số vấn đề khai phá số liệu
CHƯƠNG ]: TỐNG QUAN
1.1 TỐNG QUAN VỀ c ơ SỞ DỮ LIỆU & KHAI PHÁ DỮ LIỆU
1.1. 1 TÔ CHỨC VÀ KHAI THÁC c ơ SỞ DỮ LIỆU TRUYỀN
THỐNG
Ngay từ những năm 60, Việc dùng các phương tiện tin học để tổ
chức các khai thác các cơ sở dừ liệu (CSDL) đã được phát triển. Cho đến
nay, rất nhiều CSDL đã được xây dựng, phát triển và khai thác ở khắp
các lĩnh vực hoạt động của con người và xã hội. Theo như một điêu tra
cho thấy, lư ợ n g thông tin trên thế giới cứ sau 24 tháng lại tăng gấp đôi.
Ngày nay, Với sự phát triền mạnh mẽ của công nghệ bán dẫn, tạo ra các
hệ thống có bộ nhớ với dung lượng lớn, bộ xử lý tốc độ cao cùng và các
mạng viễn thông với công nghệ truyền hiện đại, người ta đã xây dựng
các được các hệ thống thông tin hiện đại, trợ giúp mọi hoạt động kinh
doanh. Điều này đã tạo ra khối dữ liệu khổng lồ, cần xử lý , nó bao gồm
các cơ sở dừ liệu cực lớn cỡ gigabytes và thậm chí terabytes lưu trữ các
dữ liệu kinh doanh ví dụ như dữ liệu thông tin khách hàng, dữ liệu bán
hàng, dừ liệu tài khoán, v.v.
Nhiều hệ quản trị CSDL với các công cụ mạnh ra đời trợ giúp cho

con người khai thác có hiệu quả các nguồn tài nguyên dữ liệu. Mô hình
CSDL quan hệ và ngôn ngừ vấn tin chuẩn (SQL) đã có vai trò hết sức
quan trọne trong việc tổ chức và khai thác các CSDL đó. Cho đến nay,
không một tô chức kinh tế nào là không sử dụng các hệ quản trị CSDL
và các hệ công cụ báo cáo, ngôn ngữ hỏi đáp nhằm khai thác các CSDL
phục vụ cho hoạt động tác nghiệp của mình.
Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu
1.1.2. BƯỚC PHÁT TRIỂN CỦA VIỆC TỐ CHÚC VÀ KHAI PHÁ c ơ
SỞ DỪ LIỆU
Theo sự phát triển đi lên của các hệ thống cơ sở dừ liệu, các hệ
thống thông tin cũng được chuyên môn hoá, phát triển chuyên sâu theo
các lĩnh vực ứng dụng như sản xuất, kinh doanh, tài chính, thị trường
v.v. Như vậy, bên cạnh chức năng khai thác dữ liệu có tính chất tác
nghiệp, sự ứng dụng trong kinh doanh không còn là dữ liệu đơn thuần
của các hệ thống nữa mà cơ sở dừ liệu cần đem lại những “tri thức” hơn
là chính nhừng dữ liệu đó.
Trong xã hội hiện nay, Các hoạt động kinh doanh cần có các
quyết định nhanh & chính xác dựa trên những dữ liệu sẵn có, trong khi
đó khối lượng dữ liệu tăng nhanh làm ảnh hưởng đến thời gian ra quyết
định cùng như khả năng hiểu hết được nội dung dữ liệu. Điều này dẫn
đến các mô hình CSDL truyền thống và ngôn ngữ SQL đã không có khả
năng đáp ứng được yêu cầu này.
Đe lấy được những thông tin có tính “tri thức” trong khối dữ liệu
không lồ này, người ta đã đi tìm những kỹ thuật có khả năng hợp nhất
các dữ liệu từ các hệ thống dừ liệu khác nhau, chuyển đổi thành một tập
hợp các cơ sở dừ liệu ồn định, có chất lượng được sử dụng chỉ riêng cho
một vài mục đích nào đó. Các kỳ thuật đó được gọi chung là kỹ thuật tạo
kho dừ liệu (Data Warehousing) và môi trường các dừ liệu có được gọi
là các kho dữ liệu.
Tuy nhiên, việc sử dụng các cách khai thác dữ liệu theo khai thác

truyền thống mới chỉ dừng lại ở cách khai thác dừ liệu với các kỹ thuật
cao đê đưa ra các dừ liệu tinh và chính xác hơn chứ chưa đưa ra được dữ
liệu “tri thức”. Kho dữ liệu được sử dụng đế hồ trợ cho phân tích trực
Kho dừ liệu Data Warehouse - Một số vấn đề khai phá số liệu
tuyến (OLAP) có khả năng phân tích dừ liệu, xác định xem gia thuyêt
đúng hay sai nhưng không thể đưa ra các giả thuyết. Kỹ thuật học máy
có thê đưa ra giả thuyết nhưng trên các tập dừ liệu lớn trong kho dừ liệu
thì chúne thế hiện khả năng rất kém. phưong pháp thống kê cũng không
có cải tiến gì để phù hợp với sự phát triển của dữ liệu. Đây là lý do tại
sao vẫn còn khối lượng lớn dừ liệu vẫn chưa được khai thác và thậm chí
được lưu chủ yếu trong các kho dữ liệu không trực tuyến. Điều này đã
tạo nên một lồ hông lớn trong việc hồ trợ phân tích và tìm hiểu dừ liệu,
tạo ra khoảng cách giữa việc tạo ra dữ liệu và việc khai thác các dừ liệu
đỏ. Trong khi đó, càng ngày người ta càng nhận thấy rằng nếu được phân
tích thông minh thì dữ liệu sẽ là một nguồn tài nguyên quí giá trong cạnh
tranh trên thương trường, một công nghệ mới được nghiên cứu, đáp ứng
cả nhu cầu trong khoa học cũng như trong hoạt động thực tiễn. Đó chính
là công nghệ Khai phá dừ liệu.
1.2 KHO DỮ LIỆU
Kho dừ liệu là một môi trường có cấu trúc các hệ thống thông tin,
cung cấp cho người dùng các thông tin khó có thể truy nhập hoặc biểu
diễn trong các CSDL tác nghiệp truyền thông, nhàm mục đích hồ trợ
việc ra quyết định mang tính lịch sử hoặc hiện tại. Chi tiết về kho dữ
liệu, ta sẽ nghiên cứu ở phần sau.
Một kho dừ liệu có thể được coi là một hệ thống thông tin với
những thuộc tính sau:
- Là một cơ sờ dừ liệu được thiết kế có nhiệm vụ phân tích,
sử dụng các dừ liệu từ các ứng dụng khác nhau.
Kho dừ liệu Data Warehouse - Một số vấn đề khai phá số liệu
- 10-

- Chứa các dữ liệu lịch sử và hiện tại để cung cấp các xu
hướng thông tin
- Nội dung được cập nhật thường xuyên theo cách thêm thông
tin.
- Hồ trợ cho một số người dùng có liên quan với các thông tin
liên quan.
Câu trúc kho dữ liệu được xây dựng dựa trên hệ quản trị CSDL
quan hệ, có chức năng giống như một kho lưu trữ thông tin trung tâm.
Trong đó, dừ liệu tác nghiệp và phần xử lý được tách riêng khỏi quá
trình xử lý kho dừ liệu. Kho lưu trữ trung tâm được bao quanh bởi các
thành phần được thiết kế để làm cho kho dừ liệu có thể hoạt động, quản
lý và truy nhập được từ người dùng đầu cuối cũng như từ các nguồn dữ
liệu.
Yếu tố thành công trong mọi hoạt động kinh doanh ngày nay là
việc biêt sử dụng thông tin một cách có hiệu quả. Điếu đó có nghĩa là từ
các dừ liệu sẵn có, phải tìm ra những thông tin tiềm ẩn có giá trị mà
trước đó chưa được phát hiện, tìm ra những xu hướng phát triển và
những yếu tố tác động lên chúng. Thực hiện công việc đó chính là thực
hiện quá trình phát hiện tri thức trong cơ sở dữ liệu mà trong đó kỹ thuật
cho phép ta lấy được các tri thức chính là kỳ thuật khai pháp dữ liệu.
Phát hiện tri thức từ CSDL là một quá trình có sử dụng nhiều
phương pháp và công cụ tin học nhưng vẫn có một quá trình mà trong đó
con người là trung tâm. Do đó, nó không phải là một hệ thống phân tích
tự động mà là một hệ thống bao gồm nhiều hoạt động tương tác thường
Kho dừ liệu Data Warehouse - Một số vấn đề khai phá số liệu
xuyên giữa con người và CSDL, tất nhiên là với sự hồ trợ của các công
cụ tin học. Người sử dụng hệ thống ở đây phải là những người có kiến
thức cơ ban về lĩnh vực cần phát hiện tri thức để có thể chọn được đúng
các tập con dữ liệu, các lớp mầu phù hợp và đạt tiêu chuân quan tâm so
với mục đích. Tri thức mà ta nói ở đây là các tri thức rút ra từ các CSDL,

thuửng đề phục vụ cho việc giải quyết một loạt nhiệm vụ nhất định trong
một lĩnh vực nhất định. Do đó, quá trình phát hiện tri thức cũng mang
tính chất hướng nhiệm vụ, không phải là phát hiện mọi tri thức bất kỳ mà
là phát hiện tri thức nhằm giải quyết tốt nhiệm vụ đề ra. Vì vậy, quá trình
phát hiện tri thức là một quá trình hoạt động tương tác giữa con người
(người sử dụng hoặc chuyên gia phân tích) với các công cụ tin học đê
thực hiện các bước cơ bản sau:
- Tìm một cách hiểu (bằng ngôn ngữ tin học) lĩnh vực ứng
dụng và nhiệm vụ đặt ra, xác định các tri thức đã có và các
mục tiêu của người sử dụng.
- Tạo một tập dữ liệu đích bàng cách chọn từ CSDL một tập
dữ liệu với các giá trị biến các mẫu được quan tâm, trên đó
ta thực hiện quá trình phát hiện tri thức.
- Làm sạch và tiền xử lý d ừ liệu.
- Thu gọn và rút bớt số chiều của dữ liệu đế tập trung vào
những thuộc tính chủ chốt đối với việc phát hiện tri thức.
- Chọn nhiệm vụ khai phá dừ liệu dựa vào mục tiêu của quá
trình phát hiện tri thức: xếp loại, phân nhóm hay hồi quy,
v.v
Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu
- Chọn thuật toán, khai phá dữ liệu thích hợp và thực hiện
việc khai phá dừ liệu để tìm được các mẫu hình (pattern) có
ý nghĩa dưới dạng biếu diễn tương ứng (luật xếp loại, cây
quyết định, luật sản xuất, biểu thức hồi quy, )
- Đánh giá, giải thích, thử lại các mẫu hình đã được khai phá,
có thể lặp lại một hoặc nhiều bước kể trên.
- Củng cố, tinh chế các tri thức đã được phát hiện, Kết hợp
các tri thức thành hệ thống. Giải quyết các xung đột tiềm
tàng trong tri thức khai thác được. Sau đó, tri thức được
chuẩn bị sẵn sàng cho ứng dụng.

Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu
- 13-
cHƯƠNG 2 : KHO DỮ LIỆU
2.1 GIÓI THIỆU CHUNG V Ề KHO D Ữ LIỆU
2.1.1 S ự CẦN THIẾT CỦA KHO DỮ LIỆU
Việc áp dụng công nghệ thông tin trong môi trường nghiệp vụ
hiện nay đã mang lại những hiệu quả to lớn, đặc biệt khi công nghệ ngày
càng được phát triển và hoàn thiện, mở rộng qui mô áp dụng từ những
ứng dụng đơn lẻ đến các hệ thống thông tin cỡ lớn. Các hệ thống thông
tin từ chồ chí xử lý đơn thuần các công việc hàng ngày thì tiến tới đáp
ứng những yêu cầu ở mức độ cao hơn: các nhà quản lý điều hành không
những biết được công việc đang diễn ra như thế nào mà còn nắm bắt
được cái gì sẽ xảy ra sau đó, có nghĩa là thông tin phải mang tính phân
tích và hệ thống thông tin có khả năng hồ trợ quyết định. Tuy nhiên việc
xây dựng một hệ thống thông tin như thế vấp phải một số hạn chế về mặt
kỳ thuật, đặc biệt là khi kích thước cũng như độ phức tạp của môi trường
thông tin tăng lên. Những hệ thổng thông tin xây dựng theo phương pháp
truyền thống không làm hài lòng người sử dụng và ngay cả những nhà
quản lý hệ thống thông tin.
về phía ngiròi sử dụng, các khó khăn gặp phải là:
• Không thể tìm thấy dữ liệu cần thiết:
s Dừ liệu rải rác ở rất nhiều hệ thống với các giao diện và công
cụ khác nhau gây mất nhiều thời gian chuyền từ hệ thống này
sang hệ thống khác.
Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu
- 14-
• CÓ thể có nhiều rmuồn thông tin đáp ứng được đòi hỏi nhưng chúng
lại có những khác biệt và rất khó phát hiện thông tin nào là đúng và
cần thiết.
^ Không thể lấy ra được dừ liệu cần thiết:

s Thường xuyên phải có chuyên gia trợ giúp dần đến công việc
dồn đổng.
✓ Có những loại thông tin không thể lấy ra được nếu không mơ
rộng khả năng làm việc của hệ thống có sẵn.
• Không t h ể hiểu được d ừ liệu tìm thấy:
v' Mô tả dừ liệu nghèo nàn và thường xa rời với thuật ngừ nghiệp
vụ quen thuộc.
s Không thế sứ dụng được dữ liệu tìm thấy:
'S Kết quả tìm thấy thường không đáp ứng về bản chất dừ liệu và
thời gian tìm kiếm.
•S Dừ liệu phải chuyến đối bằng thủ công vào môi trường làm
việc của người sử dụng.
Các vấn đề về hệ thống thông tin
• Phát triển các chương trình khác nhau là không đơn giản :
s Một chức năng được thế hiện ở rất nhiều chương trình, nhưng
việc tổ chức và sử dụng lại nó là khó khăn do hạn chế về kỹ
thuật.
s Chuyển đổi dữ liệu từ các khuôn dạng tác nghiệp khác nhau đe
phù hợp với người sử dụng là rất khó khăn.
• Duy trì những chương trình này gặp rất nhiều vấn đề :
Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu
- 15-
S Mồi thay đôi ở một ứng dụng sẽ ảnh hướng đến tất cá các ứng
dụng khác có quan hệ.
■S Thông thường sự phụ thuộc lần nhau giữa các chương trình
không rõ ràng hoặc không xác định được.
s Do sự phức tạp của công việc chuyển đôi cũng như toàn bộ quá
trình bảo trì dần đến mã nguồn của các chương trình trở nên hết
sức phức tạp.
• Khối lượng dừ liệu lưu trữ tăng rất nhanh

s Không kiểm soát được khả năng chồng chéo dừ liệu trong các
môi trường thông tin dẫn đến khối lượng dữ liệu tăng nhanh.
• Quản trị dữ liệu phức tạp
s - Thiếu những định nghĩa chuẩn, thống nhất về dừ liệu dẫn đến
việc mất khả năng kiểm soát môi trường thông tin.
^ - Một thành phần dừ liệu tồn tại ở nhiều nguồn khác nhau.
Giải pháp cho những vấn đề nêu trên là xây dựng một kho dừ liệu
Kho dừ liệu ra đời ở những nước công nghiệp phát triển, nơi mức
độ cạnh tranh rất cao. Do sức ép cạnh tranh, các tổ chức (kinh doanh)
cần phải quản lý phân tích tốt hoạt động hàng ngày và đưa ra các quyết
định đúng đắn, kịp thời cho các hoạt động trong tương lai. Thông tin trở
thành mặt hàng quan trọng cần được quản lý và khai thác. Kho dữ liệu ra
đời đáp ứng đòi hỏi lưu trữ và khai thác thông tin đó. Kho dừ liệu giúp
tăng hiệu quả và sức mạnh cạnh tranh.
Kho dữ liệu ra đời và phát triển được cũng là nhờ sự phát triển
Kho dừ liệu Data Warehouse - Một số vấn đề khai phá số liệu
- 16-
mạnh mẽ cua công nghệ thông tin ờ các mặt:
s Khả năng lưu trừ và xử lý khối lượng lớn thông tin.
s Sự phát triển nhanh chóng của mạng máy tính, đặc biệt là mô
hình tính toán Client/Server
s Sự phát triển của các công cụ xây dựng chương trình ứng dụng:
các ngôn ngữ lập trình, các công cụ trợ giúp xây dựng và thiết
kế (CASE), các hệ quản trị CSDL tiên tiến
Với nhu cầu và khả năng trên, những dự án đầu tiên về Kho dữ
liệu đã được xây dựng trong khoảng 1984-1988. Cho đến nhưng năm
1994, ở các nước phát triển, các dự án về Kho dữ liệu xây dựng mạnh
mẽ. Cho tới nay, Kho dữ liệu vẫn là một thị trường rất phát triển. Ban
đầu, các dự án về Kho dữ liệu được xây dựng chủ yếu ở các tổ chức lớn
(nhà băng lớn, hãng hàng không, ).

Tại Việt nam, do nhu cầu tăng cao hiệu quả quản lý, do xu hướng
hoá nhập vào thế giới với sức ép cạnh tranh ngày càng tăng từ nước
ngoài, do nồ lực xây dựng công nghệ thông tin thành ngành công nghiệp
mũi nhọn, các dự án về xây dựng những Kho dữ liệu đang được dần triển
khai ở các cơ quan lớn của nhà nước. Và cùng với việc quan tâm ngày
càng tăng tới hệ trợ giúp quyết định (DSS1), Kho dữ liệu với vai trò là cơ
sở hạ tầng cung cấp dừ liệu cho hệ trợ giúp quyết định ngày càng trở nên
quan trọng.
2.1.2 ĐỊNH NGHĨA KHO DỪ LIỆU
Định nghĩa : Kho dữ liệu (Data Warehouse) là một tập hợp các dữ liệu
có tính hướng chủ thê, tích hợp, gắn với thời gian và on định, được thiết
1 D ecision S u pport System .
Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu
- 17-
kê hô trợ cho việc hô trợ ra quyêt định.
Kho dữ liệu có thê gọi là một công trình xây dựng tông hợp các dừ
liệu từ những nguồn dữ liệu không đồng nhất, bao gồm các dừ liệu quá
khứ và dừ liệu hiện tại, báo cáo phân tích và hỗ trợ quyết định. Kho dữ
liệu do vậy thường rất lớn, tới hàng trăm hay thậm chí hàng nghìn
Gigabyte1. Theo w. H. Inmon và R. D. Hackathorn định nghĩa : Kho dừ
liệu là một sưu tập dừ liệu trợ giúp ra quyết định trong quản lý, với các
đặc điểm:
s Hướng chủ đề (subject-oriented),
s Tích hợp (integrated),
s Đa dạng thời gian (time-variant),
s Không hay thay đoi (nonvolatile).
Cụ thể hơn:
• Hướng chủ đề : Người xây dựng Kho dừ liệu mô hình hoá dừ liệu và
thiết kế cơ sở dừ liệu tập vào chủ đề đối tượng chính của cơ quan cần
xây dựng Kho dừ liệu chứ không phải các chức năng và các quá trình

hoạt động của cơ quan đế tin học hoá chúng. Dữ liệu trong Kho dữ
liệu chỉ gồm các dữ liệu cần thiết cho quá trình Trợ giúp quyết định.
Mối quan hệ giữa các bảng trong Kho dữ liệu là quan hệ trong hệ
thống tác nghiệp hàng ngày.
• Tích hợp : Mọi thực thể trong Kho dừ liệu lun dưới cùng một dạng.
Dữ liệu từ các nguôn khác nhau phải được thông nhât lại vê cách mã
hoá, về đơn vị đo lường,
1 Đơn vị th ôn g tin bằng 1024 M eg a b yte ( 1 M eơ ab yte = 1024 B yte).
Kho dừ liệu Data Warehouse - Một số vấn đề khai phá số liệu
- 18-
• Đa dạng thời gian : Mồi dữ liệu trong Kho dữ liệu chỉ đúng tại một
thời điểm nhất định vì vậy trong các thuộc tính thường có thời gian.
Dừ liệu lưu trừ trong khoảng thời gian từ 5-10 năm. Dừ liệu có thể
được xem như những ảnh chụp liên tiếp trong thời gian dài.
• Không hay thay đ ổ i : Dừ liệu chủ yếu được nạp vào một lần, sau đó
chỉ được truy nhập đề lấy ra. Việc cập nhật dữ liệu ít xảy ra. Các kỹ
thuật liên quan tới: phục hồi dữ liệu, đảm bảo toàn vẹn tham chiếu,
phát hiện và giải quyết tắc nghèn, thường không cần thiết.
2.1.3 HỆ THỐNG c ơ SỚ DỮ LIỆU TÁC NGHIỆP & HỆ THỐNG
KHO DỮ LIỆU
Thông thường, các cơ quan tổ chức trước khi bắt đầu xây dựng
Kho dừ liệu đều đã tin học hoá các hoạt động hàng ngày bằng xây dựng
các hệ tác nghiệp (OLTP1). Và nguồn dừ liệu chủ yếu của Kho dữ liệu
chính là từ hệ tác nghiệp. Nhưng tại sao lại phải xảy dựng Kho dữ liệu -
một hệ thong tin học mới - khi đã có sẵn một hệ thong tin học là hệ tác
nghiệp ?. Đó là vì hệ tác nghiệp phục vụ cho tự động hoá các tác vụ
thao tác hàng ngày, còn Kho dữ liệu phục vụ cho môi trường thông tin ra
quyết định. Kho dừ liệu được thiết kế hướng trợ giúp quá trình phân tích
và ra quyết định, và mang những đặc điểm khác như sau:
Hệ thống tác nghiệp mang tính hướng tác vụ với những đặc điểm

chính sau:
•S Trợ giúp các công việc tức thời hàng ngày.
1 O nlin e T ransactio n Processing.
Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu
■S Chứa dừ liệu hiện thời, thể hiện trạng thái thực công việc.
s Các hoạt động xảy ra trong hệ thống thường đơn giản, giới hạn
trong phạm vi nhất định, và kết quả gây ra thường là việc cập
nhật dừ liệu.
s Được tối ưu hoá cho việc xử lý nhanh các tác vụ định trước,
đặc biệt tập trung vào các hoạt động cập nhật.
^ Người dùng chu yếu là nhũng người làm những công việc ở
mức độ chi tiết, cụ thế như thư kí, người bán hàng,
s Thiết kế thường khó hiểu và che dấu với người dùng.
Kho dừ liệu được thiết kế hướng trợ giúp quả trình phân tích và ra
quyết định, và mang những đặc điếm khác như sau:
s Trợ giúp quá trình quản lý và điều khiến công việc.
s Chứa dừ liệu mang tính lịch sử, thể hiện cách nhìn ổn định của
công việc trong một giai đoạn hay tại một thời điểm cụ thể đã
qua.
s Được tối ưu hoá cho các câu hởi truy vấn, chứ không phải cho
các hoạt động cập nhật. Các câu hỏi có thể từ được xác định
trước cho tới hoàn toàn không được xác định trước.
s Người dùng chủ yếu là đội ngũ quản lý để hiểu, phân tích, đánh
giá và ra quyết định liên quan tới công việc.
s Phải được thiết kế dễ hiểu và dễ sử dụng đối với người dùng.
Tóm lại, Kho dừ liệu và Cơ sở dừ liệu tác nghiệp có những điếm khác
- 19-
Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu
-20-
• Hướng chủ thể: Kho dừ liệu tổ chức và đưa ra dừ liệu từ khung nhìn

cua người dùng cuối. Còn hầu hết các cơ sở dừ liệu tác nghiệp thì tổ
chức dừ liệu từ khung nhìn của ứng dụng theo cách làm cho ứng dụng
truy cập được dừ liệu một cách hiệu quả nhất.
• Quản lý m ột khối lượng lớn thông tin: Hầu hết các Kho dừ liệu chứa
các dữ liệu quá khứ, cái thường bị loại bỏ ra bởi các hệ tác nghiệp, do
nó không còn cần thiết cho sản phẩm và ứng dụng tác nghiệp. Do
phải quán lý một khối lượng lớn thông tin nên Kho dừ liệu cũng phai
cung cấp các thủ tục phụ phục vụ cho việc tóm tắt và kết hợp nhầm
phân loại khối lượng dữ liệu khổng lồ nói trên. Chính vì nhu cầu quản
lý tất cả các dữ liệu quá khứ đe thêm vào dữ liệu hiện tại cho nên Kho
dữ liệu lớn hơn nhiều so với cơ sở dữ liệu tác nghiệp.
• Lưu trữ thông tin trên nhiều phương tiện: Vì khối lượng thông tin
phai quản lý là rất lớn nên Kho dừ liệu thường lưu trữ dữ liệu trên
nhiều phương tiện khác nhau.
• Ghép nối nhiều phiên bản của giản đồ cơ sở dữ liệu: Kho dũ' liệu
phải lưu trữ và quản lý các thông tin quá khứ. Vì các thông tin quá
khứ đó đã được quản lý ở nhiều thời điểm khác nhau bởi nhiều phiên
bản khác nhau của giản đồ cơ sở dữ liệu nên Kho dừ liệu phải tong
hợp các thông tin đó lại.
• Tóm tát và kết hợp thông tin: Mức chi tiết được thấy trong các thông
tin được lưu trữ bởi cơ sở dữ liệu tác nghiệp thường rất lớn đế ra
quyết định. Kho dữ liệu tóm tắt và kết hợp thông tin để đưa ra theo
cách thức mà người dùng có thể hiểu được.
nhau chủ yếu sau:
Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu
• Tích hợp và Hên kêt thông tin từ nhiêu nguôn dữ liệu khác nhau: Vì
các tô chức đã sử dụng nhiều cơ sở dừ liệu và ứng dụng phần mềm
khác nhau đề quản lý công việc của chúng, Kho dữ liệu cần thiết để
thu thập và tô chức các dừ liệu mà các ứng dụng này đã thu thập được
qua nhiều năm.

2.2 SỬ DỤNG DỮ LIỆU TRONG KHO DỮ LIỆU
Việc xây dựng Kho dừ liệu là một quá trình kỹ thuật thu thập,
quản lý và khai thác dừ liệu một cách hợp lý từ nhiều nguồn khác nhau
để thiết lập một kho dữ liệu. Nó cung cấp những dừ liệu phù hợp, dễ hiểu
cần thiết cho việc quản lý một phần hay toàn bộ công tác nghiệp vụ của
một tổ chức.
Đe xây dựng Kho dữ liệu thì điều đầu tiên cần phải quan tâm là
Kho dừ liệu bao gồm những dừ liệu nào. Tuỳ thuộc vào cách xem xét dừ
liệu mà ta có 3 cách phân chia các kiểu dữ liệu sau:
• Phân chia theo ngừ nghĩa của dữ liệu : Theo ngừ nghĩa của dừ liệu thì
Kho dữ liệu có 3 kiểu dừ liệu:
s Dữ liệu nghiệp vụ: Dữ liệu nghiệp vụ là dừ liệu mà được dùng
đế điều hành và quản lý một công việc hay một tố chức. Nó
phản ánh hoạt động mà công việc phải tiến hành, phản ánh các
đối tượng trong thế giới thực như khách hàng, địa điểm, sản
phẩm Nó được tạo ra và được sử dụng nhờ hệ xử lý giao dịch
và hệ hồ trợ quyết định.
s Dữ liệu thành phẩm', dữ liệu này có ý nghĩa thực chất riêng và
giá trị của nó nằm trong nội dung nó biểu đạt chứ không phải
nằm trong cái mà nó phản ánh. Dừ liệu thành phẩm được tạo
Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu
ra, mua và bán như bất cứ sản phẩm vật lý nào khác, ví dụ như
phim ảnh và sách báo được lưu trữ dưới dạng số hoá.
s Siêu dữ liệu: cái mô tả ý nghĩa của dừ liệu, dùng chỉ đê định
nghĩa hoặc mô tả dừ liệu nghiệp vụ hoặc dừ liệu thành phẩm.
Nó có thể được định nghĩa như sau “Siêu dữ liệu (Meta data) là
dữ liệu mô tả cẩu trúc và ỷ nghĩa của dữ liệu trong kho dữ liệu
nhăm xác định rõ dữ liệu này được tạo ra, truy nhập và sử
dụng như thể nào ”
• Phân chia theo cấu trúc của dữ liệu: Dừ liệu có thế được cấu trúc cao,

bao gôm các trường hoặc các bản ghi có quan hệ một cách rành mạnh
với nhau. Hoặc là phi cấu trúc, nơi mà các kết cấu bên trong rất hay
thay đôi, hoặc là có thể nàin giữa hai kiểu trên.
• Phân chia theo phạm vi của dữ liệu: Dữ liệu có thế là mang tính cá
nhân - người chủ cúa nó có thế thay đồi tuỳ thích. Hoặc là mang tính
công cộng - việc sử dụng nó được chia sẻ cho cả cộng đồng, và mỗi
sự thay đổi đòi hỏi được quản lý một cách cẩn thận.
2.3 KIÉN TRÚC KHO DỪ LIỆU
2.3.1 KIÉN TRÚC CHUNG
Tổng quát, kiến trúc về Kho dữ liệu như sau:
Xét một cách tổng quát, Kho dữ liệu là một môi trường có cấu trúc
các hệ thống thông tin, cung cấp cho người dùng các thông tin khó có thê
truy nhập hoặc biểu diễn trong các CSDL tác nghiệp truyền thông, nhằm
mục đích hồ trợ việc ra quyết định mang tính lịch sử hoặc hiện tại. Hay
nói cách khác kho dữ liệu là một tập hợp dừ liệu tích hợp hướng chủ đề
Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu
-23-
có tính ồn định, thay đổi theo thời gian nhàm hồ trợ cho việc ra quyết
định.
Cấu trúc kho dữ liệu được xây dựng dựa trên hệ quản trị CSDL
quan hệ, có chức năng eiống như một kho lưu trữ thông tin trung tâm.
Trong đó, dừ liệu tác nghiệp và phần xử lý được tách riêng khỏi quá
trình xử lý kho dừ liệu. Kho lưu trữ trung tâm được bao quanh bởi các
thành phần được thiết kế để làm cho kho dừ liệu có thể hoạt động, quản
lý và truy nhập được từ người dùng đầu cuối cũng như từ các nguồn dừ
liệu.
s Dừ liệu nguồn (là các ứng dụng tác nghiệp hoặc các kho dừ
liệu tác nghiệp ). Bao gồm :
- Dừ liệu sản phẩm: đó là các dừ liệu được chắt lọc từ các
phần mềm ứng dụng và các hệ CSDL tác nghiệp.

Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu
-24-
- Dừ liệu kế thừa: về cơ bản loại dừ liệu này có tính lịch sử.
Chúng phục vụ cho quá trình phân tích dữ liệu. Mặt khác,
các phương pháp khai phá dừ liệu cũng thường xử lí trên
các dừ liệu này.
- Các hệ thống dữ liệu bên trong
- Các hệ thống dừ liệu bên ngoài
- Các kỹ thuật thu thập dừ liệu.
^ Bộ biến đổi & tích hợp dừ liệu: : Làm các nhiệm vụ sau
- Chuẩn hoá.
- Làm sạch.
- Sàng lọc.
- Tương hợp.
- Phân định thời gian cho các thông tin nguồn.
- Tích hợp các loại dừ liệu khác từ các hệ thống đế tạo ra dữ
liệu mới.
- Phân dừ liệu thành các loại cho dễ xử lí.
- Tính toán sơ bộ, tổng họp và kết xuất dừ liệu theo yêu cầu
của người sử dụng.
- Chuyển đổi và hình thành lại các dữ liệu từ các nguồn khác
nhau để có thể kết hợp trong cùng một dạng.
- Biến đổi và gia công lại dừ liệu lưu trừ các nguồn dừ liệu
gốc.
Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu

×