Nhµ kho d÷ liÖu (Data Warehouse)
Ngµy hoµn thµnh: 16 th¸ng 12 n¨m 2010
Lời nói đầu
Nhà kho dữ liệu (DW) là một hớng công nghệ áp dụng cho các ứng dụng công nghệ
tin học của doanh nghiệp và tổ chức ngày nay. Thuật ngữ gợi nên hình ảnh của nhà
băng dữ liệu rộng lớn đợc bắt nguồn từ các hệ thống trên khắp thế giới, với đông đảo
các nhà phân tích của công ty khai thác những thông tin quí giá giúp công ty của họ
thu đợc nhiều lợi nhuận hơn.
Một cách cơ bản, DW cung cấp dữ liệu lịch sử cho các ứng dụng hỗ trợ quyết định.
Những ứng dụng nh vậy bao gồm báo cáo, xử lý phân tích trực tuyến (OLAP), hệ
thống thông tin điều hành (EIS) và khai thác dữ liệu.
Một DW là một Nhà kho thông tin tập chung hoá và thống nhất. Thống nhất ở đây
nghĩa là làm sạch, hợp nhất và thiết kế lại. Nó có thể phức tạp ít hoặc nhiều hơn tuỳ
thuộc vào việc bao nhiêu hệ thống cung cấp thông tin cho một kho và chúng khác
nhau trong việc xử lý cùng một thông tin nh thế nào.
DW khác với cơ sở dữ liệu giao tác hoặc hệ thống OLTP ở mục đích và thiết kế
của chúng. Một OLTP đợc thiết kế và tối u với dữ liệu đa vào và các cập nhật.
Trong khi 1DW đợc tối u hoá cho mục đích báo cáo và khôi phục dữ liệu, và nó
thờng là một hệ thống chỉ - đọc. 1 hệ thống OLTP chứa các dữ liệu cần thiết để
điều hành kinh doanh hàng ngày, nhng 1DW chứa các dữ liệu đợc sử dụng để
phân tích kinh doanh. Dữ liệu trong một hệ thống OLTP là hiện thời và độ linh
hoạt cao với những phần tử dữ liệu có thể cha hoàn chỉnh hoặc không biết ở thời
điểm vào. Một DW chứa những dữ liệu lịch sử, ổn định đã đợc điều chỉnh các lỗi
giao tác . Cuối cùng, bởi vì mục đích của chúng khác nhau, hệ thống OLTP và DW
sử dụng những chiến lợc mô hình hoá dữ liệu khác nhau. Sự d thừa hầu nh không
tồn tại trong hệ thống OLTP bởi vì những dữ liệu d thừa làm phức tạp việc cập
nhật. Vì vậy hệ thống OLTP đợc chuẩn hoá cao độ và thờng dựa trên mô hình quan
hệ. Nhng d thừa là cần có ở một DW bởi vì nó đơn giản hoá việc truy nhập của
ngời sử dụng và tăng cờng việc thực hiện bằng cách tối thiểu hoá số lợng các bảng
phải đợc kết nối với nhau. Một số DW không hề sử dụng một mô hình quan hệ, thay
vì đó một thiết kế mảng đa chiều đợc a thích hơn.
Chúng tôi xin đợc phép trình bày thành ba phần chính sau:
* Các kháí niệm cơ bản của Nhà kho dữ liệu
* Các Khía cạnh thiết kế và khía cạnh triển khai của Nhà kho dữ liệu
* Minh hoạ giải pháp kho chứa dữ liệu Oracle
Khoá luận này chắc chắn còn nhiều thiếu sót trong việc phân tích đánh giá, nhng
chúng tôi cũng mong muốn rằng qua công việc này, chúng tôi hiểu rõ về chủ đề đợc
thảo luận, càng nhận thức tốt hơn, góp phần tốt vào quá trình nghiên cứu học tập
cũng nh trong công việc sau này của mình.
Nhân đây, tôi cũng xin trân trọng cảm ơn GS. TS. Nguyễn Thúc Hải đã cung cấp
những thông tin bổ ích và đã góp ý cho nội dung để giúp chúng tôi hoàn thành đợc
tài liệu này.
Môc lôc
1. Các khái niệm cơ bản
1.1. Nhà kho dữ liệu là gì?
Định nghĩa:
Một Nhà kho dữ liệu là một hệ thống quản lý tập hợp các dữ liệu hớng chủ đề, tích
hợp, phụ thuộc thời gian, không bị phá huỷ, đợc thiết kế để phục vụ cho các hệ trợ
giúp quyết định.
Những điểm sau làm rõ hơn định nghĩa:
-Hớng chủ đề: Các hệ điều hành kinh điển tập trung quanh các ứng dụng của công ty
trong khi một Nhà kho dữ liệu tập trung nhiều hơn vào các chủ đề chung của công ty.
Ví dụ cho các ứng dụng của một công ty bảo hiểm là bảo hiểm về y tế, cuộc sống độc
lập. Tơng tự, ví dụ cho các đối tợng là khách hàng, chính sách, phí bảo hiểm.v .v ..
-Tích hợp: đây là khía cạnh quan trọng nhất của một kho dữ liệu. Kho dữ liệu lấy
thông tin từ các hệ thống chức năng khác nhau trong các tổ chức. Những hệ thống này
có thể lu trữ cùng một thông tin bằng nhiều cách khác nhau, tức là giới tính của một
khách hàng có thể đợc lu trữ dới dạng có/không, 0 hoặc 1, M (nam) hoặc F (nữ) trong
nhiều hệ thống khác nhau. Tuy nhiên, khi phải lu trữ thông tin này trong kho dữ liệu
thì cần phải xác định một kế hoạch chung. Nhờ đó, sự không nhất quán của các hệ
thống điều hành khác nhau đợc tháo bỏ và dữ liệu đợc đa vào theo một cách thống
nhất. Khái niệm tơng tự cũng đợc áp dụng cho các tên cột, tên phụ lục, các thuộc tính.
v.v..
-Không bị phá huỷ: Không nh hệ điều hành, dữ liệu trong kho dữ liệu không đợc sửa
đổi. Định nghĩa này chỉ mang tính lý thuyết và đã thay đổi trong thực tế. Thực tế có rất
nhiều kho dữ liệu cho phép thay đổi dữ liệu trong kho dữ liệu. Tuy nhiên, khía cạnh
này dẫn đến các vấn đề nghiêm trọng khác khi thực hiện sẽ đợc giải thích sau đây.
-Phụ thuộc thời gian: Định nghĩa này là sự phân biệt giữa hệ thống điều hành và Nhà
kho dữ liệu. Những điểm sau làm rõ hơn định nghĩa:
+ Dữ liệu trong kho dữ liệu đợc lu trữ một cách đặc thù trong một chu kỳ thời gian lâu
hơn các hệ thống điều hành.
+ Một kho dữ liệu giữ các giá trị hiện tại cho bất kỳ cột nào ở các thời điểm khác
nhau, trong khi một hệ thống điều hành nói chung chỉ một giá trị hiện tại đơn lẻ đ ợc lu
trữ.
+ Các bảng trong kho dữ liệu có một cột đặc biệt để biểu diễn chiều thời gian.
+ Các dữ liệu đợc đợc lu trữ dới dạng một sê ri các bản sao. Mỗi bản sao biểu thị một
khoảng thời gian.
+ Cột biểu diễn chiều thời gian cũng là một bộ phận của các chỉ mục trong các bảng đ-
ợc lu trữ.
+ Các truy vấn trong kho dữ liệu phần lớn trong một khoảng thời gian.
1.2. Phạm vi của kho dữ liệu
Với sự phổ biến hiện nay của kho dữ liệu, các nhà sản xuất và các nhà t vấn đang phát
triển nhiều ý nghĩa khác nhau cho thuật ngữ Nhà kho dữ liệu. Theo một số định nghĩa,
ta có thể kết luận rằng kho dữ liệu gồm toàn bộ dữ liệu của xí nghiệp (hay thậm chí cả
Luận đề Nhà kho Dữ liệu
Version: 1.1
Trang 4
vũ trụ!), các định nghĩa khác dẫn đến kết luận rằng một kho dữ liệu là một giải pháp
kỹ thuật dựa trên một công cụ cụ thể.
Phạm vi này đợc lựa chọn dựa trên một số lý do:
- Nó đáp ứng các nhu cầu về kinh doanh và IS (hệ thống thông tin) và chỉ tập trung vào
những nhu cầu này mà không cố gắng giải quyết tất cả các vấn đề dữ liệu của xí
nghiệp.
- Nó bao gồm các yếu tố kinh doanh, tổ chức và kỹ thuật cần thiết.
- Nó có thể đạt đợc trong một khoảng thời gian hợp lý khi sử dụng một mức độ nào đó
các nguồn tài nguyên mà hầu hết các xí nghiệp có thể đầu t đợc.
- Nó bắt nguồn từ một cách nhìn thực tế của môi trờng hệ thống thông tin ngày nay
các hạn chế của nó trong quá trình phát triển đã qua.
Những xem xét này thu hẹp phạm vi của kho dữ liệu vào thành dữ liệu đợc sử dụng để
quản lý xí nghiệp. Kho dữ liệu vì thế:
- Hỗ trợ nhu cầu quản lý kinh doanh một cách toàn bộ và từng phần theo cách nhất
quán.
- Dựa trên dữ liệu kinh doanh mà những ngời sử dụng nó hiểu đợc.
1.3. Các kiểu Nhà kho dữ liệu
Kiểu Nhà kho dữ liệu mà một tổ chức sử dụng phụ thuộc vào các hoạt động nghiệp vụ
của xí nghiệp và các kiểu hỗ trợ quyết định mà nó cần.
-Một trong các kiểu đơn giản nhất của kho dữ liệu, là một kho dữ liệu điều hành
(ODS) đó là một cơ sở dữ liệu sản xuất đã đợc sao chép và đã đợc điều chỉnh lỗi. Một
ODS đợc sử dụng chính để hình thành những báo cáo điều hành chuẩn và cung cấp
giao tác cụ thể cho các phân tích ở mức độ tổng kết
Tuỳ thuộc vào yêu cầu tổng kết của một tổ chức, một ODS có thể đợc cập nhật hàng
tháng, hàng tuần, hay thờng xuyên hơn, đôi khi hầu hết thời gian thực tế. Lợi ích chính
đó là nó tăng cờng việc thực hiện hệ thống sản xuất bởi vì các chức năng báo cáo và
truy vấn đợc tải từ hệ thống OLTP sang ODS.
Nếu tổ chức của bạn chỉ tạo ra các báo cáo và thực hiện rất ít phân tích hoặc nghiên
cứu thị trờng, một ODS có thể rất phù hợp với yêu cầu của bạn. Nói cách khác, nếu
Công ty của bạn xử lý tơng đối ít giao dịch mỗi ngày, một ODS có thể là quá thừa.
Thay vào đó bạn có thể sử dụng hệ thống sản xuất để làm báo cáo.
Một kiểu chứa dữ liệu khác là Chợ dữ liệu (Data Mart). Chợ dữ liệu đợc giới hạn trong
một phạm vi nhất định, các thông tin của nó thờng đợc lấy từ một văn phòng hoặc quá
trình kinh doanh đơn lẻ. Ví dụ nh chúng có thể đợc sử dụng để phân tích thông tin bán
hàng trong một khu vực cụ thể hoặc cho một dây chuyền sản xuất cụ thể. Chợ dữ liệu
thờng chỉ chứa đựng dữ liệu tổng kết, nhng chúng có thể đợc kết nối với các kho dữ
liệu điều hành để lấy ra đợc những chi tiết giao dịch nếu cần. Đôi khi đợc quản lý bởi
các phòng công nghệ thông tin, nhng thờng là chúng đợc quản lý trực tiếp bởi ngời sử
dụng trong một phòng hoặc nhóm làm việc.
Trong khi nhiều ứng dụng OLAP (xử lý phân tích trực tuyến) có thể đợc thực hiện ở
Chợ dữ liệu, các phân tích qua các phòng ban, các hệ thống thông tin điều hành và các
ứng dụng khai thác dữ liệu cần các thông tin thu thập từ toàn bộ xí nghiệp để có hiệu
quả nhất. Kho dữ liệu của xí nghiệp đợc sử dụng cho kiểu tập hợp và phân tích dữ liệu
Luận đề Nhà kho Dữ liệu
Version: 1.1
Trang 5
mở rộng này. Do phạm vi và sự phức tạp của nó, kho dữ liệu của doanh nghiệp thờng
đợc nhóm công nghệ thông tin trung tâm quản lý. Nh là tên của nó chỉ ra, một kho dữ
liệu của một xí nghiệp chứa các thông tin lấy từ một tổ chức. Đây là kiểu phức tạp nhất
của kho để xây dựng và lu trữ bởi vì dữ liệu phải đợc kết hợp từ đa hệ thống vào một
đối tợng chung.
Các hệ thống khác nhau thờng tạo ra những dữ liệu không tơng thích hoặc không nhất
quán và đôi khi dữ liệu phải trải qua một vài sự chuyển đổi trớc khi nó có thể đợc hợp
nhất trong một kho dữ liệu theo một cách có ý nghĩa đầy đủ.
1.4. Các thành phần của kho dữ liệu
Mặc dầu một kho dữ liệu nghe nh một thực thể đơn lẻ, nó thực sự là một tập hợp đa
tầng đa ứng dụng bao gồm rất nhiều thành phần. Mỗi thành phần có thể đợc xử lý bởi
một hay nhiều mảng phần cứng hoặc phần mềm. Không có nhà sản xuất nào có một
bộ kho dữ liệu hoàn chỉnh.
-Về mặt chức năng, 1 kho dữ liệu trích chọn dữ liệu từ các hệ thống điều hành và tải
nó vào một vùng lu trữ nơi nó đợc "làm sạch" (tức là làm cho phù hợp với các chuẩn l-
u trữ), hợp nhất, gán nhãn thời gian bằng cách này hay cách khác và tải vào cơ sở dữ
liệu để sử dụng nhờ các công cụ truy nhập dữ liệu.
Bởi vì dữ liệu trải qua một số chuyển đổi và cuối cùng đợc đặt vào trong các cấu trúc
dữ liệu khác với những cấu trúc mà chúng đã xuất phát, những thay đổi này đợc ánh xạ
vào trong catalog hoặc từ điển. Các catalog này đợc quản lý với các công cụ siêu dữ
liệu. Dữ liệu định nghĩa hoặc miêu tả dữ liệu trong việc lu trữ gọi là siêu dữ liệu. Có 2
kiểu siêu dữ liệu điển hình. Một loại ngời sử dụng cần biết, chẳng hạn nh tên bảng và
tên cột đợc gọi là siêu dữ liệu frontend. Loại còn lại, ví dụ nh các phần tử dữ liệu cụ
thể ánh xạ vào trong cơ sở dữ liệu ban đầu của nó nh thế nào đọc gọi là siêu dữ liệu
backend.
Các công cụ thiết kế và quản lý cũng là những thành phần quan trọng của một kho
dữ liệu. Mặt dầu nó chứa đựng những dữ liệu ổn định, nó không tĩnh, bạn không
thể chỉ xây một kho dữ liệu và quên nó đi. Một kho dữ liệu là một hệ thống có độ
duy trì cao và có thể mở rộng khi nhu cầu của Công ty về nó tăng lên. Thậm chí
nếu bản thân thiết kế của kho dữ liệu chỉ thay đổi chút ít thì những thiết kế các hệ
thống sản xuất liên quan với nó cũng có khả năng biến đổi. Những thay đổi này
cần phải đợc thu nhận trong siêu dữ liệu của kho dữ liệu. Không nh một hệ thống
OLTP chỉ đa ra một hình ảnh hiện tại, một kho dữ liệu cung cấp 1 bức tranh dữ
liệu hoàn chỉnh qua thời gian. Nó có nghĩa là bất cứ khi nào 1 cấu trúc dữ liệu nào
đó trong một hệ thống sản xuất thay đổi, thì bạn phải lu trữ cả sự thay đổi và thời
điểm nó xuất hiện trong việc lu trữ, nếu không những truy vấn về dữ liệu lịch sử có
thể tạo ra những kết quả kỳ quặc.
Luận đề Nhà kho Dữ liệu
Version: 1.1
Trang 6
2. Các khía cạnh thiết kế
2.1. Xây dựng kiến trúc dữ liệu cho Nhà kho dữ liệu
2.1.1 Các kiến trúc dữ liệu nghiệp vụ
Việc đa ra các kiến trúc là bớc đầu tiên để đi tới sự thành công trong việc thực hiện 1
Nhà kho dữ liệu. Trong phần này ta đa ra 3 mô hình kiến trúc. Các mô hình này đều có
điểm chung là xuất phát từ kinh nghiệm thực tế. Các mô hình này đợc phân biệt bởi số
lớp dữ liệu mà chỉ ở mức khái niệm chứ không hoàn toàn là cài đặt thực tế. Ta có thể
xác định 3 cấu trúc riêng biệt:
+ Kiến trúc đơn tầng: Nguyên tắc chủ chốt ngầm định của kiến trúc đơn tầng là
mỗi phần tử dữ liệu chỉ đợc lu trữ một lần và chỉ một lần. Trong kiến trúc đơn tầng,
không hề có sự phân biệt giữa các kiểu dữ liệu, mọi dữ liệu đều đợc coi nh nhau và các
ứng dụng điều hành cũng nh các ứng dụng thông tin đều thao tác trên cùng một tập dữ
liệu. Kiến trúc này rất ít đợc sử dụng.
Kiến trúc này cho phép các ứng dụng điều hành hoạt động tốt trên số lợng dữ liệu lớn
nhng lại nghèo nàn cho việc hỗ trợ các ứng dụng phân tích thông tin.
+ Kiến trúc 2 lớp đợc sử dụng rộng rãi hơn nó thờng đợc xem xét trong các tổ
chức nhỏ hoặc trong các giai đoạn đầu của việc thực hiện 1 Nhà kho dữ liệu lớn của 1
xí nghiệp. Kiến trúc hai lớp tách dữ liệu thành hai phần lớp thấp hơn gồm dữ liệu thời
gian thực đựoc các ứng dụng điều hành sử dụng và lớp cao hơn gồm dữ liệu kết nhập
(derived) đợc sử dụng bởi các ứng dụng thông tin. Dữ liệu kết nhập có thể chỉ là sao
chép đơn giản hoặc có thể là tổng hợp tính toán từ dữ liệu thời gian thực.
Tuy nhiên nó đã gặp phải 1 số vấn đề về lu trữ và và quản lý. Một trong số vấn đề đầu
tiên gặp phải khi áp dụng cách tiếp cận này là sự nhân bản dữ liệu khi tạo thêm lớp dữ
liệu kết nhập làm bùng nổ đòi hỏi về lu trữ và tăng đáng kể vấn đề về quản trị và bảo
trì dữ liệu.
+ Kiến trúc 3 lớp là cách tiếp cận có sức mạnh nhất. Nó đợc đề xuất trong tất cả
các tình huống mà công việc đòi hỏi 1 cách nhìn tổng quát về dữ liêụ của 1 xí nghiệp
lớn. Sự thành công và sức mạnh của kiến trúc 3 lớp xuất phát từ việc nhận ra vai trò
quan trọng của mô hình dữ liệu xí nghiệp và sự thực hiện vật lý của lớp dữ liệu điều
hoà.
Kiến trúc ba lớp cải tiến từ kiến trúc hai lớp xuất phát từ nhận thức rằng việc chuyển từ
dữ liệu thời gian thực sang dữ liệu kết nhập cần phải qua hai giai đoạn. Hai giai đoạn
đó là:
Điều hoà dữ liệu từ các tập dữ liệu khác nhau trong lớp thời gian thực.
Kết nhập dữ liệu theo yêu cầu sử dụng dựa trên các dữ liệu đã đợc điều hoà.
Và nh vậy một lớp dữ liệu điều hoà đợc tạo ra nằm giữa lớp thời gian thực và lớp dữ
liệu kết nhập. Việc điều hoà dữ liệu giữa các tập dữ liệu khác nhau đòi hỏi hiểu rõ các
tập đó có liên quan đến nhau nh thế nào, vai trò của chúng trong nghiệp vụ là gì. Trong
thực tế, việc hiểu này đợc xác định qua quá trình mô hình hoá dữ liệu đợc tiến hành ở
mức toàn xí nghiệp hay toàn tổ chức. Lớp điều hoà dữ liệu phải giải quyết vấn đề kết
nối các tập dữ liệu riêng biệt với nhau trong tình trang có sự khác nhau về tên, khuôn
dạng dữ liệu cụ thể.
Khái niệm về kiến trúc dữ liệu nghiệp vụ 3 lớp cùng với kiến trúc về siêu dữ liệu đã
cung cấp 1 hỗ trợ rộng nhất cho cả 2 nhu cầu quản lý của các bộ phận IS và các nhu
cầu truy nhập dữ liệu của ngời sử dụng.
2.1.2 Kiểu siêu dữ liệu
Luận đề Nhà kho Dữ liệu
Version: 1.1
Trang 7
Siêu dữ liệu ban đầu
Các tài nguyên gốc của siêu dữ liệu sử dụng trong Nhà kho dữ liệu là tiến trình mà
theo đó các ứng dụng nghiệp vụ và các dữ liệu nghiệp vụ đợc định nghĩa và mô tả.
Siêu dữ liệu đợc tạo ra và sử dụng trong pha này đợc gọi là siêu dữ liệu ban đầu. Dữ
liệu nghiệp vụ không tồn tại một cách độc lập, nó đợc tạo lập, duy trì và truy nhập qua
tiến trình công việc. Nó đợc thực hiện qua các ứng dụng. Vì vậy các công việc cần
phải có 1 sự mô tả đầy đủ về dữ liệu nghiệp vụ của nó và tiến trình mà duy trì và sử
dụng nó. Vì vậy siêu dữ liệu sẽ mô tả một số khía cạnh hoạt động và các chức năng
ứng dụng của nó.
- Theo sự định nghĩa về phạm vi lu trữ dữ liệu thì siêu dữ liệu ban đầu là nằm
ngoài phạm vi của việc lu trữ. Tuy nhiên về phần dữ liệu nghiệp vụ thời gian thực thì
siêu dữ liệu ban đầu không thể bỏ qua bởi vì nó chính là nguồn của siêu dữ liệu mà đ -
ợc đa vào trong phạm vi lu trữ. Ngày nay siêu dữ liệu ban đầu đợc sinh ra và lu trữ
trong mô hình dữ liệu và các công cụ thiết kế ứng dụng nh các công cụ CASE.
- Siêu dữ liệu ban đầu là ổn định so với dữ liệu nghiệp vụ mà nó mô tả. Nói
chung siêu dữ liệu sẽ thay đổi chỉ khi cấu trúc tổng thể của công việc hoặc sự thực
hiện của nó trong các ứng dụng bị thay đổi.
- Siêu dữ liệu đợc định nghĩa trong khi thiết kế của 1 ứng dụng sẽ không bị thay
đổi từ lần đa ra đầu tiên của ứng dụng cho đến khi 1 phiên bản mới đợc đa ra. Với các
ứng dụng điều hành thì việc nâng cấp thờng xuất hiện 1-2 lần một năm, còn các ứng
dụng thông tin thì chúng có thể xuất hiện thờng xuyên hơn (có lẽ hàng tháng).
- Ngay cả khi 1 ứng dụng đợc nâng cấp thì cũng chỉ có 1 phần nhỏ của siêu dữ
liệu bị thay đổi. ý nghĩa công việc của mô tả siêu dữ liệu có thể là ổn định trong 1 chu
kỳ hàng năm tuỳ thuộc vào việc kinh doanh của công ty hoặc tổ chức.
Siêu dữ liệu điều khiển (Control Metadata)
- Siêu dữ liệu điều khiển trong Nhà kho dữ liệu là dữ liệu đợc dùng để mô tả về
hiện trạng và việc sử dụng dữ liệu nghiệp vụ. Nguồn của siêu dữ liệu này không phải
là siêu dữ liệu ban đầu. Với siêu dữ liệu hiện trạng nó là các ứng dụng hoặc các công
cụ mà tạo lập và cập nhật dữ liệu nghiệp vụ về mặt vật lý. Với siêu dữ liệu đang sử
dụng, nguồn là các công cụ qua đó những ngời sử dụng truy nhập đến Nhà kho dữ liệu.
- Siêu dữ liệu hiện trạng tồn tại ở một số mức chi tiết khác nhau. ở mức kém chi
tiết nhất, thông tin hiện trạng về dữ liệu đợc lu trữ ở mức file hoặc bảng. Trong trờng
hợp này siêu dữ liệu sẽ mô tả tính chất theo thời gian của toàn bộ các tập dữ liệu, ví dụ
1 danh sách các khách hàng trong ngày 31 tháng 1 năm 1996, ở mức cụ thể thứ 2 thì
siêu dữ liệu hiện trạng sẽ mô tả tính chất thời gian của mỗi sự xuất hiện của dữ liệu.
Về mặt vật lý nó là các bản ghi hoặc các hàng trong 1 bảng hoặc 1 file.
- ở 2 mức cụ thể là file/bảng và hàng/bản ghi cách tiếp cận khác nhau là cần
thiết để lu trữ siêu dữ liệu
+ ở mức file/bảng thì siêu dữ liệu hiện trạng đợc lu trữ trong các cấu trúc vật lý
dới dạng các bảng hoặc file. Đó là vì nó đợc tách rời khỏi dữ liệu nghiệp vụ. Để tạo ra
siêu dữ liệu nh vậy sẵn sàng đối với ngời sử dụng thì nó phải đợc sao chép vào trong
siêu dữ liệu cách dùng thông thờng.
+ ở mức bản ghi/hàng siêu dữ liệu hiện trạng hầu nh luôn đợc lu trữ nh các
nhãn thời gian. Có một số lợng lớn các siêu dữ liệu loại này bởi vì nó không đợc sao
chép vào siêu dữ liệu thông thờng nhng nó đợc truy nhập trực tiếp bởi ngời sử dụng
trong các tình huống. Ngời sử dụng rất ít khi phân biệt siêu dữ liệu điều khiển này với
dữ liệu nghiệp vụ.
Tơng tự thì siêu dữ liệu sử dụng cũng có mức cụ thể đó là file/bảng/khung nhìn tổng
quan (view) và hàng/bản ghi và cột.
Việc tạo lập và duy trì siêu dữ liệu sử dụng là nhiệm vụ của các công cụ đ ợc sử dụng
trên đờng truy nhập tới dữ liệu. Các chức năng nh vậy có thể đã đợc kết hợp trong bất
Luận đề Nhà kho Dữ liệu
Version: 1.1
Trang 8
kỳ 1 công cụ nào của ngời sử dụng. Các công cụ truy nhập dữ liệu hoặc các chức năng
bảo vệ của CSDL.
Siêu dữ liệu về cách sử dụng
Điều quan trọng của siêu dữ liệu về cách sử dụng chỉ đợc nhận thức đối với trờng hợp
Nhà kho dữ liệu với sự đa dạng về dữ liệu cũng nh 1 khối lợng lớn về dữ liệu mà luôn
sẵn sàng cho ngời dùng. Siêu dữ liệu này đã tạo ra những thuận lợi nhất định đó là cấu
trúc và việc lu trữ vật lý có thể đợc định nghĩa phù hợp nhất với các nhu cầu của Nhà
kho dữ liệu. Tuy nhiên, sự mới mẻ của siêu dữ liệu về cách sử dụng có nghĩa là chỉ 1
số ít các công cụ tồn tại hiện nay có thể quản lý và sử dụng siêu dữ liệu này. Cấu trúc
và cách lu trữ siêu dữ liệu này sẽ đợc thảo luận trong các phần tiếp theo.
2.2. Các kỹ thuật thiết kế
Việc thiết kế 1 Nhà kho dữ liệu yêu cầu phải sử dụng 1 số các kỹ thuật mà nó ít đợc sử
dụng trong phát triển các ứng dụng điều hành và hoặc trong các ứng dụng thông tin
truyền thống. Sự cần thiết của các kỹ thuật này xuất phát từ 3 đặc trng của việc lu trữ.
+ Phạm vi của Nhà kho dữ liệu thờng bao gồm toàn bộ xí nghiệp.
+ Nhà kho dữ liệu chứa đựng bản ghi lịch sử của công việc
+ Nguồn của tất cả dữ liệu trong Nhà kho dữ liệu là dữ liệu đang tồn tại mà nó
có thể bị phân tán, thay đổi trong cả cấu trúc và nội dung và chất lợng cũng có thể thay
đổi.
2.2.1 Mô hình dữ liệu xí nghiệp
Trong phần này ta sẽ xem xét các kỹ thuật mô hình áp dụng trong môi trờng thông tin
nói chung và trong kiến trúc dữ liệu 3 lớp.
Các thuật ngữ cơ sở:
- Mục đích của việc mô hình hoá dữ liệu là rất đơn giản. Nó cung cấp 1 cách
ghi chép đúng đắn đối với 1 vài khía cạnh của thế giới thực trong các ngữ cảnh đặc
biệt. Mô hình hoá tạo cho ngời sử dụng hiểu rõ hơn về các đối tợng đã đợc mô hình
hoa hoạt động nh thế nào, hậu quả của những hoạt đông đó và ảnh hởng nếu thay đổi
nó..
Mô hình dữ liệu nghiệp vụ: cung cấp 1 cách nhìn tổng quát về nghiệp vụ, tập trung
trên dữ liệu đợc sử dụng, cho phép thiết kế các hệ thống máy tính mà hỗ trợ các cách
thực hiện nghiệp vụ. Vì vậy mô hình dữ liệu nghiệp vụ nhằm cung cấp:
+ Một sự ghi chép về các định nghĩa dữ liệu nghiệp vụ 1 cách đẩy đủ ý nghĩa
và chính xác.
+ Xác định rõ ràng cấu trúc dữ liệu nghiệp vụ nhất quán và chính xác mà nó
chứa thông tin hữu ích để chạy và quản lý các công việc.
+ 1 sự biểu thị các tính tơng tự khác nhau của dữ liệu từ các nguồn khác nhau
và mối quan hệ giữa chúng.
Mô hình qui trình nghiệp vụ: tập trung vào các hoạt động công việc, cung cấp:
+ Sự ghi chép về các định nghĩa qui trình nghiệp vụ 1 cách đầy đủ ý nghĩa và
chính xác
+ Xác định các mối quan hệ giữa các quá trình xử lý nghiệp vụ và trong 1 quá
trình xử lý.
Thực thể, thuộc tính và quan hệ
- Mô hình dữ liệu đợc sử dụng rộng rãi hiện nay là cách tiếp cận theo mô hình
thực thể liên kết. Trong cách tiếp cận này một thực thể là bất kỳ 1 loại đối tợng nào mà
công việc phải quan tâm tới. Mỗi thực thể có 1 định nghĩa công việc tơng ứng.
Luận đề Nhà kho Dữ liệu
Version: 1.1
Trang 9
Một thực thể có thể là tơng đối cụ thể ở 1 trờng hợp nào đó, hoặc nó có thể rất chung
đối với 1 trờng hợp khác.
- Mỗi thực thể có 1 số thuộc tính. Một thuộc tính là bất kỳ 1 đặc trng nào đó
của thực thể mà nó mô tả về thực thể và nó là sự quan tâm của công việc.
- Một điều rất quan trọng trong mô hình thực thể liên kết là mối quan hệ giữa
các thực thể (gọi là liên kết) mỗi liên kết nói lên sự tơng tác giữa 2 thực thể đợc liên
kết.
Vai trò của mô hình hoá xí nghiệp
1. Cung cấp 1 sự phát triển các hệ thống đơn lẻ dựa trên việc thúc đẩy sự kết hợp của các
ứng dụng đã có.
2. Hỗ trợ việc chia sẻ dữ liệu giữa các lĩnh vực khác nhau của nghiệp vụ
3. Quản lý 1 cách có hiệu quả các tài nguyên dữ liệu bằng cách cung cấp 1 tập đơn lẻ các
định nghĩa dữ liệu nhất quán
4. Hỗ trợ việc tạo lập và duy trì của các thông tin quản lý rộng lớn trong công ty
- rất nhiều mô hình xí nghiệp đã cố gắng tập trung vào mục đích thứ nhất, và mục đích
thứ 2 nh đã kể trên.
Một cấu trúc mô hình dữ liệu xí nghiệp:
- Có rất nhiều cách tiếp cận đối với 1 phơng pháp của việc mô hình hoá dữ liệu
xí nghiệp. đã đợc đề xuất: Kerr (1991), Scheer và Hars (1992).
1 cấu trúc cụ thể của một mô hình dữ liệu xí nghiệp đợc chia lớp trong một
hình tam giác trong đó đã chỉ ra là khối lợng thông tin trong mô hình sẽ nhỏ dần về
phía đỉnh tam giác nhng nó tăng rất nhanh khi đi về phía đáy.
- ở mức đỉnh của mô hình là lớp phạm vi và kiến trúc nó cung cấp 1 cách nhìn
thống nhất về công viẹec. Nó xác định 1 số nhỏ các khái niệm về công việc (từ 10-20).
Mục đích của lớp này là cung cấp 1 sự hiểu biết và 1 cách nhìn có thể hiểu đ ợc của
công việc tới tất cả các lớp dới.
- Lớp thứ 2 là các lớp dữ liệu nghiệp vụ: Lớp này cung cấp 1 phơng tiện định nghĩa các
khái niệm của các khái niệm khác nhau. Và sẽ phân laọi chúng theo các luật công việc
khác nhau. Lớp này cho phép các phần khác nhau của tổ chức xác minh các khái niệm
nghiệp vụ cụ thể hơn. Lớp "Các lớp dữ liệu nghiệp vụ" cung cấp 1 liên kết từ các khái
niệm tới lớp "mối quan hệ thực thể chung", nó là 1 lớp rất quan trọng của mô hình dữ
liệu xí nghiệp (EDM).
- Lớp "mô hình quan hệ thực thể chung" ERM: lớp ERM đợc cấu trúc nh 1
biểu đồ quan hệ thực thể kinh điển, một mô hình quan hệ thực thể chung là ột mô hình
mà nó xác định và mô tả 1 cách cụ thể tất cả cacs thực thể, các thuộc tính và các mối
quan hệ đợc sử dụng cho tất cả các công việc.
- Lớp thứ 4 của mô hình chứa quan điểm ứng dụng logic (logical application
views). Quan điểm này có quan hệ rất gần với mô hình quan hệ thực thể chung. Một
thực thể đơn lẻ trong mô hình quan hệ thực thể có thể cuất hiện 1 số lần trong quan
điểm ứng dụng logic, với các tập con các thuộc tính của nó, để có thể đáp ứng đợc các
nhu cầu của các ứng dụng công việc khác nhau. Quan điểm ứng dụng logic là 1 quan
hệ giữa các thự cthể trong lớp này với một thực thể đơn lẻ trong lớp trên. Để đảm bảo
là dẫn đến các ứng dụng sử dụng dữ liệu một cách nhất quán nó cũng có thể chỉ ra các
khả năng trong việc chia sẻ dữ liệu giữa các ứng dụng.
- Lớp cuối cùng là lớp thiết kế dữ liệu vật lý, có các ràng buộc trong việc thực
hiện vật lý, ví dụ: hiệu năng, nguồn dữ liệu vật lý, sự phân bố vật lý của dữ liệu giữa 1
số vùng.
Luận đề Nhà kho Dữ liệu
Version: 1.1
Trang 10
Mô hình dữ liệu xí nghiệp và kiến trúc 3 lớp
- Khi ta so sánh mối quan hệ giữa các phạm vi dữ liệu của EDM (mô hình dữ
liệu xí nghiệp) và 3 lớp của kiến trúc dữ liệu nghiệp vụ đã định nghĩa trong phần trên
thì có 1 số sự tơng quan.
+ Bởi vì lớp dữ liệu điều hoà bao trùm toàn bộ phạm vi của công việc. Nó tơng
đớng với ERM (mô hình quan hệ thực thể).
+ Dữ liệu thời gina thực (Real-time data) đợc tạo lập và quản lý bởi các ứng
dụng điều hành trong 1 phạm vi hạn chế. Nó đợc mô hình thông qua quan điểm ứng
dụng logic (Logical application views)
+ Dữ liệu kết nhập, phạm vi của nó bị hạn chế bởi các nhu cầu của nhgời sử
dụng (hoặc nhóm ngời dùng). Nódddwowjc mô hình thông qua quan điểm ứng dụng
logic.
Quan điểm ứng dụng logic cho dữ liệu thời gian thực và dữ liệu kết nhập có thể
bao trùm lên nhau hoặc tơng đối riêng biệt tuỳ theo các nhu cầu công việc.
- Các mô hình cho dữ liệu thời gian thực, kết nhập, điều hoà tất nhiên là phải đ-
ợc đa vào trong 1 mức thiết kế dữ liệu vật lý trong 1 phạm vi thích hợp.
2.2.2 Biểu diễn thời gian trong dữ liệu nghiệp vụ
Bởi vì nghiệp vụ sẽ thay đổi theo thời gian do đó nghiệp vụ phải biểu diễn sự
thay đổi này. Tuy nhiên các cách tiếp cận truyền thống trong việc thiết kế các mô hình
dữ liệu và các ứng dụng tập trung phần lớn vào cách nhìn tĩnh của thế giới.
Đ a thời gian vào trong mô hình dữ liệu
Xét 1 quan hệ đơn giản giữa 2 thực thể và lực lợng của quan hệ này (1-nhiều), Một
phòng có thể từ 0 đến nhiều ngời ngợc lại 1 ngời thì chỉ thuộc duy nhất 1 phòng. Tuy
nhiên quan hệ kết nối này có vấn đề: khẳng định "mỗi ngời chỉ thuộc duy nhất 1
phòng" chỉ đúng tại 1 thời điểm nào đó rõ ràng 1 ngời thì có thể thuộc vào các phòng
khác nhau tại những thời điểm khác nhau. Khía cạnh thời gian đã bị bỏ qua trong các
quan hệ thực thể theo cách truyền thống. Với 1 Nhà kho dữ liệu thì ta cần phải đề cập
đến các khía cạnh thời gian 1 cách chính xác bởi vì nó phải có 1 định nghĩa và cung
cấp về cách nhìn lịch sử của dữ liệu.
Nhãn thời gian
Một cách tiếp cận thực tế đợc sử dụng rộng rãi đó là ứng dụng của nhãn thời gian tới
dữ liệu. Bởi vì dữ liệu thay đổi cơ bản ở mức trờng do đó ta có thể biểu diễn thời gian
ở mức này, hoặc là ở bất kỳ một mức cao hơn khác trong cấu trúc ví dụ nh ở mức bản
ghi/hàng/tệp/bảng tuỳ thuộc vào yêu cầu cụ thể.
1. Theo dõi thời gian ở mức trờng
Đây là mức cụ thể nhất, biểu diễn thời gian ở mức trờng bao gồm việc gắn 1 nhãn thời
gian vào mỗi trờng đợc bởi 1 trờng "t1" đợc liên kết với mỗi trờng của dữ liệu nghiệp
vụ. Trong trờng hợp này các sự thay đổi của công việc có thể đợc theo dõi 1 cách cụ
thể. Tuy nhiên nhu cầu công việc cần tới sự theo dõi ở mức này là các câu hỏi trong tr-
ờng hợp cụ thể nhất. Hơn nữa có 1 khối lợng lớn của dữ liệu nhãn thời gian đợc sinh ra
khi mà so sánh với khối lợng của dữ liệu thực do vậy giá chi phí cho việc lu trữ là khá
đắt.
2. Theo dõi thời gian ở mức bản ghi/hàng
Các vấn đề kỹ thuật của cách tiếp cận thứ 1 có thể đợc đơn giản bởi việc gan nhãn thời
gian ở mức bản ghi/hàng. ở đây nhãn thời gian của 1 bản ghi sẽ đợc cập nhật mỗi khi
có bất cứ một trờng nào trong bản ghi bị thay đổi.
Từ cách nhìn về công việc thì cách tiếp cận này sẽ đáp ứng đợc hầu nh phần lớn các
nhu cầu trong việc theo dõi thời gian và nó là cách phổ biến hiện nay.
3. Theo dõi thời gian ở mức bảng/tệp
Luận đề Nhà kho Dữ liệu
Version: 1.1
Trang 11
Cuối cùng ta có thể gán nhãn thời gian cho cả tệp/bảng, nhãn thời gian sẽ đợc cập nhật
lại mỗi khi có bất cứ 1 trờng hợp nào bị thay đổi. cách tiếp cận này không thích hợp
cho việc điều khiển và kiểm tra dữ liệu tuy nhiên nó thờng là mức mà những ngời sử
dụng muốn theo dõi về sự hiện trạng dữ liệu của họ.
Các bản sao (snapshots) nó biểu diễn một cách nhìn của công việc ở 1 vài thời điểm
trong thời gian.
Dữ liệu thay đổi nh thế nào
- Có 1 nhu cầu xuất hiện đó là ta cần phải biết các sự thay đổi của dữ liệu đợc
thu nhận và đợc biểu diễn qua thời gian nh thế nào?
- ở 1 mức công việc thì dữ liệu đợc thay đổi qua các giao tác công việc chẳng
hạn nh các giao tác: tạo, thay đổi, xoá các bản ghi trong dữ liệu nghiệp vụ thời gian
thực. Một giao tác công việc đơn lẻ có thể ảnh hởng đến nhiều hơn 1 bản ghi dữ liệu.
Chính vì vậy 1 giao tác công việc đơn lẻ có thể gây ra 1 số các kết quả trong 1 CSDL.
Ta sẽ tập trung vào các kết quả xảy ra trong CSDL.
- Ta thấy hầu hết các hoạt động công việc đợc hiểu 1 cách trực giác và đợc theo
dõi bởi các sự kiện đã xuất hiện. Tuy nhiên ta có thể lu trữ hoặc là các trạng thái hoặc
các sự kiện trong môi trờng thông tin có thể yêu cầu của cả 2 cách tiếp cận. Bởi vì nó
rất quan trọng khi nhận ra sự khác nhau của 2 cách tiếp cận và các mối quan hệ giữa
chúng.
Một cách nhìn của dữ liệu thời gian dựa trên các trạng thái
- Một CSDL trạng thái chứa 1 loạt các bản ghi đã gán nhãn. Mỗi bản ghi sẽ chỉ
ra trạng thái của 1 thực thể tại 1 thời điểm.
Ví dụ chỉ ra 1 ứng dụng trong việc quản lý tài khoản ở 1 ngân hàng. Mỗi bản
ghi đã đợc ghi sẽ chỉ ra số lợng tiền của tài khoản sau khi áp dụng 1 giao tác. Mỗi 1
trong các bản ghi này là một bản ghi trạng thái. Mỗi bản ghi sẽ có quan hệ với một
bản ghi trớc bởi 1 sự kiện xảy ra trong trờng hợp này nó là 1 giao tác công việc trên tài
khoản. Dữ liệu trong giao tác là một sự gửi tiền 250$ nó là 1 dữ liệu sự kiện. Mối quan
hệ giữa dữ liệu sự kiện và dữ liệu trạng thái cũng đợc chỉ ra. Nhãn thời gian trên trạng
thái 3 cũng bằng thời gian ở sự kiện đã xảy ra tơng tự thời gian trên trạng thái 2 là thời
gian mà sự kiện trớc đã xảy ra.
- Dữ liệu trạng thái đợc lu trữ thờng xuyên trong CSDL hoặc các tệp bởi rất
nhiều các ứng dụng thông tin và các ứng dụng điều hành dữ liệu sự kiện thì kông đợc
lu trữ cho mục đích công việc. Dữ liệu sự kiện đợc lu giữ trong các bản ghi của CSDL
cho các mục đích phục hồi.
Một cách nhìn về CSDL thời gian dựa trên các sự kiện
Mối quan hệ giữa các dữ liệu sự kiện và dữ liệu trạng thái dẫn tới 1 cách biểu
diễn thứ 2 của thời gian trong dữ liệu lu trữ. Cách tiếp cận này là ta chỉ lu trữ các sự
kiện mà nó xuất hiện. Nó đợc mô tả bên phải hình 6-10 để so sánh với cách tiếp cận
trạng thái chỉ ra phái bên trái. Kết quả là 1 CSDL sự kiện.
- So sánh 2 cách tiếp cận ta thấy cách tiếp cận trạng thái sẽ phải lu trữ khối l-
ợng dữ liệu lớn hơn bởi vì trong bất kỳ 1 sự thay đổi nào thì hầu hết các trờng trong
bản ghi còn lại không bị thay đổi cũng phải đợc sao chép lại. Trong cách tiếp cận sự
kiện thì chỉ có khoá chính của bản ghi, thuộc tính đặc trng và các nội dung của các tr-
ờng bị thay đổi là cần phải đợc lu trữ trong mỗi sự thay đổi. Số lợng dữ liệu ở đây th-
ờng là ít hơn toàn bộ bản ghi.
- Cách tiếp cận sự kiện thờng linh hoạt hơn cách tiếp cận trạng thái trừ khi
trạng thái sau mỗi sự kiện đợc ghi lại. Trong ví dụ đã chỉ ra ở hình 6-8 nếu sau đó ta
phát hiện ra có một số lợng tiền gửi vào đã đợc đa vào không chính xác thì tất cả các
bản ghi trạng thái có thể sẽ phải tính lại.
Luận đề Nhà kho Dữ liệu
Version: 1.1
Trang 12
Các cấu trúc dữ liệu thời gian
- Các nhãn thời gian cùng với các khái niệm về cách biểu diễn trạng thái và sự
kiện cho phép duy trì dữ liệu thời gian. Tuy nhiên ta phải sẽm xét 1 khía cạnh cuối
cùng của dữ liệu thời gian để hiểu đợc lịch sử dữ lieẹu đợc phản ánh nh thế nào trong
CSDL. Điều này thì quan hệ với cấu trúc của dữ liệu và các sự kiện mới ảnh hởng đến
dữ liệu đã tồn taị nh thế nào?
- Sẽ có 2 phơng pháp cơ bản và đã dẫn tới định nghĩa về 2 kiểu dữ liệu: dữ liệu
tạm thời và dữ liệu định kỳ. Mỗi bản ghi đợc chỉ ra có chứa 1 trờng khác k và 1 nhãn
thời gian t. TRong khi trờng khoá là 1 định danh duy nhất của bản ghi nó là bắt buộc
với cả 2 kiểu dữ liệu thì nhãn thời gian là 1 tuỳ chịn trong dữ liệu tạm thời.
- Cuối cùng ta sẽ xem xét 1 phơng pháp thứ 3 trong việc duy trì lịch sử đó là
phơng pháp tạo bản sao.
+ Dữ liệu tạm thời: bản chất của nó là các thay đổi và xoá bỏ của các bản ghi
dữ liệu đang tồn tại vật lý sẽ phá huỷ nội dung của dữ liệu trớc.
- Các bản ghi có thể thêm vào ( VD bản ghi K6 ở thời điểm t2) và xoá đi (bản
ghi K3 ở thời điểm t3). Tuy nhiên không có 1 dấu hiệu nào trong dữ liệu sau thời điểm
t3 của các nội dung trớc của bản ghi k3. Các bản ghi cũng có thể bị thay đổi vì ở thời
điểm t2, bản ghi k2 và k4 đã đợc thay đổi và bản ghi k4 đợc thay đổi ở thời điểm t3.
Nh trong trờng hợp xoá thì các trạng thái trớc của bản ghi bị thay đổi là bị mất.
- Kiểu dữ liệu này đợc tìm thấy trong dữ liệu thời gian thực của môi trờng điều
hành. Nh ta một luật chung chỉ các trạng thái đợc lu trữ nh các dữ liệu tạm thời. Mộc
CSDL sự kiện mà là tạm thời thì sẽ luôn chỉ chứa sự kiện sau cùng và vì vậy nó sẽ có
rất ít hoặc không có giá trị trong xử lý công việc. Một bản ghi trạng thái sau cùng là 1
con đờng chung và rất có giá trị trong việc theo dõi công việc.
Dữ liệu định kỳ
Trong dữ liệu định kỳ thì 1 bản ghi đợc thêm vào sẽ đợc lu trữ, nó không bao
giờ bị xoá về mặt vật lý hoặc và nội dung công việc của nó cũng không bao giờ bị sả
về mặt vật lý.
Hơn nữa các bản ghi mới luôn đợc thêm vào thậm chí cả khi cập nhật hoặc xoá
các bản ghi đã tồn tại.
Ví dụ ở thời điểm t2 bản ghi k3 đợc cập nhật nhng giá trị trớc C không bị ghi
đè bởi giá trị P mà 1 bản ghi hoàn toàn mới với khoá k3 (cùng khoá) nhng với nhãn
thời gian khác t2 đợc thêm vào. Nh 1 kết quả thì nhãn thời gian là 1 thuộc tính bộ phận
của khoá của bản ghi.
Thay cho việc xoá bản ghi thì nó sẽ thêm 1 bản ghi đánh dấu đặc biệt trong
hình bản ghi k4 bị xoá ở thơì điểm t3 bằng cách thêm 1 bản ghi để chỉ ra giá trị khoá
này không còn hợp lệ vì vậy:
- Dữ liệu định kỳ luôn chứa 1 sự thay đổi đầy đủ của bản ghi mà đã xảy ra
trong dữ liệu. Dữ liệu định kỳ là 1 sự liên tục trong tự nhiên bởi vì nó cung cấp 1 bản
ghi cố định của dữ liệu và những thay đổi của nó. Hoặc các trạng thái hoặc các sự kiện
có thể hình thành một cơ sở cho bản ghi này.
- Dữ liệu định kỳ đợc tìm thấy trong dữ liệu thời gian thực cuả các hệ thống
điều hành ở đó 1 bản ghi trạng thái trớc của dữ liệu là rất quan trọng. Các hệ thống tài
khoản ở ngân hàng hay các hệ thống bảo hiểm thờng sử dụng cách tiếp cận này.
Dữ liệu bản sao
Sao chép dữ liệu là 1 cách nhìn tin cậy cảu dữ liệu nh là tồn tại ở 1 vài thời
điểm nào đó. Nó không chứa bất kỳ 1 bản ghi nào của các thay đổi trong dữ liệu mà
dẫn đến sự đạt đợc của nó ỏ trạng thái này. Nếu nó đợc cập nhật nó có thể bị thay thế
toàn bộ hoặc ở 1 mức cụ thể nào đó.
Luận đề Nhà kho Dữ liệu
Version: 1.1
Trang 13
- Kiểu dữ liệu này thờng xuất hiện trong lớp dữ liệu kết nhập các bản sao thờng
biểu diễn dữ liêụ nghiệp vụ ở một vài thời điêmtrong quá khứ và với 1 số các bản sao
có thể sẽ cung cấp 1 cách nhìn về lịch sử của công việc. Tuy nhiên việc dự đoán hoặc
lập kế hoạch về các trạng thái công việc cũng là các bản sao. Trong trờng hợp này nó
biểu diễn tơng lai.
2.2.3 Dữ liệu lịch sử
Sự cần thiết phải truy nhập đến các dữ liệu lịch sử là 1 trong các lý do chính
của việc chấp nhận cách tiếp cận Nhà kho dữ liệu. Thực tế, dữ liệu lịch sử đa ra 1 vai
trò rất quan trọng trong Nhà kho dữ liệu đợc sử dụng trong hớng phân tích. Nó tập
trung trên các lĩnh vực (vùng) cụ thể của dữ liệu nghiệp vụ. Dữ liệu lịch sử cũng tạo
thành 1 phần rất quan trọng trong dữ liệu xí nghiệp. ở đó nó sẽ cung cấp bản ghi cuối
cùng của nghiệp vụ.
Sự cần thiết của dữ liệu lịch sử
Các yêu cầu cho việc lu giữ lịch sử của nghiệp vụ gồm 2 lĩnh vực rộng lớn sau:
1. Một cách nhìn về công việc ở 1 thời điểm đã cho
- Nói chung, những ngời sử dụng cần phải xem xét về công việc nh nó đã tồn tại ở các
thời điểm khác nhau. Một vài thời điểm sẽ có công việc đặc biệt rất quan trọng ví dụ
nh sự kết thúc của 1 tài khoản hoặc chu kỳ thuế và các sự kiện công việc quan trọng
chẳng hạn nh việc tổ chức lại đây là các thời điểm mà yêu cầu các cách nhìn nh vậy.
Những cách xem xét này phải là chắc chắn. Cho phép cùng 1 câu hỏi ở các thời điểm
khác nhau phải sinh ra cùng 1 kết quả, các nhu cầu nh vậy đợc thoả mãn bởi các dữ
liệu bản sao.
2. Phân tích hớng công việc:
* Ví trí của dữ liệu lịch sử trong kiến trúc Nhà kho dữ liệu:
* Trong ngữ cảnh của kiến trúc dữ liệu 3 lớp thì dữ liệu lịch sử là 1 sự pha trộn của các
kiểu dữ liệu khác nhau và nó tập trung tiềm tàng trong bất kỳ lớp nào hoặc trong cả 3
lớp.
* Dữ liệu nghiệp vụ lịch sử thì tồn tại trong cả 3 lớp nhng với các lý do khác nhau trong
mỗi lớp. Tài nguyên nguồn của dữ liệu lịch sử là lớp dữ liệu thời gian thực. Trong hầu
hết các trờng hợp thì dữ liệu lịch sử đợc lu trữ và sử dụng với vài sự mở rộng trong lớp
này. Cách sử dụng chính của dữ liệu lịch sử là trong quản lý các công việc và do vậy
nó thờng xuatá hiện trong lớp dữ liệu kết nhập. Tuy nhiên vai trò của dữ liệu lịch sử
trong lớp điều hoà là rất quan trọng bởi vì nó là từ đây mà tất cả các dữ liệu kết nhập
đợc hình thành.
* Khối lợng của dữ liệu lịch sử:
* Có lẽ đặc trng quan trọng của dữ liệu lịch sử đó là khối lợng tiềm năng và chi phí liên
kết trong việc lu trữ nó. Tuy nhiên khối lợng của dữ liệu lịch sử đợc lu giữ lại thì phải
đợc xem xét với lợi ích công việc của nó.
* Rõ ràng nếu tất cả dữ liệu đợc lu trữ ở mức cao nhất và nó không bao giờ bị xoá, thì
tất cả các truy vấn tơng lai và các phân tích tơng lai có thể đợc hỗ trợ. Tuy nhiên cách
tiếp cận này có thể khó thoả mãn khi phân tích lợi ích-chi phí. Khi phân tích về chi phí
và lợi ích của việc lu trữ dữ liệu lịch sử có 1 số xem xét chung nh sau:
+ dữ liệu tổng kết đợc sử dụng trong 1 khoảng thời gian lâu hơn dữ liệu cụ thể.
+ Các quản lý và điều hành tập trung chính trên dữ liệu tổng kết cho việc tạo ra quyết
định. Trong khi đó cách sử dụng điều hành của dữ liệu là khoảng thời gian ngắn và
xuất hiện ở mức cụ thể.
2.2.4 Nhân bản dữ liệu
* Việc sao chép dữ liệu đợc coi nh 1 công việc cũ nhất trong xử lý dữ liệu . Các bản sao
dữ liệu đã đợc tạo ra và sử dụng từ rất sớm. Tuỳ thuộc vào mục đích của dữ liệu đợc
Luận đề Nhà kho Dữ liệu
Version: 1.1
Trang 14
sao chép, bản sao phải đợc đồng nhất với nguồn của nó hoặc có thể bị thay đổi trong 1
vài trờng hợp đặc biệt.
* Sự cần thiết phải nhân bản dữ liệu trong khi xếp vào Nhà kho dữ liệu là hiển nhiên do
các nhu cầu cần đợc thoả mãn là:
+ Sự tạo ra lớp dữ liệu nghiệp vụ đợc điều hoà
+ Tạo ra (population) lớp dữ liệu kết nhập
+ Sự tạo ra lớp dữ liệu về cách sử dụng.
Trong khi có các sự khác nhau giữa 3 nhu cầu này thì 1 vài khía cạnh sau là chung cho
cả 3 (sẽ thảo luận ở phần sau)
* Phần này sẽ giới thiệu 1 số chức năng kỹ thuật mà tồn tại dới nhân bản dữ liệu . Bắt
đầu với 1 cách nhìn là tại sao cách tiếp cận truyền thống để sao chép dữ liệu là không
thích hợp trong môi trờng Nhà kho dữ liệu . Điều này dẫn đến 1 định nghĩa về nhân
bản dữ liệu . Phần này sẽ kết thúc với 1 so sánh của nhân bản dữ liệu trong Nhà kho
dữ liệu và một cách sử dụng khác của nhân bản dữ liệu - Sự đồng bộ hoá của CSDL
phân tán.
* Trong khi kiến trúc dữ liệu và các hoạt động mô hình hoá tạo ra 1 yêu cầu rất quan
trọng trong phần thiết kế lu trữ, thì việc thực hiện các chức năng? Thờng bao gồm
phần lớn giá cả và thời gian của toàn bộ sự thực hiện. Việc lựa chọn cách tiếp cận và
các khả năng của chúng có thể ảnh hởng tới sự thực hiện vật lý của EDM trong lớp
điều hoà.
* nhân bản dữ liệu là 1 phần trong việc thực hiện Nhà kho dữ liệu. ở đó hầu hết các thoả
hiệp đợc thực hiện - độ sâu của chức năng, độ rộng của phạm vi hỗ trợ, duy trì dễ
dàng, linh hoạt với các công việc thay đổi và các nhu cầu dữ liệu , dễ sử dụng và hiệu
quả.
Sao chép dữ liệu ở mức ứng dụng
* Trong cách tiếp cận truyền thống này, thì các yêu cầu về dữ liệu sao chép đ ợc xác
định chỉ trong phạm vi của ứng dụng trong thời gian phát triển. Một chơng trình sao
chép dữ liệu thờng đợc thiết kế và xây dựng để trích ra dữ liệu từ nguồn và phân phát
nó tới môi trờng đích. Cách tiếp cận này gọi là sao chép dữ liệu ở mức ứng dụng.
+ Duy trì các chơng trình sao chép là 1 sự thách thức (khó khăn) khi CSDL điều hành
gốc thay đổi trong cấu trúc hoặc nội dung với các thay đổi của công việc thì các ch-
ơng trình sao chép cũng phải đợc cập nhật. Sự duy trì nh vậy thờng rất phức tạp bời vì
mặt logic thì số lợng của dữ liệu sẽ tăng trong các chơng trình này. Hơn nữa sẽ thờng
có 1 khoảng thời gian bắt buộc để các chơng trình sao chép phải đợc cập nhật trong 1
chu kỳ thời gian giữa thời điểm các thay đổi thiết kế trong CSDL nguồn đợc hoàn
thành và thời điểm chúng đợc đa vào sản xuất.
+ Tính nhất quán trong các chơng trình sao chép khó duy trì mỗi CSDL điều hành trở
thành nguồn cho nhiểu chơng trình sao chép. Tất cả các phần của tổ chức phải hiểu về
cấu trúc và ý nghĩa của dữ liệu nguồn này 1 cách nhất quán. Để có thể đảm bảo sự
thực hiện nhất quán này thì sự xung đột đáng kể sẽ xuất hiện.
+ Toàn bộ chi phí cho việc sao chép dữ liệu tăng theo hàm mũ
Khi số các chơng trình sao chép tăng, sự phức tạp trong việc bảo đảm tính nhất
quán trong và giữa các chơng trình này tăng rất nhanh. Và do vậy sớm tiêu thụ hết tất
các tài nguyên sẵn dùng đã đợc thiết kể để hỗ trợ cho môi trờng ngời sử dụng.
nhân bản dữ liệu - một định nghĩa
Nhân bản dữ liệu , ở góc độ của 1 Nhà kho dữ liệu , nó đa ra các đặc trng sau:
* Điều khiển: nhân bản dữ liệu sẽ đảm bảo tính nhất quán của kết quả bất kể dữ liệu đó
đợc sao chép khi nào và sao chép nh thế nào, hoặc đợc thao tác nh thế nào, khi nào.
* Quản lý: Nó cung cấp khả năng để thực hiện việc xây dựng và sử dụng lại.
Luận đề Nhà kho Dữ liệu
Version: 1.1
Trang 15
* Linh hoạt: Nó cho phép kết hợp và hợp của các chức năng và các kỹ thuật mà ở đó
cần.
* Dễ dàng duy trì: Nó có thể đáp ứng nhanh chóng và hiệu quả tới các thay đổi trong cấu
trúc hoặc vị trí của các tập dữ liệunguồn và đích.
* Sự tích hợp của siêu dữ liệu: Nó cung cấp sự liên kết tới siêu dữ liệu ở cả dữ liệu
nguồn và đích. Sử dụng hoặc cung cấp siêu dữ liệu khi cần.
* Hiệu suất: Nó cung cấp các phơng pháp để hỗ trợ các nguồn dữ liệu lớn ở nhiều mức
đồng bộ khác nhau.
* Sự đa dạng của nguồn: Nó hỗ trợ sự đa dạng của các đặc trng nguồn dữ liệu của môi
trờng IS ngày này qua một cách tiếp cận đơn lẻ hoặc qua một tập các điều hoà hay kết
nối của các cách tiếp cận.
* Dễ sử dụng: Những ngời sử dụng với kỹ năng kỹ thuật của họ từ ngời sử dụng bình th-
ờng đến ngời quản trị cơ sở dữ liệu đều có thể sử dụng công cụ này.
* Ngữ cảnh công việc: Nó duy trì các mối quan hệ tác động bởi các tiến trình công việc
khi dữ liệu đợc sao chép.
Tiến trình sao chép dữ liệu: Để sao chép dữ liệu theo một cách nhất quán với các đặc
trng trên các bớc trong tiến trình đợc định nghĩa nh sau:
1. Xác định dữ liệu nguồn:
-Trong khi lu trữ dữ liệu vào Nhà kho thì nguồn dữ liệu là ở mức định nghĩa cực tiểu
và nói chung nó thờng tồn tại trớc bất kỳ một sự cố gắng nào để sao chép nó. Vì vậy
tiến trình của việc nhân bản dữ liệu đầu tiên phải tập trung vào thu nhận định nghĩa
này bất cứ khi nào nó đã tồn tại, hơn là cố gắng tạo ra một định nghĩa mới.
2. Xác định hoặc định nghĩa dữ liệu đích:
Dữ liệu đích thờng không tồn tại trớc việc định nghĩa ra tiến trình nhân bản. Cấu trúc
của dữ liệu đích phải đợc định nghĩa thông qua quá trình mô hình dữ liệu nh đã mô tả.
Tuy nhiên trong một vài trờng hợp cụ thể khi quá trình tạo bản sao đợc sử dụng để đa
đến(tạo ra) một vài kiểu dữ liệu kết nhập, sự định nghĩa của cấu trúc dữ liệu đích có
thể tạo thành bộ phận trong định nghĩa của tiến trình nhân bản. Bớc này vì vậy phải hỗ
trợ cả việc thu nhận một định nghĩa dữ liệu đích đang tồn tại và tạo lập một định nghĩa
nếu có yêu cầu.
3. Tạo ánh xạ giữa nguồn và đích
Khi các định nghĩa của cả dữ liệu nguồn và đích đã có sẵn, nhiệm vụ tiếp theo là phải
định nghĩa dữ liệu nguồn đợc chuyển vào dữ liệu đích nh thế nào? Việc định nghĩa
nhân bản này phải đòi hỏi xử lý một sự đa dạng của các kiểu chuyển đổi khác nhau.
Một nhiệm vụ phức tạp hơn là kết hợp một số phần tử dữ liệu nguồn để sinh ra dữ liệu
mới trong môi trờng đích.
4. Định nghĩa mốt nhân bản.
Có hai kiểu cơ bản trong việc tạo bản sao dữ liệu : refresh và update
Kiểu Refresh là kiểu bao gồm 1 sự di chuyển dữ liệu từ nguồn tới đích
Kiểu update sẽ xác định và chỉ di chuyển các dữ liệu bị thay đổi từ môi trờng nguồn
tới môi trờng đích. Rất cần thiết phải định nghĩa ra một kiểu sao chép dữ liệu trớc để
sử dụng. Tuy nhiên trong một số trờng hợp thì điều này cá thể quyết định thời gian
chạy.
5. Lập lịch xử lý nhân bản
Việc tạo bản sao dữ liệu chính nó là một quá trình lặp, nó thờng đợc xảy ra ở một
khoảng thời gian xác định ví dụ hàng tuần, hàng tháng, vv.
6. Thu nhận dữ liệu đợc yêu cầu từ nguồn.
Luận đề Nhà kho Dữ liệu
Version: 1.1
Trang 16
Đây là bớc đầu tiên trong tiến trình sao lu thực tế, bớc thu nhận cùng với các bớc sau
đợc trông chờ xảy ra theo lịch trình đã định nghĩa, và không có sự can thiệp thêm của
con ngời. Các phơng thức dới đây cho việc trích chọn dữ liệu là phụ thuộc vào kỹ thuật
lu trữ dữ liệu nguồn và kiểu sao chép.
7. Di chuyển dữ liệu đã thu nhận giữa nguồn nguồn và đích.
Việc di chuyển phải hỗ trợ một môi trờng hoàn toàn không đồng nhất ở đó nguồn và
đích có thể thuộc về các kiểu khác nhau, trong các khuôn dạng khác nhau, ở các vùng
khác nhau, đợc kết nối bởi rất nhiều khả năng khác nhau liên kết khác nhau.
8. Chuyển đổi dữ liệu thu nhận dựa trên ánh xạ đã định nghĩa
Bớc chuyển đổi có thể xảy ra trong môi trờng nguồn hoặc môi trờng đích hoặc nó có
thể đợc phân tán ở cả hai. Các kiểu chuyển đổi thực hiện ở các mức khác nhau. Ví dụ
thay đổi một hoặc nhiều trờng với một bản ghi đơn lẻ, kết hợp các bản ghi từ nhiều
nguồn khác nhau v.v..
9. Gắn dữ liệu thu nhận vào đích.
Dữ liệu có thể đợc đa vào đích theo hai cách cơ bản:
- Dữ liệu đa vào sẽ thay thế dữ liệu đang tồn tại.
- Dữ liệu đa vào đợc thêm vào dữ liệu đang tồn tại.
10. Khẳng định sự thành công hoặc thất bại của nhân bản
Bất kỳ một bớc nào trong các bớc trên của tiến trình tạo bản sao dữ liệu cũng có thể bị
thất bại. Kỹ thuật quay lui nên tồn tại để khắc phục các lỗi đặc biệt. Tuy nhiên nếu tiến
trình có thể không đợc hoàn thành thì các thông tin này phải đợc tạo ra và đa tới ngời
sử dụng thích hợp.
Ghi chép các kết quả của việc nhân bản trong siêu dữ liệu.
- Các công cụ tạo bản sao đợc đa ra sự thành công hay thất bại của mỗi bớc trong siêu
dữ liệu, điều nàyn sẽ cung cấp cho ngời sử dụng với các thông tin trên dữ liệu hiện
trạng trong hệ thống đích.
Duy trì các định nghĩa về nguồn, đích và nhân bản.
Khi công việc cần thay đổi, có một nhu cầu phải cập nhật lại định nghĩa của tiến trình
tạo bản sao để phản ánh các thay đổi trong dữ liệu nguồn, các yêu cầu mới cho dữ liệu
đích, các sự chuyển đổi dữ liệu mới v.v...
Mô hình hoá dữ liệu xí nghiệp và nhân bản dữ liệu
Tạo ra quan hệ hoặc ánh xạ giữa dữ liệu nguồn và đích là yêu cầu đầu tiên và quan
trọng nhất trong việc nhân bản. Nhà kho dữ liệu đợc điều khiển bởi các nhu cầu của
ngời sử dụng để liên kết dữ liệu tới thực tế nghiệp vụ.
Mô hình dữ liệu xí nghiệp chính là cơ sở lý thuyết cho mối quan hệ giữa dữ liệu và ý
nghĩa nghiệp vụ, nó cũng là nền tảng cơ sở cho quan hệ nguồn, đích.
nhân bản dữ liệu - một cách sử dụng đặc thù
" nhân bản dữ liệu" đợc sử dụng rộng rãi trong công nghiệp máy tính hiện nay. Nó có
nghĩa những thứ khác nhau cho những ngời khác nhau. Trong trình bày này, nhân bản
dữ liệu đợc định nghĩa dới dạng các nhu cầu của Nhà kho dữ liệu để xây dựng và duy
trì các cấu trúc dữ liệu của lớp dữ liệu đIều hoà, lớp dữ liệu kết nhập và của kho siêu
dữ liệu. Một cách sử dụng tập trung vào nhu cầu đồng bộ hoá CSDL phân tán bất kể
công việc sử dụng tới các dữ liệu nào trong các CSDL này.
Định nghĩa này đã dẫn tới một nguyên tắc khác của nhân bản dữ liệu và đa đến một sự
thực hiện kỹ thuật khác. Trong phần này ta không thảo luận cụ thể cho việc sử dụng
nhân bản dữ liệu cho việc đồng bộ hoá trong CSDL phân tán nh thế nào. Các đặc thù
của nhân bản dữ liệu trong Nhà kho dữ liệu bao gồm :
* Các nguồn dữ liệu đầu vào gồm nhiều kiểu, dạng dữ liệu trong khi kiến trúc cho Nhà
kho dữ liệu dựa trên mô hình quan hệ
Luận đề Nhà kho Dữ liệu
Version: 1.1
Trang 17
* Quan hệ giữa dữ liệu các lớp khác nhau dựa trên ý nghĩa của nghiệp vụ, tức là ứng
dụng phân tích thông tin đòi hỏi để tạo ra mô hình dữ liệu kết nhập và mối quan hệ
của nó với dữ liệu thời gian thực.
* Di chuyển dữ liệu đợc thực hiện theo cách cam kết hai pha thờng thấy trong các ứng
dụng cơ sở dữ liệu phân tán nhng đơn giản hơn do việc di chuyển dữ liệu chỉ một
chiều.
Các thành phần chức năng của nhân bản dữ liệu
Nh đã mô tả ở trên, ta có thể hiểu đợc một cấu trúc chung về nhân bản dữ liệu, cấu
trúc này đợc dựa trên 6 loại thành phần chức năng.
Các thành phần gồm :
- Quản trị ( Administration) là một điểm vào cho tất cả sự sử dụng của chức năng
nhân bản dữ liệu. Để thu nhận đợc lợi ích lớn nhất từ các định nghĩa đang tồn tại của
dữ liệu nguồn và đích thì ngời quản trị sẽ dử dụng siêu dữ liệu mô tả về nguồn và đích
để định vị và hiểu các cấu trúc của chúng và để xây dựng các mối quan hệ giữa chúng
Đầu ra của quản trị đó là thông tin cần thiết để có thể thực hiện việc quản lý tiến trình
và các thành phần thời gian chạy(Run time) (thu nhận, áp dụng, chuyển đổi và di
chuyển dữ liệu) để thực hiện các nhiệm vụ riêng của chúng.
Tuỳ thuộc vào các kiểu khác nhau của dữ liệu nguồn và các kiểu nhân bản dữ liệu
đang sử dụng thì sẽ có một hoặc nhiều thành phần thu nhận đợc yêu cầu. Dựa trên các
nhu cầu dữ liệu đợc định nghĩa qua thành phần quản trị việc thu nhận sẽ đọc từ tất cả
hoặc một tập con của dữ liệu nguồn và làm cho nó sẵn sàng đối với các thành phần
chuyển đổi và di chuyển dữ liệu. Sự hoàn thành của một quá trình thu nhận và bất kỳ
một lỗi nào xuất hiện đều đợc thông báo cho thành phần quản lý tiến trình.
Sau khi dữ liệu yêu cầu đã đợc thu nhận thì tiến trình tiếp theo sẽ là chuyển đổi hoặc di
chuyển dữ liệu. Các tiến trình này đợc gọi đến tuỳ thuộc vào môi trờng nguồn và đích
là giống nhau hay khác nhau. Và ở đó việc chuyển đổi sẽ đợc thực hiện một cách tốt
nhất.
- Chuyển đổi là quá trình chuyển đổi dữ liệu khi nhận đợc từ dữ liệu nguồn sang một
cấu trúc phù hợp nhất vơí các nhu cầu của môi trờng đích.
- Cuối cùng sẽ có một hoặc nhiều thành phần áp dụng tuỳ thuộc vào sự đa dạng của
môi trờng đích và các kiểu nhân bản đang sử dụng
áp dụng ghi dữ liệu đến vào cơ sở dữ liệu đích theo một hay nhiều cách khác nhau từ
việc chèn không điều kiện của dữ liệu mới đến một vài cách tiếp cận phức tạp hơn để
duy trì dữ liệu đang tồn tại và cho phép sinh ra dữ liệu lịch sử.
- Di chuyển dữ liệu là chịu trách nhiệm di chuyển dữ liệu về mặt vật lý trong và giữa
các nền tảng và hệ thống khác nhau. Lịch trình và sự điều khiển của các thành phần
thời gian chạy là trách nhiệm của phần quản lý tiến trình. Các lịch trình yêu cầu đợc
định nghĩa thông qua ngời quản trị.
2.3. Kiến trúc logic
Các kiểu dữ liệu và các khái niệm về các lớp dữ liệu nghiệp vụ cũng nh các khái niệm
về các thành phần siêu dữ liệu đã cung cấp lý thuyết cơ sở của một cấu trúc Nhà kho
dữ liệu. Các mục trớc ta đã mô tả các công cụ cơ bản để thiết kế Nhà kho dữ liệu.
Trong chơng này, sẽ giới thiệu một cách nhìn tổng quát của một cấu trúc Nhà kho dữ
liệu.
2.3.1 Dữ liệu nghiệp vụ trong Nhà kho dữ liệu
Khi bắt đầu ở phần II thì dữ liệu thời gian thực, dữ liệu kết nhập, dữ liệu điều hoà là
các khái niệm, khi đi dần về hớng thực hiện vật lý của Nhà kho dữ liệu thì rõ ràng là
mỗi một trong các lớp này là một bản sao vật lý. Tuy nhiên nếu chúng không tập trung
Luận đề Nhà kho Dữ liệu
Version: 1.1
Trang 18
trong một vùng vật lý và tất cả đợc thực hiện theo các cách khác nhau. Xem xét một
kiểu cấu trúc logic ở mức cao.
* Các hệ thống điều hành (thời gian thực)
Các hệ thống điều hành là các ứng dụng đợc sử dụng để chạy công việc và các dữ liệu
chúng sử dụng, trong các file và các bảng là dữ liệu thời gian thực. Các ứng dụng nh
vậy ngày nay tồn tại dới nhiều khuôn dạng khác nhau và ở nhiều vùng khác nhau và vì
vậy nó vừa không đồng nhất vừa phân tán. Các ứng dụng mới tiếp tục đợc xây dựng và
thậm chí nó còn không đồng nhất và phân tán hơn trong quá khứ. Ngày này các ứng
dụng này đang đợc thực hiện trong một sự đa dạng của môi trờng Clien/server
Các hệ thống điều hành là nguồn của tất cả dữ liệu trong Nhà kho dữ liệu. Khẳng định
này là hiển nhiên khi ta xem xét sự mô tả dữ liệu bên trong các hoạt động hàng ngày
của công việc. Dữ liệu nh vậy đợc tạo ra qua các hệ thống xử lý giao tác trong chính
công việc. Tuy nhiên, khẳng định này yêu cầu một vài sự làm sáng tỏ khi giải quyết
dữ liệu bên ngoài, dữ liệu dự đoán, các sự sử chữa và hiệu chỉnh, dữ liệu sử dụng lại và
dữ liệu riêng t. Các kiểu dữ liệu này đợc đa vào Nhà kho dữ liệu từ các hệ thống điều
hành hoặc từ các hệ thống mà tơng tác với Nhà kho dữ liệu nh các hệ thống điều hành(
sẽ xem xét ở phần sau)
* Nhà kho dữ liệu nghiệp vụ
Nhà kho dữ liệu nghiệp vụ là sự thực hiện vật lý của lớp dữ liệu điều hoà, các đặc trng
của lớp dữ liệu này đã đợc mô tả trong phần trên. Đặc trng của BDW là tính, chi tiết,
lịch sử, nhất quán, mô hình hoá và chuẩn hoá.
BDW rất ít khi đợc sử dụng trực tiếp bởi ngời sử dụng và nó là nguồn cho tất cả dữ liệu
trong Nhà kho thông tin công việc.
* Nhà kho thông tin nghiệp vụ(BIW)
Một BIW là một tên chung cho bất kỳ hệ thống nào đợc sử dụng trong việc báo cáo,
phân tích và dự đoán về công việc. Nó bao gồm báo cáo thông tin quản lý, hỗ trợ quyết
định và các hệ thống thông tin điều hành nh các hệ thống thông tin điều hành nh các
hệ thống phân tích thị trờng , các ứng dụng khai phá dữ liệu .vv. BIW sẽ tơng đơng lớp
dữ liệu kết nhập trong mô hình kiến trúc ba lớp, và hầu hết các BIW đều tồn tại trong
một cấu trúc quan hệ dựa trên các hàng và cột
-BIWs chứa dữ liệu kết nhập đợc thiết kế để hỗ trợ các nhu cầu của ngời sử dụng, hoặc
từng cá nhân hoặc từng nhóm, hoặc các phòng. Chúng có thể chứa dữ liệu ở mức tổng
kết hoặc mức cụ thể , dữ liệu định kỳ trong một khoảng thời gian lịch sử hoặc các bản
sao. Cấu trúc của BIWs đợc tối u cho việc thực hiện các câu hỏi trực tuyến hoặc các
truy vấn định nghĩa trớc hoặc không dự tính trớc.
- BIW đợc sinh ra hoặc trực tiếp từ BDW hoặc qua một BIW khác. Việc sinh ra BIW
trực tiếp từ BDW thì dựa trên quan hệ giữa dữ liệu kết nhập và dữ liệu điều hoà đã
định nghĩa kiến trúc khái niệm sự cần thiết tới nguồn BIWs là tơng tự về nội dung và
do vậy việc kết nhập mỗi BIW trực tiếp từ BDW không phải là cách sử dụng tốt nhất
của các tài nguyên tính toán, tuy nhiên lợi ích của nguồn BIWs từ các BIWs khác cần
phải cân nhắc với sự rủi ro của công việc tạo ra hiện tợng Daisy chain của dữ liệu.
Điều này dẫn tới hai kiểu BIW: Staying BIWs(các BIW tạm thời) nó đợc cho phép nh
nguồn của các BIW khác và user BIWs (BIWs ngời sử dụng) nó không cho phép nh
Staying BIWs. Với BIWs tạm thời thì yêu cầu phải có sự quản lý đặc biệt để bảo đảm
tính nhất quán và tính toàn vẹn của dữ liệu đợc lu trữ.
2.3.2 Siêu dữ liệu trong Nhà kho dữ liệu
- Trong cả 3 lớp của kiến trúc đều cần siêu dữ liệu. Tuy nhiên không phải tất cả mọi
lớp đều cần tất các siêu dữ liệu. Giả sử 3 lớp thành phần của siêu dữ liệu ( đã mô tả ở
mục trên) sẽ thể hiện mức độ quan trọng khác nhau trong các lớp của dữ liệu nghiệp
vụ.
Luận đề Nhà kho Dữ liệu
Version: 1.1
Trang 19