Tải bản đầy đủ (.doc) (22 trang)

Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (325.68 KB, 22 trang )

Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến
MỤC LỤC
Trang
Nhóm 4 – Cao học 2011 - 2013 Trang 3
Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến
PHẦN I: LÝ DO CHỌN ĐỀ TÀI
Sự gia tăng về khả năng xử lý và sự tinh vi của các kỹ thuật và các công cụ
phân tích và đã dẫn đến sự phát triển của một khái niệm là “kho dữ liệu”. Những
kho dữ liệu này cung cấp các kho chứa, chức năng và đáp ứng các truy vấn mà cơ
sở dữ liệu tác nghiệp không giải quyết được. Đi kèm với sự phát triển như vậy là
một đòi hỏi lớn về cải thiện hiệu suất truy cập dữ liệu. Các cơ sở dữ liệu truyền
thống cân bằng giữa đòi hỏi về khả năng truy cập dữ liệu với sự cần thiết về bảo
đảm tính toàn vẹn dữ liệu. Trong các hệ thống hiện đại, người sử dụng dữ liệu
thường được tách rời hoàn toàn khỏi nguồn dữ liệu. Người sử dụng chỉ cần truy cập
để đọc dữ liệu, nhưng vẫn cần truy cập một cách nhanh chóng đến khối lượng lớn
dữ liệu tiện lợi hơn là tải nó về máy tính. Thông thường những dữ liệu như vậy đến
từ nhiều nguồn. Bởi vì rất nhiều hoạt động phân tích là thường xuyên và có thể dự
báo được, các nhà cung cấp phần mềm đã thiết kế các hệ thống để hỗ trợ các chức
năng như vậy. Ngày nay, các hệ thống đó là rất cần thiết cho những người quản lý
để hỗ trợ cho các quyết định đưa ra. Kho dữ liệu, xử lý phân tích trực tuyến
(OLAP), khai phá dữ liệu cung cấp những tính năng này.
Qua quá trình học môn Cơ sở dữ liệu nâng cao cũng như nghiên cứu phần
Datawarehouse, nhóm chúng em xin chọn đề tài “TỔNG QUAN VỀ KHO DỮ
LIỆU VÀ XỬ LÝ PHÂN TÍCH TRỰC TUYẾN”. Tiểu luận trình bày một cách
nhìn tổng quát về kho dữ liệu và các công nghệ xử lý phân tích trực tuyến.
Xin chân thành cám ơn Ts Hoàng Quang đã truyền đạt kiến thức quý báu
cho chúng em để chúng em làm tiểu luận này. Xong do kiến thức còn hạn chế nên
không thể tránh khỏi sai sót, kính mong thầy và các bạn cùng lớp góp ý để tiểu luận
được hoàn thiện hơn.
Nhóm 4 – Cao học 2011 - 2013 Trang 4
Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến


PHẦN II: NỘI DUNG
1. Giới thiệu, định nghĩa và thuật ngữ.
Một cơ sở dữ liệu là một tập hợp các dữ liệu liên quan và một hệ thống cơ
sở dữ liệu là một cơ sở dữ liệu và phần mềm cơ sở dữ liệu kết hợp với nhau. Một
kho dữ liệu cũng là một tập hợp các thông tin như là một hệ hỗ trợ. Tuy nhiên, tồn
tại một sự khác biệt rõ ràng. Các cơ sở dữ liệu truyền thống là sự giao dịch (mối
quan hệ, hướng đối tượng, mạng, hay thứ bậc). Kho dữ liệu có đặc điểm là chủ yếu
dùng cho các ứng dụng hỗ trợ quyết định. Nó tối ưu cho việc gọi dữ liệu, nhưng
không xử lý giao dịch thông thường.
Bởi vì kho dữ liệu đã được phát triển trong rất nhiều tổ chức cho những ứng
dụng đặc thù nên không có một định nghĩa kinh điển (duy nhất) về kho dữ liệu. Các
sách và bài viết trên tạp chí chuyên ngành trong ấn bản phổ thông thảo luận về ý
nghĩa của kho dữ liệu theo nhiều cách khác nhau. Tuy nhiên kho dữ liệu rất khác
với cơ sở dữ liệu truyền thống ở cấu trúc, chức năng, hoạt động và mục đích của
chúng.
W.H.Inmon mô tả một kho dữ liệu như là tập hợp dữ liệu có tính hướng chủ
thể, tích hợp, bền vững, biến thời gian và dùng để hỗ trợ cho các quyết định của
người quản lý. Kho dữ liệu cung cấp sự truy cập dữ liệu cho những phân tích phức
tạp, khám phá tri thức, ra quyết định. Chúng hỗ trợ cho yêu cầu thực thi với hiệu
suất cao đối với dữ liệu và thông tin của các tổ chức. Một số loại ứng dụng như
OLAP, DSS và khai phá dữ liệu được hỗ trợ. Chúng ta định nghĩa chúng như sau:
OLAP (xử lý phân tích trực tuyến) là thuật ngữ được sử dụng để mô tả sự
phân tích dữ liệu phức tạp từ kho dữ liệu. Công cụ OLAP sử dụng khả năng tính
toán phân tán để phân tích những yêu cầu đòi hỏi nhiều khả năng lưu trữ và xử lý
hơn là về kinh tế và hiệu quả trên một máy tính riêng lẻ.
DSS (hệ thống hỗ trợ quyết định) cũng được biết như EIS (hệ thống thông
tin lãnh đạo) (không nhầm lẫn với hệ thống thông tin mức xí nghiệp (enterprise
integration system) hỗ trợ cho quyết định của lãnh đạo của một tổ chức với dữ liệu
mức độ cao hơn cho những quyết định quan trọng và phức tạp. Khai phá dữ liệu
(điều mà chúng ta đã thảo luận chi tiết ở chương 28) được dùng để khám phá tri

thức, tìm kiếm dữ liệu cho tri thức mới chưa được biết.
Các cơ sở dữ liệu truyền thống hỗ trợ quá trình giao dịch trực tuyến
(OLTP), bao gồm sự chèn vào, cập nhật và xóa trong khi vẫn hỗ trợ các yêu cầu
truy vấn. Các cơ sở dữ liệu quan hệ truyền thống được tối ưu hóa để xử lý các truy
vấn có thể liên quan đến một phần dữ liệu mà đang được cập nhật bởi một tiến trình
nào đó. Vì vậy, chúng không thể được tối ưu hóa cho OLAP, DSS, hoặc khai phá
dữ liệu. Ngược lại, kho dữ liệu được thiết kế một cách chính xác để hỗ trợ hiệu quả
Nhóm 4 – Cao học 2011 - 2013 Trang 5
Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến
cho các mục đích khai thác, xử lý, phân tích và ra quyết định. So sánh với cơ sở dữ
liệu truyền thống, kho dữ liệu thường chứa một lượng rất lớn dữ liệu từ nhiều
nguồn mà có thể bao gồm cơ sở dữ liệu từ các mô hình dữ liệu khác nhau, đôi khi
các tập tin có được từ các hệ thống khác.
2. Đặc điểm của kho dữ liệu
Để thảo luận về kho dữ liệu và phân biệt chúng với cơ sở dữ liệu tác
nghiệp, chúng ta cần một mô hình dữ liệu phù hợp. Mô hình dữ liệu đa chiều (được
giải thích khá chi tiết ở mục 3) là rất thích hợp cho OLAP và các công nghệ hỗ trợ
quyết định. Ngược lại với đa cơ sở dữ liệu, cung cấp truy cập đến các cơ sở dữ liệu
rời rạc và thường là không đồng nhất, kho dữ liệu thường là một kho tích hợp dữ
liệu từ nhiều nguồn, xử lý lưu trữ trong một mô hình đa chiều. Không giống như
hầu hết các cơ sở dữ liệu tác nghiệp, kho dữ liệu điển hình hỗ trợ phân tích xu
hướng và chuỗi thời gian, cả hai đều đòi hỏi dữ liệu quá khứ hơn là dữ liệu hiện tại.
So sánh với cơ sở dữ liệu tác nghiệp, kho dữ liệu là ít thay đổi thường
xuyên và có thể được coi là non-real-time updating. Trong các hệ thống tác nghiệp,
giao tác là các đơn vị và là những tác nhân của sự thay đổi cơ sở dữ liệu. Ngược lại
thông tin trong kho dữ liệu là khá thô được “làm mới” theo chính sách lựa chọn cẩn
thận các thông tin, thông thường là gia tăng. Việc cập nhật kho được xử lý bởi một
bộ phận của kho.
Tổng quát hơn, kho dữ liệu là tập hợp các công nghệ hỗ trợ quyết định,
nhằm tạo điều kiện cho người lao động tri thức (hành pháp, quản lý và nhà phân

tích), để đi đến các quyết định tốt hơn và nhanh hơn. Hình 1 đưa ra tổng quan về
cấu trúc kho dữ liệu. Nó trình bày toàn bộ quá trình xử lý của kho dữ liệu, bao gồm
làm sạch và định dạng lại dữ liệu trước khi nạp vào kho. Quá trình này hiện nay
được điều khiển công cụ ETL (kết xuất, chuyển đổi, nạp). Tại cuối quá trình,
OLAP, data mining, và DSS có thể sinh ra các dữ liệu liên quan; và những thông
tin này lại được đưa về kho. Nguồn dữ liệu có thể được chứa trong file.
Hình 1
Nhóm 4 – Cao học 2011 - 2013 Trang 6
Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến
Kho dữ liệu có những đặc điểm phân biệt sau:
+ Khung nhìn khái niệm đa chiều
+ Các chiều bình đẳng
+ Mức độ kết hợp và số chiều không hạn chế
+ Hoạt động không hạn chế chiều ngang
+ Xử lý động ma trận thưa
+ Kiến trúc khách/chủ
+ Hỗ trợ đa người dùng
+ Dễ truy cập
+ Trong suốt
+ Thao tác dữ liệu trực quan
+ Thực thi báo cáo nhất quán
+ Báo cáo linh hoạt
Bởi vì chúng bao gồm khối lượng lớn dữ liệu, kho dữ liệu thông thường
khuyếch đại lớn hơn một cấp (đôi khi hai cấp khuyếch đại) so với nguồn cơ sở dữ
liệu.
Dung lượng tuyệt đối của dữ liệu (có khả năng đạt đến terabytes) là một vấn
đề đã được giải quyết thông qua kho dữ liệu doanh nghiệp, kho dữ liệu ảo và siêu
thị dữ liệu.
Kho dữ liệu doanh nghiệp: là những dự án đòi hỏi đầu tư lớn về thời gian
và tài nguyên.

Kho dữ liệu ảo: cung cấp các khung nhìn giúp cho việc truy cập dữ liệu
được hiệu quả.
Siêu thị dữ liệu: thông thường được ngắm đến một tập con của tổ chức, như
một phòng ban, và có mục tiêu khá chặt chẽ.
3 Mô hình dữ liệu cho kho dữ liệu
Mô hình đa chiều mang lại lợi ích cho các mối quan hệ kế thừa trong dữ
liệu để đưa dữ liệu vào ma trận đa chiều được gọi là khối dữ liệu. Có thể gọi siêu
khối nếu nó có hơn ba chiều. Đối với dữ liệu mà định dạng theo chiều, việc thực
hiện các truy vấn trong ma trận đa chiều có thể tốt hơn nhiều so với mô hình dữ
liệu quan hệ. Ví dụ về dữ liệu đa chiều trong kho dữ liệu: chu kỳ, sản phẩm, vùng
của một công ty.
Nhóm 4 – Cao học 2011 - 2013 Trang 7
Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến
Một bảng tính chuẩn là một ma trận hai chiều. Một ví dụ cho bảng tính của
việc kinh doanh theo vùng được thể hiện bởi chiều sản phẩm và chiều thời gian.
Sản phẩm thể hiện ở hàng và tổng thu nhập cho mỗi vùng thể hiện ở cột. Hình 2
cho thấy cách tổ chức hai chiều này. Thêm vào chiều thời gian như là một quí tài
chính tổ chức được ma trận ba chiều
Hình 2 Mô hình ma trận 2 chiều
Hình 3 cho thấy khối dữ liệu 3 chiều được tổ chức bởi sản phẩm, quí (thời
gian) và vùng (vị trí địa lí). Mỗi ô có thể chứa dữ liệu về một sản phẩm, quí và
vùng. Bằng cách thêm vào các chiều, một siêu khối dữ liệu có thể được tạo ra, mặc
dù nhiều hơn ba chiều có thể gây ra sự khó khăn trong trực quan hoá hay biểu diễn
dưới dạng biểu đồ. Dữ liệu có thể được truy vấn trực tiếp theo một tổ hợp các chiều
nào đó qua các truy vấn phức tạp. Có các công cụ cho phép người dùng xem dữ
liệu theo chiều.
Hình 3 Mô hình khối dữ liệu 3 chiều
Nhóm 4 – Cao học 2011 - 2013 Trang 8
Reg 1
Reg 2 Reg 3

Region

P123
P124
P125
P126

Product
P123
P124
P125
P126
P127

Product
Fiscal-quarter
Qtr1
Qtr2
Qtr3
Qtr4
Reg1
Reg2

Reg3
Region
Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến
Việc thay đổi từ chiều này sang chiều khác được thực hiện một cách dễ
dàng bằng một kỹ thuật gọi là pivoting (phép quay). Trong kỹ thuật này khối dữ
liệu có thể quay để hiển thị theo các hướng khác nhau của hệ trục. Ví dụ, bạn phải
xoay khối dữ liệu để hiển thị thu nhập bán hàng tại địa phương như là hàng (trục

ngang), tổng thu nhập theo quý tài chính như là cột (trục đứng), và các sản phẩm
của công ty trong chiều thứ ba (hình 4). Do vậy, kỹ thuật này là tương đương với
có một bảng bán hàng địa phương cho mỗi sản phẩm tách biệt nhau, nơi mỗi bảng
hiển thị bán hàng theo quý cho sản phẩm đó theo từng vùng.
Mô hình đa chiều tự nó có khuynh hướng dẫn đến các cách xem dữ liệu
phân cấp được gọi là kiểu trình bày roll-up (cuộn lên) hoặc Drill-down (cuộn
xuống). Kiểu trình bày Roll-up di chuyển lên (trong mô hình phân cấp) nhóm
thành các khối dữ liệu lớn hơn theo một chiều. VD: tính tổng dữ liệu hàng tuần
theo quý hoặc theo năm. Hình 5 biểu diễn cách trình bày roll-up, di chuyển từ các
sản phẩm riêng biệt thành các nhóm loại sản phẩm. Biểu diễn H.29.6 biểu diễn
Drill-down thì ngược lại, phân tách các sản phẩm bán cho quốc gia theo vùng miền
và sản phẩm bán theo vùng miền thành các vùng miền địa phương và có thể tách
sản phẩm thành ra các kiểu loại.
Hình 4 Phép quay khối dữ liệu từ hình 3
Nhóm 4 – Cao học 2011 - 2013 Trang 9
Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến
Hình 5 Thao tác roll-up
Sub_reg
1
Sub_reg
2
Sub_reg
3
Sub_reg
4
Sub_reg
1
P123
Styles
A

B
C
D
P124
Styles
A
B
C
P125
Styles
A
B
C
D
Hình 6 Thao tác drill-down
Nhóm 4 – Cao học 2011 - 2013 Trang 10
Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến
Mô hình kho đa chiều bao gồm hai kiểu bảng: Bảng chiều và bảng sự kiện
(fact). Bảng chiều (dimension table) gồm các bộ thuộc tính của chiều. Bảng fact
(Fact table) có thể xem như là các bộ, một bộ là một bản ghi sự kiện được ghi nhận.
Fact này chứa các biến đo được hay quan sát được và định danh chúng bằng các
con trỏ trỏ đến các bảng chiều. Bảng fact chứa dữ liệu và các chiều trong mỗi bộ dữ
liệu. H.29.7 chứa một VD về bảng fact mà có thể xem từ phối cảnh các bảng đa
chiều.
Hai lược đồ đa chiều phổ biến là lược đồ hình sao và lược đồ hình bông
tuyết. Lược đồ hình sao bao gồm một bảng fact và các bảng chiều, mỗi bảng là một
chiều (hình 7). Lược đồ hình bông tuyết là một biến thể của lược đồ hình sao trong
đó các bảng chiều từ lược đồ hình sao đã được chuẩn hóa. Một số cài đặt đang
chuẩn hoá kho dữ liệu về dạng 3NF để có thể truy cập kho dữ liệu với mức độ chi
tiết tốt nhất. Một tập sự kiện là một tập hợp các bảng fact, nó chia sẻ một số chiều

của bảng. Hình 9 hiển thị một bảng tập hợp sự kiện với 2 bảng sự kiện, những kết
quả kinh doanh và dự báo kinh doanh. Chúng chia sẻ chiều sản phẩm. Bảng tập hợp
sự kiện giới hạn các truy vấn có thể thực hiện được của kho dữ liệu.
Hình 7 Một lược đồ hình sao cùng với bảng sự kiện và bảng chiều
Lưu trữ kho dữ liệu cũng sử dụng kỹ thuật lập chỉ mục để tăng tốc độ truy
cập. Một kỹ thuật được gọi là chỉ mục bitmap xây dựng một bit véc tơ cho mỗi giá
trị trong một miền (cột) đang được đánh chỉ mục. Nó hoạt động rất tốt đối với các
miền có bản số thấp. Có một bit 1 được đặt trong vị trí thứ j trong vector nếu hàng
thứ j có chứa các giá trị được lập chỉ mục. Ví dụ, hãy tưởng tượng một hàng tồn
kho có 100000 xe hơi với một chỉ mục bitmap kích thước xe. Nếu có bốn kích cỡ
xe thì sẽ có bốn bit véc tơ, mỗi véc tơ chứa 100000 bit (12.5K), tổng kích cỡ chỉ
Nhóm 4 – Cao học 2011 - 2013 Trang 11
Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến
mục là 50K. Với các bit vectors một chỉ mục bitmap có thể cung cấp cải tiến đáng
kể trong so sánh, tổng hợp, và hiệu quả nối.
Hình 8 Lược đồ hình sao
Hình 9 Một bảng tập hợp sự kiện
Trong một lược đồ hình sao, chiều dữ liệu có thể được lập chỉ mục để tạo
từng bộ trong bảng sự kiện bằng cách nối chỉ mục. Nối chỉ mục là lập chỉ mục để
duy trì mối quan hệ giữa giá trị khoá chính và giá trị khóa ngoài. Chúng liên quan
các giá trị một chiều của một lược đồ hình sao tới các hàng trong bảng sự kiện. Ví
dụ, xem xét bảng sự kiện bán hàng có thành phố và quý tài chính như các chiều.
Nếu có một đường nối chỉ mục trên thành phố, mỗi thành phố có đường nối chỉ
mục duy trì các bộ ID của các bộ chứa thành phố đó. Các đường nối lập chỉ mục có
thể liên quan tới đa chiều.
Lưu trữ kho dữ liệu có thể tạo điều kiện thuận lợi để truy cập vào dữ liệu
tóm tắt bằng việc thêm ưu điểm tính chất cố định của kho dữ liệu và mức độ tin cậy
được của các phân tích sẽ được thực hiện bằng cách sử dụng chúng. Hai phương
Nhóm 4 – Cao học 2011 - 2013 Trang 12
Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến

pháp tiếp cận đã được sử dụng: (1) các bảng nhỏ hơn bao gồm dữ liệu tóm tắt như
bán hàng hàng quý hoặc doanh thu của dòng sản phẩm, và (2) mã hóa các cấp độ
(ví dụ, hàng tuần, hàng quý, hàng năm) vào bảng hiện có. Bằng cách so sánh, tổng
chi phí của việc tạo và duy trì như những tổng hợp có khả năng hơn trong một cơ
sở dữ liệu hướng giao tác linh động.
4. Xây dựng kho dữ liệu
Trong việc xây dựng một kho dữ liệu, người xây dựng nên có cách nhìn mở
rộng các dự đoán của việc sử dụng kho dữ liệu. Không có cách nào để dự đoán tất
cả các truy vấn có thể hoặc các phân tích trong suốt giai đoạn thiết kế. Tuy nhiên,
việc thiết kế nên hỗ trợ mô hình truy vấn ad-hoc, có nghĩa là, truy cập dữ liệu cùng
với bất kỳ sự kết hợp có ý nghĩa nào các giá trị của các thuộc tính trong bảng chiều
hoặc bảng sự kiện. Ví dụ: một công ty tiếp thị - thị trường tập trung - sản xuất sẽ
yêu cầu những cách khác nhau để tổ chức kho dữ liệu hơn so với một tổ chức phi
lợi nhuận tập trung vào việc nâng cao quỹ. Một lược đồ phù hợp cần được lựa chọn
để phản ánh dự đoán sử dụng.
Sự thu thập dữ liệu cho các kho dữ liệu bao gồm các bước sau:
 Dữ liệu phải được trích xuất từ nhiều nguồn hỗn tạp khác nhau
 Dữ liệu phải được định dạng một cách nhất quán trong kho dữ liệu.
Tên, ý nghĩa, và miền trị phải được làm cho tương thích. Ví dụ, các công ty con,
các chi nhánh của một tập đoàn lớn có thể có các lịch biểu tài chính khác nhau với
quý kết thúc vào ngày khác nhau, gây cho nó khó khăn để tổng hợp dữ liệu tài
chính của quý. Các loại thẻ tín dụng của họ có thể báo cáo các giao dịch khác nhau,
gây cho nó khó tính tất cả các thẻ tín dụng kinh doanh. Các định dạng mâu thuẫn
nhau phải được giải quyết.
 Dữ liệu phải được làm sạch để đảm bảo hiệu lực. Làm sạch dữ liệu
là một quá trình phức tạp và được xem như là thành phần đòi hỏi nhiều công sức
nhất của việc xây dựng kho dữ liệu. Dữ liệu phải được làm sạch trước khi được
load vào kho dữ liệu. Làm sạch dữ liệu là đặc biệt dành cho kho dữ liệu và có thể
không được áp dụng cho một cơ sở dữ liệu máy chủ. Tuy nhiên, vì đầu vào dữ liệu
phải được kiểm tra và định dạng nhất quán, người xây dựng kho dữ liệu có cơ hội

để kiểm tra hiệu lực và chất lượng. Việc đoán nhận dữ liệu sai lầm và không đầy đủ
khó để tự động hóa, và sự làm sạch mà yêu cầu sửa lỗi tự động có thể thậm chí còn
khó khăn hơn. Một số khía cạnh, như kiểm tra miền trị là dễ dàng được cài đặt vào
trong thủ tục làm sạch dữ liệu, nhưng nhận dạng tự động của những vấn đề của dữ
liệu có thể đặt ra nhiều thử thách hơn. (Ví dụ, một yêu cầu rằng City = 'San
Francisco' cùng với State = 'CT' được công nhận như là một sự kết hợp không
chính xác). Sau khi những vấn đề như vậy đã được chú ý, dữ liệu tương tự từ
Nhóm 4 – Cao học 2011 - 2013 Trang 13
Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến
những nguồn khác phải được kết hợp để tải vào trong kho dữ liệu. Như các nhà
quản lý dữ liệu trong các tổ chức phát hiện rằng dữ liệu của họ đang được làm sạch
cho vào kho dữ liệu, họ sẽ có khả năng muốn nâng cấp dữ liệu của họ với dữ liệu
được làm sạch. Quá trình dữ liệu được làm sạch trở lại về nguồn được gọi là
backflushing (xem Hình 1).
 Các dữ liệu phải được đưa vào mô hình dữ liệu của kho dữ liệu.
Dữ liệu từ nhiều nguồn khác nhau cần phải được cài đặt trong các mô hình dữ liệu
của kho dữ liệu. Dữ liệu có thể phải được chuyển đổi từ cơ sở dữ liệu quan hệ,
hướng đối tượng, hoặc kế thừa (mạng và / hoặc phân cấp) đến một mô hình đa
chiều.
 Dữ liệu cần phải được nạp vào trong kho dữ liệu. Dung lượng của
dữ liệu trong kho dữ liệu, làm cho việc tải dữ liệu là một vấn đề quan trọng. Các
công cụ giám sát cũng như các phương pháp phục hồi trong trường hợp tải không
đầy đủ hoặc không chính xác là bắt buộc. Với khối lượng lớn dữ liệu trong kho dữ
liệu, tăng cập nhật thường chỉ là cách tiếp cận khả thi. Các chính sách làm mới sẽ
hầu như chắc chắn nổi bật lên như là một sự thỏa hiệp rằng sẽ đưa vào tài khoản
các câu trả lời cho những câu hỏi dưới đây:
- Dữ liệu phải được cập nhật như thế nào?
- Kho dữ liệu có thể offline, và trong thời gian bao lâu?
- Dữ liệu phụ thuộc vào những gì?
- Tính sẵn sàng của việc lưu trữ là gì?

- Những yêu cầu của sự phân tán là gì (ví dụ như cho tính tái tạo và phân
vùng)?
- Thế nào là thời gian tải (bao gồm làm sạch, định dạng, sao chép, vận
chuyển, và chi phí như xây dựng lại chỉ mục)?
Những cơ sở dữ liệu phải tạo nên một sự cân bằng giữa hiệu quả trong xử lý
giao tác và hỗ trợ các yêu cầu truy vấn (những yêu cầu đặc biệt của người dùng),
nhưng một kho dữ liệu là thường được tối ưu hoá cho truy cập từ một quyết định
của người ra quyết định. Lưu trữ dữ liệu trong một kho dữ liệu phản ánh sự chuyên
môn hoá này và liên quan đến các quy trình sau đây:
 Lưu dữ liệu theo mô hình dữ liệu của các kho dữ liệu
 Tạo và duy trì cấu trúc dữ liệu yêu cầu
 Tạo và duy trì đường dẫn truy cập thích hợp
 Cung cấp dữ liệu biến đổi theo thời gian như một dữ liệu mới được
thêm
Nhóm 4 – Cao học 2011 - 2013 Trang 14
Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến
 Hỗ trợ cập nhật kho dữ liệu
 Làm mới dữ liệu
 Dọn dẹp dữ liệu
Mặc dù thời gian tương xứng có thể dành cho việc xây dựng kho dữ liệu
ban đàu, số lượng lớn dữ liệu trong kho thường làm cho nó không thể chỉ đơn giản
là tải lại toàn bộ kho dữ liệu sau đó. Những sự thay thế bao gồm việc làm mới có
chọn lựa (từng phần) của dữ liệu và các phiên bản riêng biệt kho dữ liệu (yêu cầu
khả năng lưu trữ gấp đôi cho các kho!). Khi kho dữ liệu sử dụng một cơ chế làm
tươi dữ liệu lớn, dữ liệu có thể cần phải được định kỳ làm sạch; ví dụ, một kho dữ
liệu bảo trì dữ liệu có thể làm sạch các dữ liệu theo định kỳ mỗi năm. Kho dữ liệu
cũng phải được thiết kế với sự xem xét đầy đủ của môi trường mà nó cư trú. Những
điều quan trọng cần lưu ý khi thiết kế:
 Dự đoán các phương án sử dụng
 Phù hợp các mô hình dữ liệu

 Đặc tính của những nguồn có sẵn
 Thiết kế các thành phần siêu dữ liệu
 Thiết kế thành phần modular
 Thiết kế cho khả năng quản lý và thay đổi
 Những lưu ý về kiến trúc phân tán và song song
Thiết kế kho dữ liệu ban đầu sử dụng những dự đoán sử dụng; có nghĩa là,
bởi những mong đợi về ai sẽ sử dụng kho dữ liệu và sử dụng nó như thế nào. Sự
lựa chọn của một mô hình dữ liệu để hỗ trợ cách dùng này là một quyết định khởi
đầu quan trọng. Những dự đoán cách dùng và các đặc tính của các nguồn dữ liệu
của kho được đưa vào account. Thiết kế modular thực sự cần thiết để cho phép kho
dữ liệu phát triển với các tổ chức và các môi trường thông tin. Ngoài ra, một kho
dữ liệu được xây dựng tốt phải thiết kế cho vấn đề bảo trì, cho phép cho các nhà
quản lý kho dữ liệu lên kế hoạch và quản lý các thay đổi có hiệu quả trong khi cung
cấp các hỗ trợ tối ưu cho người sử dụng.
Các kiến trúc của các môi trường tính toán phân tán của tổ chức là một
đặc tính xác định chủ yếu cho việc thiết kế kho.
Có hai kiến trúc phân tán cơ bản: kho phân tán và liên kho. Để có một kho
phân tán, tất cả các vấn đề của các cơ sở dữ liệu phân tán phải được quan tâm thích
đáng, ví dụ: nhân bản, phân vùng, truyền thông, và tính nhất quán. Một kiến trúc
phân tán có thể cung cấp các lợi ích đặc biệt quan trọng đối với hiệu quả hoạt động
của một kho dữ liệu, chẳng hạn như cải thiện cân bằng tải, nâng cao hiệu quả hoạt
Nhóm 4 – Cao học 2011 - 2013 Trang 15
Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến
động, và tính khả dụng cao hơn. Một siêu dữ liệu được nhân bản sẽ lưu trữ ở một
site phân tán. Ý tưởng của kho dữ liệu liên kết (federated warehouse) giống cơ sở
dữ liệu liên kết: một liên minh các kho dữ liệu, mỗi một thành phần lưu trữ siêu dữ
liệu của nó. Với độ lớn của kho dữ liệu, có khả năng các liên minh như vậy sẽ bao
gồm các thành phần nhỏ hơn chẳng hạn như data mart. Các tổ chức lớn có thể chọn
để liên kết data mart hơn là đầu tư xây dựng những kho dữ liệu lớn.
5. Chức năng tiêu biểu của một kho dữ liệu

Kho dữ liệu làm giảm nhẹ sự phức tạp, dữ liệu chuyên sâu, và thường
xuyên của truy vấn adhoc. Theo đó, kho dữ liệu phải cung cấp và hỗ trợ các truy
vấn mạnh hơn và tiện lợi hơn so với csdl giao tác.Kho dữ liệu hổ trợ các thành
phần làm tăng cường chức năng tính toán, xử lý truy vấn hiệu quả, các truy vấn có
cấu trúc, truy vấn ad hoc, khai phá dữ liệu, các khung nhìn cụ thể hóa. Đặc biệt,
chức năng tính toán tăng cường bao gồm các ứng dụng bảng biểu tiên tiến (ví dụ
MS Excel) cũng như các chương trình ứng dụng OLAP. Chúng cung cấp các chức
năng được xây dựng sẵn như sau:
- Roll-up: dữ liệu được tóm tắt với khả năng tăng tính tổng quát (ví dụ
hàng ngày đến hàng quý đến hàng năm)
- Drill-down: tăng mức độ chi tiết của dữ liệu được hiển thị.
- Pivot: lập bảng chéo
- Slice and dice: phép chiếu được thực hiện trên các chiều.
- Sorting: dữ liệu được sắp xếp theo thứ tự
- Selection: dữ liệu có sẵn theo giá trị hoặc theo vùng.
- Derived (computed) attributes: các thuộc tính được tính toán dựa trên
các giá trị được lưu trữ và giá trị gốc.
Bởi vì kho dữ liệu không bị hạn chế của môi trường giao dịch, nên hiệu quả
tăng lên trong xử lý truy vấn. Một trong số các công cụ và kỹ thuật được sử dụng là
sự chuyển đổi truy vấn, chỉ số giao nhau và hợp nhất; đặc biệt chức năng ROLAP
(OLAP quan hệ) và MOLAP (OLAP đa chiều); SQL mở rộng; mở rộng các
phương pháp liên kết và quét thông minh( như sao lưu nhiều truy vấn)
Cải thiện hiệu suất cũng đã đạt được với xử lý song song. Kiến trúc máy
chủ song song bao gồm đa xử lý đối xứng (SMP), và xử lý song song lớn (MPP) và
sự kết hợp giữa chúng.
Sự hiểu biết của người làm và quyết định của nhà sản xuất là sử dụng các
công cụ khác nhau từ truy vấn tham sô đến truy vấn ad hoc, đến khai phá dữ liệu.
Vì vậy, thành phần truy cập của các kho dữ liệu phải cung cấp hỗ trợ cho các truy
Nhóm 4 – Cao học 2011 - 2013 Trang 16
Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến

vấn có cấu trúc (cả tham số và ad hoc). Cùng với nhau, tạo nên môi trường quản lý
truy vấn. Khai phá dữ liệu sử dụng các kỹ thuật phân tích thống kê và trí trí thuệ
nhân tạo. Phân tích thống kê có thể được thực hiện bằng bảng tính tiên tiến, bởi
phần mềm phân tích thống kê phức tạp, hoặc bởi các chương trình đặt hàng. Các kỹ
thuật như làm chậm, tính trung bình, và phân tích quy hồi cũng được sử dụng phổ
biến. Kỹ thuật trí tuệ nhân tạo, có thể bao gồm các thuật toán di truyền và mạng
noron, được sử dụng để phân loại và để khám phá tri thức từ kho dữ liệu mà có thể
bất ngờ hoặc khó khăn để xác định trong các truy vấn. (Chúng ta đã đề cập đến
khai phá dữ liệu ở chương 28).
6. Kho dữ liệu so với khung nhìn
Một số người xem kho dữ liệu là một phần mở rộng của khung nhìn dữ liệu.
Trước đó đã đề cập khung nhìn như là một cách để đáp ứng yêu cầu cho việc cải
tiến xử lý dữ liệu. Tuy nhiên, khung nhìn chỉ cung cấp một số chức năng và khả
năng của kho dữ liệu. Khung nhìn và kho dữ liệu giống nhau ở chỗ cả hai đều có
những rút trích chỉ đọc từ cơ sở dữ liệu và hướng chủ thể. Tuy nhiên, kho dữ liệu
khác với khung nhìn ở các điểm:
- Kho dữ liệu lưu trữ liên tục thay vì được khai báo theo nhu cầu.
- Kho dữ liệu thường không phải là quan hệ, mà là đa chiều. Khung nhìn
của một cơ sở dữ liệu quan hệ là quan hệ.
- Kho dữ liệu có thể được lập chỉ mục để tối ưu hóa hiệu suất. Khung nhìn
không thể được lập chỉ mục độc lập với cơ sở dữ liệu nền.
- Kho dữ liệu đặc trưng cung cấp các chức năng hổ trợ cụ thể, khung nhìn
thì không.
- Kho dữ liệu cung cấp một lượng lớn dữ liệu tích hợp và dữ liệu thời gian,
trong khi khung nhìn là một rút trích của một cơ sở dữ liệu
7. Các vấn đề khó khăn và hướng mở về kho dữ liệu
7.1 Khó khăn trong cài đặt kho dữ liệu
- Một số vấn đề ý nghĩa nảy sinh cùng với kho dữ liệu đó là việc xây dựng,
quản trị và điều khiển chất lượng. Quản lý dự án - gồm thiết kế, xây dựng, cài đặt
kho dữ liệu - là quan trong và đầy thách thức mà cần đươc xác định đúng mức.

Việc xây dựng một kho rộng lớn trong một tổ chức lớn là một vấn đề chính, có khả
năng mất nhiều năm từ khi xây dựng khái niệm đến khi cài đặt. Vì sự khó khăn và
lượng thời gian lớn đòi hỏi sự quyết tâm, việc phát triển rộng khắp và triển khai
chợ dữ liệu có thể cung cấp sự lựa chọn hấp dẫn, đặc biệt đối với những tổ chức mà
cần OLAP, DSS và (hoặc) hỗ trợ khai phá dữ liệu.
Nhóm 4 – Cao học 2011 - 2013 Trang 17
Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến
- Quản trị kho dữ liệu là một công việc cần nhiều sức lực tương ứng với
kích cỡ và độ phức tạp của kho. Một tổ chức có quản trị kho dữ liệu phải hiểu thực
tế sự phức tạp của việc quản trị. Mặc dù được thiết kế để đọc, một kho dữ liệu
không phải là một cấu trúc tĩnh hơn bất kỳ nguồn thông tin nào của nó. Cơ sở dữ
liệu nguồn có thể mong đợi được lấy ra. Giản đồ kho dữ liệu và thành phần thu
được phải được mong đợi được cập nhật để xử lý những dữ liệu lấy ra.
- Một vấn đề có ý nghĩa trong kho dữ liệu là kiểm tra chất lượng của dữ
liệu. Cả chất lượng và tính nhất quán của dữ liệu là những vấn đề chính. Mặc dù dữ
liệu đã được làm sạch trong khi thu nhận thì chất lượng và tính nhất quán vẫn là
vấn đề đối với người quản trị cơ sở dữ liệu. Dữ liệu được lấy từ các nguồn không
đồng nhất nên đó là một khó khăn khi đặt tên, xác định miền trị, xác định số lượng,
… Mỗi lần có sự thay đổi cơ sở dữ liệu nguồn, người quản trị kho dữ liệu phải xem
xét sự giao nhau có thể của các thành phần trong kho với nhau.
- Đề án sử dụng nên được đánh giá thận trọng trước khi xây dựng kho dữ
liệu và chỉnh sửa liên tục để phản ánh được đòi hỏi hiện tại. Khi các mẫu sử dụng
trở nên rõ ràng và thay đổi theo thời gian, lưu trữ và đường dẫn truy cập có thể
được điều chỉnh để giữ tối ưu cho việc hỗ trợ trong sử dụng của tổ chức của kho dữ
liệu. Hoạt động này nên liên tục trong cả vòng đời của kho dữ liệu để duy trì việc
đáp ứng nhu cầu. Kho cũng có thể được thiết kế để phù hợp giữa sự bổ sung và sự
tiêu hao của dữ liệu nguồn mà không phải thiết kế lại. Nguồn và dữ liệu nguồn sẽ
đưa ra và kho phải thích nghi với sự thay đổi. Làm cho dữ liệu thích hợp trong mô
hình dữ liệu của kho vẫn là một thách thức về tính nghệ thuật lẫn tính khoa học. Vì
liên tục có sự thay đổi lớn về công nghệ nên cả yêu cầu lẫn khả năng của kho sẽ

thay đổi theo thời gian. Thêm vào đó, chính công nghệ kho dữ liệu sẽ tiếp tục đưa
ra vì liên tục cập nhật các chức năng và cấu trúc các thành phần. Sự thay đổi chắc
chắn này là động lực tuyệt vời cho việc có những thiết kế đầy đủ cho các thành
phần.
- Việc quản trị kho dữ liệu sẽ đòi hỏi kỹ năng rộng hơn và cao hơn là quản
trị cơ sở dữ liệu truyền thống. Một nhóm được trang bị kỹ năng chuyên gia công
nghệ với sự thành thạo kỹ năng hơn là từng cá nhân riêng biệt. Giống như việc
quản trị CSDL, việc quản trị kho dữ liệu chỉ là một phần của công nghệ, phần lớn
khác đòi hỏi phải hoạt động hiệu quả trong tổ chức quan tâm đến kho dữ liệu. Do
đó có nhiều thách thức cho người quản trị kho dữ liệu như phạm vi trách nhiệm
rộng quá.
- Thiết kế các chức năng quản lý và chọn đội ngũ quản lý cho một kho dữ
liệu là mang tính quyết định. Quản lý kho dữ liệu cho một tổ chức lớn chắc chắn là
một nhiệm vụ lớn. Nhiều công cụ có sẵn hỗ trợ các chức năng quản lý. Việc quản
lý kho dữ liệu là công việc của một nhóm, đòi hỏi kỹ năng rộng, sắp xếp cẩn thận
Nhóm 4 – Cao học 2011 - 2013 Trang 18
Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến
và quản lý hiệu quả. Chúng ta cần chuẩn bị cho sự phát triển của kho dữ liệu, chúng
ta cần tổ chức các nhóm quản lý sẽ phát triển cùng nó.
7.2 Hướng mở của kho dữ liệu
- Có nhiều quảng cáo cường điệu xung quanh thuật ngữ kho dữ liệu, sự
mong đợi phóng đại có thể sẽ bị giảm xuống nhưng khái niệm vầ tập hợp dữ liệu
được tích hợp để hỗ trợ sự phân tích phức tạp hay hỗ trợ ra quyết định sẽ chắc chắn
tồn tại.
- Kho dữ liệu với tư cách là một lĩnh vực nghiên cứu năng động dường như
được xem là những hoạt động nghiên cứu trong tương lai gần như sự sinh sôi nảy
nở của kho dữ liệu và chợ dữ liệu. Một vấn đề cũ vấn được nhấn mạnh ví dụ như
làm sạch dữ liệu, chỉ mục, phân vùng và khung nhìn có thể nhận được sự quan tâm
mới lại.
- Nội dung nghiên cứu trong các công nghệ kho dữ liệu sẽ tập trung vào

lĩnh vực tự động của kho dữ liệu mà hiện đang thủ công như thu thập dữ liệu, quản
lý chất lượng dữ liệu, chọn và xây dựng các đường dẫn và cấu trúc truy cập tương
ứng , tự bảo trì, tối ưu. Ứng dụng các chức năng của CSDL vào trong kho dữ liệu
cũng được quan tâm. Sự kết hợp của lĩnh vực với luật thương mại tương ứng trong
tiến trình sáng tạo kho dữ liệu và duy trì nó có thể làm nó thông minh, phù hợp và
tự quản.
- Phần mềm thương mại cho kho dữ liệu là có sẵn từ một số nhà cung cấp,
đặt nặng vào quản lý kho dữ liệu và ứng dụng OLAP/DSS. Lĩnh vực khác của kho
dữ liệu như thiết kế và thu thập dữ liệu (đặc biệt là làm sạch) đang là vấn đề quan
tâm của các chuyên gia và người quản lý IT.
Nhóm 4 – Cao học 2011 - 2013 Trang 19
Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến
PHẦN III: BÀI TẬP
1. a>Kho dữ liệu là gì?
Theo W.H.Inmon kho dữ liệu là tập hợp dữ liệu có tính hướng chủ thể, tích
hợp, bền vững, biến thời gian và dùng để hỗ trợ cho các quyết định của người quản

b>Sự khác nhau giữa kho dữ liệu và cơ sở dữ liệu :
• Kho dữ liệu chủ yếu tối ưu hóa cho truy cập dữ liệu, vơ sở dữ liệu
truyền thống là sự giao tác và được tối ưu cho cả kỹ thuật truy cập lẫn đảm bảo tính
toàn vẹn.
• Kho dữ liệu nhấn mạnh hơn về các dữ liệu quá khứ với mục đích
chính là hỗ trợ phân tích xu hướng và chuỗi thời gian.
• So với cơ sở dữ liệu truyền thống, kho dữ liệu có tính bền vững.
• Trong cơ sở dữ liệu truyền thống, các giao tác làm thay đổi cơ sở dữ
liệu. Ngược lại,thông tin trong kho dữ liệu là tương đối thô và chính sách làm tươi
được lựa chọn cẩn thận, thường là tăng cường.
2. Định nghĩa các thuật ngữ : OLAP, ROLAP, MOLAP, DSS
OLAP : là thuật ngữ được sử dụng để mô tả sự phân tích dữ liệu phức tạp từ
kho dữ liệu. Công cụ OLAP sử dụng khả năng tính toán phân tán để phân tích

những yêu cầu đòi hỏi nhiều khả năng lưu trữ và xử lý hơn là về kinh tế và hiệu quả
trên một máy tính riêng lẻ.
DSS : cũng được biết như EIS (hệ thống thông tin lãnh đạo) (không nhầm
lẫn với hệ thống thông tin mức xí nghiệp (enterprise integration system) hỗ trợ cho
quyết định của lãnh đạo của một tổ chức với dữ liệu mức độ cao hơn cho những
quyết định quan trọng và phức tạp
ROLAP : xử lý phân tích trực tuyến quan hệ
MOLAP : xử lý phân tích trực tuyến đa chiều
3. Đặc điểm của kho dữ liệu :
+ Khung nhìn khái niệm đa chiều
+ Các chiều bình đẳng
+ Mức độ kết hợp và số chiều không hạn chế
+ Hoạt động không hạn chế chiều ngang
+ Xử lý động ma trận thưa
Nhóm 4 – Cao học 2011 - 2013 Trang 20
Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến
+ Kiến trúc khách/chủ
+ Hỗ trợ đa người dùng
+ Dễ truy cập
+ Trong suốt
+ Thao tác dữ liệu trực quan
+ Thực thi báo cáo nhất quán
+ Báo cáo linh hoạt
Phân loại kho dữ liệu :
Kho dữ liệu doanh nghiệp: là những dự án đòi hỏi đầu tư lớn về thời gian
và tài nguyên.
Kho dữ liệu ảo: cung cấp các khung nhìn giúp cho việc truy cập dữ liệu
được hiệu quả.
Siêu thị dữ liệu: thông thường được ngắm đến một tập hợp con của tổ chức,
như một phòng ban, và có mục tiêu khá chặt chẽ.

4. Mô hình dữ liệu đa chiều:
Mô hình đa chiều mang lại lợi ích cho các mối quan hệ kế thừa trong dữ
liệu để đưa dữ liệu vào ma trận đa chiều được gọi là khối dữ liệu. Có thể gọi siêu
khối nếu nó có hơn ba chiều. Đối với dữ liệu mà định dạng theo chiều, việc thực
hiện các truy vấn trong ma trận đa chiều có thể tốt hơn nhiều so với mô hình dữ
liệu quan hệ
5. Định nghĩa các thuật ngữ:
• Star Schema (lược đồ hình sao): Bao gồm một bảng sự kiện bao quanh
bởi các bảng chiều.
• Snowflake (lược đồ bông tuyết): Là một biến thể của lược đồ hình sao
trong đó các bảng chiều từ lược đồ hình sao đã được chuẩn hóa
• Fact Constellation (tập sự kiện): Một tập sự kiện là một tập hợp các
bảng fact, nó chia sẻ một số chiều của bảng
• Data Marts (Siêu thị dữ liệu): là CSDL có những đặc điểm giống với
kho dữ liệu nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một
chuyên ngành. Data Mart là kho dữ liệu hướng chủ đề. Các DM có thể được hình
thành từ một tập con dữ liệu của kho dữ liệu hoặc cũng có thể được xây dựng độc
lập và sau khi xây dựng xong, các DM có thể được kết nối tích hợp lại với nhau tạo
thành kho dữ liệu
Nhóm 4 – Cao học 2011 - 2013 Trang 21
Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến
6. Loại chỉ mục nào được xây dựng cho kho dữ liệu?
Trả lời: Chỉ mục bitmap, chỉ mục bitmap xây dựng một bit véc tơ cho mỗi
giá trị trong một miền (cột) đang được đánh chỉ mục. Nó hoạt động rất tốt đối với
các miền có bản số thấp. Có một bit 1 được đặt trong vị trí thứ j trong vector nếu
hàng thứ j có chứa các giá trị được lập chỉ mục.
Ví dụ: hãy tưởng tượng một hàng tồn kho có 100000 xe hơi với một chỉ
mục bitmap kích thước xe. Nếu có bốn kích cỡ xe thì sẽ có bốn bit véc tơ, mỗi véc
tơ chứa 100000 bit (12.5K), tổng kích cỡ chỉ mục là 50K
7. Mô tả các bước xây dựng kho dữ liệu:

 Dữ liệu phải được trích xuất từ nhiều nguồn hỗn tạp khác nhau
 Dữ liệu phải được định dạng một cách nhất quán trong kho dữ liệu.
 Dữ liệu phải được làm sạch để đảm bảo hiệu lực
 Các dữ liệu phải được đưa vào mô hình dữ liệu của kho dữ liệu.
 Dữ liệu cần phải được nạp vào trong kho dữ liệu.
8. Những điều quan trọng cần lưu ý khi thiết kế một kho dữ liệu:
 Dự đoán các phương án sử dụng
 Phù hợp các mô hình dữ liệu
 Đặc tính của những nguồn có sẵn
 Thiết kế các thành phần siêu dữ liệu
 Thiết kế thành phần modular
 Thiết kế khả năng quản lý và thay đổi
 Những lưu ý về kiến trúc phân tán và song song
9. Những chức năng mà người dùng có thể thực thi trên một kho dữ
liệu:
- Roll-up: dữ liệu được tóm tắt với khả năng tăng tính tổng quát (ví dụ
hàng ngày đến hàng quý đến hàng năm)
- Drill-down: tăng mức độ chi tiết của dữ liệu được hiển thị.
- Pivot: lập bảng chéo
- Slice and dice: phép chiếu được thực hiện dựa trên các chiều.
- Sorting: dữ liệu được sắp xếp theo thứ tự
- Selection: dữ liệu có hiệu lực theo giá trị hoặc theo vùng.
Nhóm 4 – Cao học 2011 - 2013 Trang 22
Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến
- Derived (computed) attributes: các thuộc tính được tính toán dựa trên
các giá trị được lưu trữ và giá trị gốc.
10. Khung nhìn quan hệ có liên quan đến kho dữ liệu như thế nào?
Chúng khác nhau cái gì?
Trả lời: Khung nhìn giúp cho việc truy cập dữ liệu được thuận lợi hơn.
Kho dữ liệu:

 Kho chứa dữ liệu
 Mô hình Đa chiều
 Được lập chỉ mục để
tối ưu hóa hiệu suất
 Có những chức năng
đặc biệt
 Khối lượng dữ liệu
khổng lồ tập hợp từ nhiều
CSDL
Views:
 Được khai báo theo
nhu cầu sử dụng
 Mô hình Quan hệ
 Không được lập chỉ
mục
 Không có
 Chỉ là một rút trích từ
CSDL
11. Các khó khăn của việc xây dựng kho dữ liệu:
• Việc xây dựng tốn nhiều thời gian
• Chất lượng và tính nhất quán của dữ liệu là vấn đề chính
• Các dự báo về việc sử dụng phải được cập nhật thường xuyên để đáp
ứng được các yêu cầu hiện tại
• Phải thiết kế để phù hợp với sự bổ sung và sự tiêu hao của dữ liệu
nguồn mà không phải thiết kế lại
• Việc quản trị kho dữ liệu sẽ đòi hỏi kỹ năng rộng hơn và cao hơn là
quản trị cơ sở dữ liệu truyền thống
12. Các vấn đề mở và các vấn đề cần nghiên cứu trong kho dữ liệu:
• Với triển vọng phát triển của kho dữ liệu, các vấn đề như làm sạch dữ
liệu, chỉ mục, phân vùng và khung nhìn có thể nhận được sự quan tâm

• Nội dung nghiên cứu trong các công nghệ kho dữ liệu sẽ tập trung vào
lĩnh vực tự động của kho dữ liệu mà hiện đang thủ công như thu thập dữ liệu, quản
lý chất lượng dữ liệu, chọn và xây dựng các đường dẫn và cấu trúc truy cập tương
ứng , tự bảo trì, tối ưu
Nhóm 4 – Cao học 2011 - 2013 Trang 23
Tổng quan về kho dữ liệu và xử lý phân tích trực tuyến
PHẦN IV: TÀI LIỆU THAM KHẢO
[1] Elmasri và Navathe, Fundamentals of Database Systems.
Nhóm 4 – Cao học 2011 - 2013 Trang 24

×