ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Giảng viên: PGS, TS. Hà Quang Thụy
Học viên: Lê Duy Tiến
Bùi Xuân Trọng
Nguyễn Quốc Thắng
Hà Nội, ngày 10 tháng 8 năm 2011
Báo cáo Tiểu luận
THIẾT KẾ KHO DỮ LIỆU
CHO MÔI TRƯỜNG THƯƠNG MẠI ĐIỆN TỬ
GiỚI THIỆU VỀ KHO DỮ LIỆU VÀ PHƯƠNG PHÁP LUẬN THIẾT KẾ
1
PHÂN TÍCH YÊU CẦU CHO KHO DỮ LIỆU THƯƠNG MẠI ĐIỆN TỬ
2
THIẾT KẾ LOGIC
3
THIẾT KẾ VẬT LÝ VÀ KẾT TẬP
4
KẾT
LUẬN
5
Đại học Công nghệ - ĐHQGHN
● Thương mại điện tử cung cấp việc chia sẻ thông tin kinh
doanh, duy trì mối quan hệ kinh doanh, và tiến hành giao
dịch kinh doanh dựa trên các mạng truyền thông
● Một kho dữ liệu là nơi chứa dữ liệu tích hợp có tính lịch
sử của một công ty với mục đích hỗ trợ việc xử lý và đưa
ra quyết định.
● Từ áp lực kinh doanh, cả từ bên trong và bên ngoài, bắt
buộc các dự án kho dữ liệu phải thể hiện sự hữu ích của
chúng tới công việc kinh doanh một cách nhanh chóng.
● Mục tiêu của thiết kế kho dữ liệu là tạo ra một lược đồ
được tối ưu hóa để xử lý hỗ trợ việc đưa ra quyết định kinh
doanh. Các hệ thống OLTP chủ yếu được thiết kế dựa trên
thông qua phát triển các biểu đồ thực thể - liên kết (ERD)
● Lược đồ dữ liệu dành cho một kho dữ liệu phải đủ đơn
giản để những nhà phân tích kinh doanh hiểu. Dữ liệu
trong kho dữ liệu phải sạch, nhất quán, và chính xác. Lược
đồ dữ liệu cũng cần phải hỗ trợ xử lý truy vấn nhanh.
Phương pháp luận để xây dựng mô hình đa chiều bao gồm 4 bước
sau đây:
1. Chọn dữ liệu chuyên đề
2. Chọn hạt nhân của bảng sự kiện
3. Chọn các chiều tương ứng với hạt nhân
4. Chọn các sự kiện
● Các yêu cầu đặt ra:
● Xử lý dữ liệu đa phương tiện và bán cấu trúc
● Dịch danh mục giấy (catalog) sang một cơ sở dữ liệu web
● Hỗ trợ giao diện người dùng ở cấp cơ sở dữ liệu (ví dụ như: lướt web
(navigation), bố cục kho hàng, siêu liên kết…)
● Lược đồ tiến hóa (ví dụ như: ghép hai catalog, chủng loại sản phẩm,
sản phẩm đã bán hết, sản phẩm mới)
● Tiến hóa dữ liệu (ví dụ như: các thay đổi trong đặc tả và mô tả, đặt tên,
giá)
● Xử lý đặc tả dữ liệu
● Nắm bắt dữ liệu lướt web trong ngữ cảnh
● Truy vấn OLAP cho thương mại điện tử
Kho dữ liệu cần phải cung cấp cho các nhà phân tích kinh doanh
các dữ liệu hữu ích mà họ cần trong một định dạng có thể sử
dụng được, do đó các yêu cầu kỹ thuật chi tiết nên bắt đầu với
các nhà phân tích kinh doanh.
Nắm bắt
các câu
hỏi kinh
doanh và
truy vấn
OLAP
Gán vào
các hạng
mục, tạo
các chủ
đề
Thiết kế
data-mart
● Truy vấn OLAP cho thương mại điện tử:
● Một khi các truy vấn OLAP được thu thập, các nhà thiết kế cần một số
hình thức phân loại để nhóm các truy vấn.
● Gồm 7 loại chính:
● Bán hàng & Phân tích thị trường, trả lại hàng, thiết kế Website và phân
tích chuyển hướng, dịch vụ chăm sóc khách hàng, kho / tồn kho, quảng
bá/khuyến mãi, và Vận chuyển.
● Đề án phân loại này dựa trên các quy trình kinh doanh giúp để hình
thành các chủ đề data-mart hơn là cố gắng để liên kết các truy vấn
OLAP đến một chiều duy nhất.
(Bộ truy vấn OLAP cho TMĐT được lưu ở file PDF riêng - Truyvan-
OLAP-TMDT.PDF)
XÁC ĐỊNH MÔ HÌNH ĐA CHIỀU (DIMENSION MODELS)
1
THIẾT KẾ BẢNG CHIỀU (DIMENSION TABLE)
2
THIẾT KẾ BẢNG SỰ KIỆN (FACT TABLE)
3
LƯỢC ĐỒ HÌNH SAO ĐẦY ĐỦ CHO E-COMMERCE
4
Kiến trúc kho dữ liệu kiểu BUS
● Là một ma trận mà các
chiều là các cột và dữ
liệu chuyên đề là các
dòng.
● Xác định được các
chiều thỏa mãn là các
chiều được sử dụng bởi
nhiều dữ liệu chuyên
đề.
● Xác định Mô hình Đa chiều
● Nhân tố của bảng sự kiện
○ Nhân tố xác định dữ liệu nguyên tố và ở mức thấp nhất mà
kho dữ liệu lấy.
● Sơ đồ chi tiết bảng đa chiều
○ Xác định thuộc tính của chiều: phân tích bộ truy vấn OLAP để
xác định các thuộc tính quan trọng của mỗi chiều.
○ Tìm các danh từ trong câu truy vấn OLAP để xác định thuộc
tính của chiều.
○ Thiết kế kho dữ liệu là một quá trình lặp
● Sơ đồ chi tiết bảng Chiều Khách hàng
● Sơ đồ chi tiết bảng Chiều Sản phẩm
● Sơ đồ chi tiết bảng Chiều Website
● Sơ đồ chi tiết bảng Sự
kiện
● Xác định thuộc tính của
bảng sự kiện. Tất cả thuộc
tính của bảng sự kiện được
lưu trong sơ đồ chi tiết bảng
sự kiện.
● Các sự kiện được xác định
trực tiếp từ bản ghi giao
dịch.
● Lược đồ hình sao đầy đủ cho E-Commerce
○ Gồm một bảng sự kiện ở trung tâm được kết nối với một tập các
bảng chiều
CÁC KHÔNG GIAN BảNG VÀ ĐÁNH CHỉ MụC CHO CÁC THUộC TÍNH
1
THIếT Kế LƯợC Đồ VậT LÝ HÌNH SAO: BÁN HÀNG TMĐT
2
KHUNG NHÌN (MATERIALIZED VIEWS) VÀ KếT TậP (AGGREGATION)
3
KẾT LUẬN
4
● Giả định việc thiết kế kho dữ liệu được thực hiện trong Oracle8.
● Bố trí bảng sự kiện và các bảng chiều hợp lý: đưa lại sự thuận lợi
cho kỹ thuật xử lý song song và đa tuyến
● Bảng sự kiện sẽ là bảng lớn nhất, có tần suất sử dụng lớn nhất
trong cơ sở dữ liệu: cần nguồn tài nguyên dành riêng, cần có bộ xử
lý chuyên dụng
● Các bảng chiều có kích thước lớn: có thể bố trí vào các không gian
bảng khác nhau
● Các chỉ mục được lưu trữ trong chính các không gian bảng có các
thuộc tính được đánh chỉ mục (gồm bảng Sự kiện và các bảng
Chiều)
● Hai kỹ thuật chính được sử dụng để tạo chỉ mục:
○ Chỉ mục bản đồ nhị phân (bitmap)
○ Chỉ mục liên kết (join).
● Các chỉ mục bitmap thường được tạo ra cho các thuộc tính có số lượng
thành tố nhỏ và thực hiện nhanh với các phép toán AND, OR và NOT
● Chỉ mục liên kết được tạo ra dựa trên liên kết giữa hai bảng được gọi là
chỉ mục kết nối (join index).
● Chỉ mục liên kết cũng có thể được tạo ra từ nhiều hơn hai bảng. Trong
trường hợp này, chỉ mục liên kết được gọi là Chỉ mục kết nối đa bảng
(Multi-table joins Index).
● Các thuộc tính được đề cập trong truy vấn từ các bảng chiều phải được
đánh chỉ mục
● Quy luật của việc chọn loại chỉ mục
● Dựa vào giá trị tiềm năng của thuộc tính:
● Nếu giá trị tiềm năng là nhỏ hơn ngưỡng (thường là 1%) của tổng số
bản ghi trong bảng thì chỉ mục Bitmap sẽ được sử dụng.
● Nếu các giá trị dữ liệu tiềm năng là lớn hơn ngưỡng (1%) thì chỉ mục
cây B (B - Tree) sẽ được sử dụng
Trong đó, Tổng số thành tố chính là tổng số giá trị duy nhất (unique) của
thuộc tính