Tải bản đầy đủ (.pdf) (6 trang)

DSpace at VNU: Công nghệ xử lý phân tích trực tuyến trong việc trợ giúp quyếtđịnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (643.66 KB, 6 trang )

§¹I HäC QUèC GIA Hµ NéI

Phạm Minh Quý
Công nghệ xử lý phân tích trực tuyến trong việc trợ giúp
quyếtđịnh

Hà Nội, 2003

CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT
Phần này nhằm mục đích mô tả các từ viết tắt và các thuật ngữ được sử dụng trong
luận văn. Một số thuật ngữ tiếng Anh phổ biến, quen thuộc có chỗ tác giả vẫn giữ
nguyên, một số thuật ngữ được dịch sang tiếng viết và có mở ngoặc chú thích khi sử dụng
lần đầu.
Viết tắt, thuật ngữ

Nội dung, ý nghĩa

CSDL

Cơ sở dữ liệu

Ad hoc

Đặc biệt

Dimention table

Bảng chiều

Fact table


Bảng sự kiện

Meterilized view

Khung nhìn được cụ thể hoá để lưu dữ liệu

Index

Chỉ số (một số chỗ giữ nguyên từ tiếng Anh)

View

Khung nhìn (một số chỗ giữ nguyên từ tiếng Anh)


DW - Data Warehouse

Kho dữ liệu

DM – DataMart

Kho dữ liệu chuyên đề

MOLAP - Multidimention
OLAP

OLAP đa chiều

ROLAP - Relational OLAP


OLAP quan hệ

HOLAP – Hybrid OLAP

OLAP lai tạp giữa OLAP đa chiều và quan hệ

OLTP - Online Transaction
Processing

Các hệ thống xử lý giao dịch trực tuyến

Data mining

Khai phá dữ liệu

Query

Truy vấn

Select

Chọn (một số chỗ giữ nguyên từ tiếng Anh)

Join

Kết nối (một số chỗ giữ nguyên từ tiếng Anh)

Update

Sửa dữ liệu (một số chỗ giữ nguyên từ tiếng Anh)


Delete

Xóa dữ liệu (một số chỗ giữ nguyên từ tiếng Anh)

Insert
Thuật toán Heuristic

Thêm dữ liệu (một số chỗ giữ nguyên từ tiếng
Anh)
Thuật toán may rủi


PHẦN MỞ ĐẦU
1. Đặt vấn đề
Trong bối cảnh công nghệ thông tin phát triển mạnh mẽ, dữ liệu ngày càng được tập
trung trong những cơ sở dữ liệu (CSDL) khổng lồ, nhu cầu truy nhập vào tất cả các dữ
liệu để lấy ra thông tin là cần thiết. Cách tổ chức dữ liệu có hiệu quả nhất để trợ giúp nhu
cầu truy nhập tìm ra thông tin cần thiết là kho dữ liệu.
Ở nước ta ngày càng có nhiều kho dữ liệu được xây dựng và lượng dữ liệu ngày một
lớn. Nhưng việc khai thác hiện nay chưa có hiệu quả, vì trong kho dữ liệu lớn, đa chiều
thường chứa nhiều thông tin (tri thức) ẩn kín mà các công cụ truyền thống như kỹ thuật
truy vấn SQL rất khó và nhiều khi không phát hiện được. Hơn thế nữa, do yêu cầu của
người sử dụng liên tục thay đổi, đòi hỏi các câu trả lời phải theo thứ tự khác nhau.
Yêu cầu làm thể nào có thể khai thác thông tin có hiệu quả, thoả mãn nhu cầu khai
thác mức cao của người dùng, đòi hỏi phải có công nghệ khai thác thích hợp, hiện nay xử
lý phân tích trực tuyến (OLAP) là một trong các phương pháp khai thác có hiệu quả trên
những tập dữ liệu lớn và hỗn hợp. Trước đây công nghệ này ít được áp dụng vì nó đắt
tiền, khó cài đặt, không mềm dẻo trong khai thác. Nhưng đến nay trên thế giới công nghệ
OLAP thực sự đã và đang được nghiên cứu, phát triển mạnh mẽ và ngày càng đuợc sử

dụng rộng rãi trong khai thác dữ liệu, hỗ trợ ra quyết định. Ở nước ta việc áp dụng công
nghệ này đến nay vẫn chưa được phát triển.
Xuất phát từ nhu cầu thực tiễn tôi chọn hướng đề tài nghiên cứu: “Công nghệ xử lý
phân tích trực tuyến trong việc trợ giúp quyết định” nhằm tìm hiểu về kho dữ liệu và
công nghệ OLAP sử dụng để khai thác trên các kho dữ liệu, hướng tới xây dựng các hệ
thống có khả năng ứng dụng công nghệ phân tích trực tuyến vào khai thác dữ liệu phục
vụ cho công tác quản lý, hỗ trợ ra quyết định.
2. Mục tiêu của đề tài
Đề tài đề cập đến việc nghiên cứu nhằm hướng đến xây dựng các hệ thống trợ giúp
quyết định sử dụng phương pháp luận OLAP. Luận văn sẽ tập trung vào các công việc
chính là nghiên cứu vấn đề tổ chức, xây dựng kho dữ liệu, nhấn mạnh vào nghiên cứu mô
hình CSDL đa chiều và phân tích dữ liệu trực tuyến để trợ giúp ra quyết định.
Hệ trợ giúp quyết định theo tiếp cận này, có thể giúp cho nhà quản lý thiết lập một mô
hình OLAP cho ứng dụng cụ thể của mình trong việc tổ chức CSDL đa chiều, và giúp


cho họ dễ dàng trong hoạt động phân tích, tìm kiếm thông tin theo những khía cạnh khác
nhau của dữ liệu, nhằm thu thập được tối đa những gì họ cần hiểu rõ, để từ đó có thể ra
được những quyết định tốt nhất một cách nhanh chóng. Không giống với các hệ trợ giúp
quyết định truyền thống thường được xây dựng với mục đích đưa ra giải pháp tối ưu cho
một bài toán cụ thể, trong một phạm vi ứng dụng hẹp, công nghệ OLAP hướng đến việc
giúp người sử dụng có thể khai thác được tối đa khả năng tiềm ẩn của một khối lượng dữ
liệu lớn, nhằm thu được những thông tin tổng hợp ở đủ các khía cạnh khác nhau của dữ
liệu, để từ đó có thể ra các quyết định một cách nhanh chóng. Do đặc điểm này, phạm vi
ứng dụng của hệ trợ giúp quyết định sử dụng công nghệ OLAP dựa vào dữ liệu là rộng
rãi cho các bài toán khác nhau, trong nhiều lĩnh vực khác nhau.
3. Bố cục của luận văn
Nội dung của luận văn được chia thành bốn chương:
Chương 1: Nội dung chủ yếu giới thiệu lý thuyết chung về kho dữ liệu - phương pháp
tổ chức, thiết kế CSDL và xây dựng kho dữ liệu. Nhấn mạnh trong việc thiết kế CSDL

vật lý của kho dữ liệu bằng việc sử dụng thuật toán A* và các luật của Thumb để chọn
khung nhìn và chỉ số tối ưu việc bảo trì kho dữ liệu.
Chương 2: Trình bày về mô hình dữ liệu đa chiều và các dạng chuẩn dữ liệu đa chiều
trong mô hình CSDL đa chiều sử dụng trong OLAP.
Chương 3: Trình bày những lý thuyết cơ bản về công nghệ OLAP trong việc hỗ trợ ra
quyết định, cách tổ chức lưu trữ dữ liệu, việc chỉ số hóa khung nhìn để tối ưu tốc độ truy
vấn.
Chương 4: Xây dựng một ứng dụng sử dụng các công cụ và công nghệ của Oracle
nhằm mô tả cho việc ứng dụng công nghệ OLAP trong việc hỗ trợ ra quyết định.


CHƯƠNG I – KHO DỮ LIỆU
Các doanh nghiệp, tổ chức kinh tế - xã hội đều đang phải đối đầu với sự thay đổi của
thị trường, sự thay đổi hoàn thiện của các chính sách kinh tế xã hội. Để có thể đưa ra một
quyết định đúng đắn, trước hết phải có khả năng nhanh chóng truy nhập được tới các
thông tin mà doanh nghiệp, tổ chức có sẵn. Đối với một doanh nghiệp, tổ chức, muốn có
một quyết định đúng đắn, cần nghiên cứu cả những dữ liệu trong quá khứ và hiện tại,
nhằm phân tích và xác định ra các xu hướng có thể ở hiện tại và tương lai. Để phục vụ
phân tích dữ liệu cần được tập trung lại và do đó sẽ tạo ra những CSDL khổng lồ. Cách tổ
chức dữ liệu có hiệu quả nhất để trợ giúp nhu cầu truy nhập thông tin hỗ trợ ra quyết định
là tổ chức thành các kho dữ liệu.
1. Khái niệm kho dữ liệu
1.1

Định nghĩa kho dữ liệu

Kho dữ liệu (Data warehouse-DW) là một tập hợp các CSDL tích hợp, hướng chuyên
đề, được thiết kế cho việc truy vấn và phân tích hơn là xử lý giao dịch để hỗ trợ cho chức
năng trợ giúp quyết định, mà mỗi đơn vị dữ liệu đều liên quan tới một khoảng thời gian
cụ thể [2].

Kích thước của kho dữ liệu thường rất lớn, được tổ chức, lưu trữ và phân tích phục vụ
cho việc cung cấp các thông tin liên quan đến nghiệp vụ của tổ chức. Kho dữ liệu phục
vụ cho việc phân tích với kết quả mang tính thông tin cao. Các hệ thống thông tin thu
thập, xử lý dữ liệu loại này còn gọi là hệ xử lý phân tích trực tuyến - OLAP.
Một kho lưu trữ dữ liệu thường được sử dụng như là các thông tin cơ sở cho một hệ
thống hỗ trợ quyết định. Nó được thiết kế để khắc phục những vấn đề vấp phải khi một
doanh nghiệp hay tổ chức cố gắng thực hiện chiến lược phân tích có sử dụng cùng CSDL
mà được sử dụng cho xử lý giao dịch trực tuyến - OLTP
1.2

Đặc điểm dữ liệu của kho dữ liệu

1.2.1 Dữ liệu hướng chuyên đề
Kho dữ liệu được thiết kế để giúp cho việc phân tích dữ liệu. Ví dụ để biết nhiều hơn về dữ liệu bán hàng
của tổ chức, doanh nghiệp có thể xây dựng một kho dữ liệu tập trung vào chuyên đề bán hàng. Sử dụng
kho dữ liệu này có thể trả lời được các


DANH MỤC TÀI LIỆU THAM KHẢO
[1]. Đỗ Trung Tuấn, Cơ sở dữ liệu, NXB Giáo dục, 1998
[2]. Viện công nghệ thông tin, Giới thiệu về Data Warehouse, 1997
[3]. Nguyễn Thanh Thuỷ, Khai phá dữ liệu: Kỹ thuật và ứng dụng, 2000.
[4]. Lê Minh Trung, Giáo trình mạng nơron nhân tạo, NXB thống kê, 1999
[5]. Nguyễn Anh Tuấn, Về Công nghệ khám phá tri thức và hệ thống thông tin khí tượng
ngành hàng không, Luận án thạc sĩ khoa học, 2000
[6]. Viện Công nghệ Thông tin, Dịch vụ phân tích trực tuyến của Microsoft SQL server, 112000
[7]. Nguyễn Bá Tường, Cơ sở dữ liệu lý thuyết và thực hành, NXB khoa học kỹ thuật, 2001
[8]. Oracle Corporation, Oracle9i OLAP, March 2002
[9]. Oracle Corporation, Oracle9i Data Warehousing Guide, March 2002
[10]. David Marco, Building and Managing the Meta Data Repository, Wiley Computer

Publishing
[11]. Himanshu Gupta, Venky Harinarayan , Anand Rajaraman, Jeffrey D.Ullman, Index
Selection for OLAP, Department of Computer Science Stanford University
[12]. Wilburt Juan Labio, Dallan Quass, Brad Adelberg, Physical Database Design for Data
Warehouses, Department of Computer Science Stanford University
[13]. Thanh Binh Nguyen, A Min Tjoa, and Roland Wagner, An Object Oriented
Multidimensional Data Model for OLAP, Institute of Software Technology (E188) - Vienna
University of Technology.
[14]. Kim, Bumsoo, Adapting On-line Analytical Processing for Decision Modeling: The
Interaction Information and Decision Technology, Seoul National University – Manufacturing
Automation & Intgration Lab.
[15]. Using the Data Warehouse, PLATINUM Education
[16]. W.Lehner, J.Albrecht, H.Wedekind, Normal Forms for Multidimention Databases,
University of Erlangen-Nuremberg, Dept. of Database Systems.
[17]. Thanh Binh Nguyen, A Min Tjoa, and Roland Wagner, Conceptual Multidimensional
Data Model Based on MetaCube, Institute of Software Technology (E188) - Vienna
University of Technology.
[18]. Nebojsa Stefannovic, Design and Implementation of On-Line Analytical Processing
(OLAP) of Spatial Data, Simon Fraser University
[19]. Panos Vassiliadis, Data Warehouse Modeling and Quality Issues, National Technical
University of Athens, 01-2000.



×