Tải bản đầy đủ (.docx) (34 trang)

TIỂU LUẬN MÔN QUẢN TRỊ HỆ THỐNG THÔNG TIN SỰ THÀNH LẬP B.I CƠ SỞ DỮ LIỆU VÀ QUẢN LÝ THÔNG TIN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.18 MB, 34 trang )

TRƯỜNG ĐẠI HỌC KINH TẾ- LUẬT
KHOA QUẢN TRỊ KINH DOANH
MÔN QUẢN TRỊ HỆ THỐNG THÔNG TIN

Bài tập nhóm
FOUNDATIONS OF BUSINESS INTELLIGENCE:
DATABASES AND INFORMATION MANAGEMENT
SỰ THÀNH LẬP B.I:
CƠ SỞ DỮ LIỆU
VÀ QUẢN LÝ THÔNG TIN

Giảng viên hướng dẫn: ThS. Hồ Trung Thành
Nhóm thực hiện: Nhóm 7 & 8 – K10407A
Thành phố Hồ Chí Minh
Tháng 11 năm 2013
DANH SÁCH NHÓM 7&8 – K10407A

NHÓM 7
1. Nguyễn Thị Thanh Hoa K104071056
2. Đàm Vân Khánh K104071062
3. Vũ Văn Nhật K104071091
4. Phạm Ý Nhi (Nhóm trưởng) K104071093
5. Bùi Thị Bích Phượng K104071103
6. Vũ Thị Thắm K104071125
NHÓM 8
1. Lê Thị Kim Hương K104071061
2. Nguyễn Thị Trà My (Nhóm trưởng) K104071080
3. Đào Văn Nhi K104071092
4. Nguyễn Xuân Quyết K104071108
5. Trương Đào Trọng Tín K104071136
6. Phạm Quốc Tỉnh K104071137


MỤC LỤC
Chương 5
FOUNDATIONS OF BUSINESS INTELLIGENCE: DATABASES AND
INFORMATION MANAGEMENT
SỰ THÀNH LẬP B.I: CƠ SỞ DỮ LIỆU VÀ QUẢN LÝ THÔNG TIN
A. LÝ THUYẾT
1. Phương pháp tiếp cận cơ sở dữ liệu để quản lý dữ liệu
1.1 Các khái niệm
1.1.1 Cơ sở dữ liệu (Database)
- Là một tập các mẩu tin có mối quan hệ với nhau được ghi lại một cách cụ
thể về con người, nơi chốn hay một thứ gì đó. Nói ngắn gọn Cơ sở dữ liệu
là một tập hợp thông tin có cấu trúc.
- VD: Danh bạ điện thoại là một cơ sở dữ liệu mà con người đã thu thập
được. Trong danh bạ, chứa thông tin người sử dụng: họ, tên, địa chỉ, số
điện thoại. Với danh bạ điện thoại của một công ty thì chứa những thông
tin của các đơn vị kinh doanh và loại hình kinh doanh; thông tin về khách
hàng, loại hình doanh nghiệp, mã vùng, vị trí địa lí.
1.1.2 Đối tượng (Entity)
- Là đối tượng (người, vật hoặc đồ vật) đại diện cho một loại thông tin, như:
khách hàng, nhà cung cấp, nhân viên …
1.1.3 Thuộc tính (Attributes)
- Mỗi đối tượng (entity) có những đặc điểm, tính chất riêng biệt, gọi là thuộc
tính (attributes) của đối tượng đó.
- VD: Entity SUPPLIER có các attributes đại diện là Tên nhà cung cấp, địa
chỉ của nhà cung cấp đó bao gồm tên đường, quận, thành phố, mã bưu
điện
1.2 Hạn chế của Cơ sở dữ liệu truyền thống
Trước các loại hình cơ sở dữ liệu số hiện đại như ngày nay, các doanh nghiệp
thường làm việc và lưu trữ thông tin bằng các hồ sơ giấy. Các thông tin, dữ liệu của
Trang 4

doanh nghiệp được lưu trữ ở nhiều phòng ban và thiếu sự liên kết, thống nhất với nhau.
Vì vậy, tổ chức dữ liệu theo cách truyền thống này có rất nhiều hạn chế.
- Thường được viết bằng tay, việc thu thập dữ liệu khó khăn
- Cồng kềnh, kém hiệu quả
- Tốn thời gian và chi phí duy trì cao
- Dữ liệu thường thiếu chính xác, thiếu cập nhật và khó khăn trong việc truy
cập hay chia sẻ dữ liệu kịp thời
- Thiếu tính bảo mật
1.3 Cơ sở dữ liệu quan hệ (Relational Database)
Đối với cơ sở dữ liệu số, việc tìm kiếm thông tin rất dễ dàng, nhanh chóng bằng
việc tạo liên kết giữa dữ liệu này với những dữ liệu khác có liên quan. Thông qua đó,
đảm bảo tính chính xác, thống nhất và tính cập nhật cho dữ liệu. Khái niệm cơ sở dữ liệu
quan hệ (Relational Database) ra đời từ đó.
1.3.1 Đặc điểm
- Tổ chức dữ liệu theo 2 chiều là dòng và cột dưới dạng bảng. Mỗi bảng duy
trì dữ liệu cho một Entity và các Attributes đại diện cho entity đó.
- Mỗi bảng đại diện cho 1 Entity, như là: Khách hàng, Nhà cung cấp …
1.3.2 Thành phần
- Trường (Fields): lưu trữ dữ liệu dưới dạng cột (Column), đại diện cho một
Attribute của entity
- Khóa chính (Primary Key): là một field nằm trong mỗi bảng, không chứa
các giá trị trùng lắp giữa các thực thể với nhau. Vì vậy, được dùng để phân
biệt các thực thể với nhau trong cùng 1 bảng.
- Bản ghi (Records, Tuples): lưu trữ dữ liệu dưới dạng dòng (Row), là tập
hợp các attributes của từng thực thể nằm trong entity đang xét
Sau đây, hãy cùng xem xét một ví dụ về một đối tượng là SUPPLIER (Nhà
cung cấp) để phân tích đâu là các thuộc tính của đối tượng này. Những thông tin
liên quan đến đối tượng được lưu trữ dưới dạng Table 2 chiều là dòng và cột như
thế nào.
Trang 5

Table SUPPLIER
- Bảng SUPPLIER bao gồm các cột và dòng. Mỗi yếu tố gồm dữ liệu về nhà
cung cấp, như: tên nhà cung cấp, đường, thành phố, bang, mã vùng, được
lưu trữ ở những field riêng biệt. Mỗi feild đại diện là một attribute của
Entity SUPPLIER.
- Thông tin của các nhà cung cấp nằm trong bảng được gọi là “row”.
- Khóa chính của bảng là trường Supplier_Number. Khóa chính này giúp
nhận diện tất cả các thông tin ở bất kì dòng nào trong bảng. Và khóa chính
không thể trùng lặp.
- Ngoài ra, chúng ta cũng có thể sử dụng tên của nhà cung cấp –
Supplier_Name làm khóa chính. Tuy nhiên, nếu có hai nhà cung cấp có
cùng tên thì trường tên của nhà cung cấp sẽ không còn là duy nhất, vì vậy,
cần thiết phải gán một trường nhận diện đặc biệt cho mỗi mục đích khác
nhau. Ví dụ, nếu bạn có 2 nhà cung cấp, cả 2 đều có tên là CBM, nhưng
một cái có cơ sở ở Dayton và cái còn lại ở Louis , nó rất dễ dàng gây nhầm
lẫn. Tuy nhiên nếu có một số thứ tự nhà cung cấp duy nhất, sự nhầm lẫn là
có thể tránh.
- Chúng ta cũng có thể nhận thấy rằng thông tin địa chỉ cũng được tách biệt
thành 4 trường: Supplier_street, Supplier_city, Supplier_state và
Supplier_ Zip. Dữ liệu được chia ra thành những yếu tố nhỏ nhất để có thể
truy cập riêng biệt, dễ dàng lựa chọn một dòng trong bảng nhằm nối với
Trang 6
một nội dung trong một trường; ví dụ khi muốn tìm tất cả các nhà cung cấp
tại Ohio. Mỗi dòng dữ liệu cũng có thể được sắp xếp bởi nội dung của
trường Supplier_state để lấy danh sách các nhà cung cấp thuộc bang gần
với chỗ của họ.
Mặt khác, SUPPLIER không có bất kì thông tin nào về những phần mà nhà
cung cấp riêng lẻ cung cấp cho công ty của họ. Chính vì vậy người ta sẽ lập thêm
table PART là entity riêng biệt từ SUPPLIER, và các trường với những thông tin
về từng phần phải được lưu trữ trong bảng này.

- PART có thể chứa các trường có chứa ở bảng SUPPLIER, có thể không cần
giữ những thông tin về nhà cung cấp tại mỗi bản ghi trong mỗi Part vì có
trường Supplier_number trong bảng PART cho phép bạn tìm kiếm dữ liệu
trong trường của bảng SUPPLIER, tức là Supplier_Number sẽ có trong 2
bảng SUPPLIER và PART.
- Supplier_number xuất hiện trong bảng PART được gọi là foreigner key
và nó cần thiết để tìm kiếm dữ liệu về nhà cung cấp trong một phần đặc
biệt. PART có khóa chính là Part_number, để nhận diện mỗi phần. Khóa
này không được sử dụng để liên kết PART với SUPPLIER nhưng có thể để
liên kết PART với một entity khác.
Trang 7
- Lưu ý: Phải chắc chắn rằng tất cả các attributes của mỗi entity riêng biệt
đăng kí đến 1 entity. Nếu bạn đã giữ địa chỉ của nhà cung cấp trong bản ghi
PART, thông tin đó không chỉ có mối liên hệ với PART, nó còn liên hệ với
cả SUPPLIER. Nếu địa chỉ nhà cung cấp đã thay đổi, nó sẽ thay đổi dữ liệu
của SUPPLIER và tất cả các bản ghi trong PART.
1.3.3 Tạo liên kết
Sơ đồ liên kết thực thể (Entity-Relationship Diagram)
- Khi chúng ta phân dữ liệu thành các bảng SUPPLIER và PART thì phải
chắc chắn là chúng ta biết mối quan hệ giữa chúng. Sơ đồ quan hệ này được
gọi là Sơ đồ liên kết thực thể (Entity-Relationship Diagram).
- Sơ đồ liên kết này được sử dụng để gạn lọc các bảng có mối quan hệ với
nhau trong dữ liệu. Phần thông tin được cung cấp quan trọng nhất bởi sơ đồ
này là 2 bảng có liên quan với nhau.
- Các loại quan hệ giữa các bảng là: Một-một (One-to-one), Một-nhiều
(One-to-many), Nhiều-nhiều (Many-to-many)
Mối quan hệ giữa SUPPLIER và PART trong dữ liệu là quan hệ Một-nhiều,
mỗi nhà cung cấp có thể cung cấp nhiều phần nhưng 1 phần chỉ có 1 nhà cung
cấp. Với mỗi thực thể trong bảng SUPPLIER, có thể có bản ghi liên quan
trong bảng PART.

Sơ đồ trên thể hiện mối quan hệ Một-nhiều. Hộp đại diện cho các thực thể,
đường nối thể hiện mối quan hệ. Đường nối kết thúc với 2 dấu ngạch là quan
hệ 1-1, đường hết thúc bằng dấu chân chim và 1 gạch là quan hệ 1-nhiều. Qua
đó, ta thấy mỗi PART chỉ có một SUPPLIER, nhưng một SUPPLIER có thể
cung cấp được nhiều PART.
Trang 8
Chúng ta cũng thấy mối quan hệ Một-nhiều nếu thêm 1 bảng ORDER (Đơn
hàng) vào dữ liệu; vì 1 SUPPLIER sẽ có nhiều ORDER. Nội dung của bảng
ORDER bao gồm: Mã số order và Ngày order.
Một ORDER có thể có nhiều sản phẩm (PART) từ cùng một SUPPLIER,
một sản phẩm có thể được đặt nhiều lần với nhiều đơn đặt hàng khác nhau; đây
là mối quan hệ Nhiều-Nhiều giữa sản phẩm và đơn đặt hàng. Bất cứ khi nào có
quan hệ này tồn tại giữa 2 bảng thì nó đều cần thiết để liên kết giữa 2 bảng có
dữ liệu liên quan. Việc tạo 1 bảng riêng để chứa các thông tin quan hệ giữa các
bảng gọi là bảng nối hay quan hệ tương tác. Nội dung của bảng nối này gồm 3
trường: Order_Number, Part_Number và Part_Quantity.
Tiêu chuẩn hóa (Normalization)
- Quá trình giảm bớt sự phức tạp, trùng lắp dữ liệu giữa các bảng gọi là tiêu
chuẩn hóa. Những thông tin được thiết kế 1 cách hợp lý và bình thường sẽ
dễ dàng để duy trì với tỷ lệ trùng lắp thông tin bé nhất.
Tính toàn vẹn (Referential Integrity)
- Hệ thống quan hệ dữ liệu phải có tính liên quan, toàn vẹn để đảm bảo rằng
mối quan hệ giữa 2 bảng phải thống nhất với nhau.
- Trong những doanh nghiệp nhỏ, bạn sẽ có nhiều bảng với nhiều thực thể
khác nhau như khách hàng, nhà vận chuyển, nhân viên và mỗi tập đoàn lớn
sẽ có hàng ngàn thực thể để duy trì. Điều quan trọng đối với bất cứ công ty
nào dù lớn hay nhỏ là phải có mô hình dữ liệu tốt bao gồm tất cả các chủ
thể và mối quan hệ giữa chúng, tối thiểu hóa sự trùng lắp dư thừa, tối đa sự
chính xác, để dễ dàng cho việc đánh giá và phân tích.
Nếu công ty không có mô hình dữ liệu đúng thì hệ thống dữ liệu sẽ không thể

đáp ứng cho việc kinh doanh tốt được. Việc kinh doanh của công ty sẽ không có
Trang 9
hiệu quả vì đang phải làm việc với dữ liệu không chính xác, không hợp lý. Hiểu
được cách tổ chức dữ liệu và cách trình bày dữ liệu là những phần quan trọng mà
các doanh nghiệp cần phải chú ý.
Ví dụ, Famous Footwear, có hơn 800 cửa hàng ở 49 nước, có thể không đạt
được mục tiêu “ đúng style ở đúng cửa hàng với đúng giá” vì hệ thống dữ liệu
thiết kế không hợp lý để điều chỉnh nhanh hàng tồn kho. Công ty có một hệ dữ
liệu Oracle chạy trên máy tính trung bình IBM AS/400, nhưng hệ dữ liệu dc thiết
kế chủ yếu để cung cấp báo cáo cho người quản lý hơn là để phản ứng với những
thay đổi thị trường. Nhà quản lý không thể có được dữ liệu rõ ràng về hàng tồn
kho ở mỗi cửa hàng. Công ty phải giải quyết vấn đề này bằng việc xây dựng hệ dữ
liệu mới để bán hàng và dữ liệu tồn kho được tổ chức tốt hơn cho việc phân tích
và quản lý hàng tồn kho.
2. Hệ thống quản trị cơ sở dữ liệu (DBMS)
2.1 Định nghĩa
- Là 1 phầm mềm đặc trưng cho việc: tạo lập , lưu trữ, tổ chức, truy cập dữ liệu từ
cơ sở dữ liệu
- Giải phóng người dùng khỏi phải suy nghĩ về việc: trình bày dữ liệu sao cho hợp
lý (logical views) và cấu trúc , lưu trữ dữ liệu sao cho hiệu quả (physical views)
- Ví dụ:
• Microsoft Access là DBMS cho máy tính cá nhân
• Trong khi DB2, Orecle database, Microsoft SQL server là DBMS cho máy
tính cỡ lớn (Midrange computer), siêu máy tính (large mainframes).
• Các dạng DBMS trên đều là Relational DBMS hỗ trợ cho relational
database
- Minh họa DBMS bằng Cơ sở dữ liệu của phòng Nhân sự
• Cơ sở dữ liệu của phòng HR cung cấp nhiều loại dữ liệu, tùy thuộc vào yêu
cầu thông tin của người sử dụng. Ví dụ như, Giám đốc quan tâm đến việc
trả lương cho nhân viên.

Trang 10
• DBMS sẽ trích ra các thông tin cần thiết từ cơ sở dữ liệu (Name, SSN,
Gross pay, Net pay)  Logical view, và thời gian xử lý của DBMS diễn ra
nhanh chóng  Physical views.
2.2 Hoạt động của DBMS
Gồm có 3 hoạt động chính là: Select (Lựa chọn), Join (Kết nối) và Project
(Xuất) dữ liệu. Những hoạt động này của DBMS đã cho phép các dữ liệu từ 2 bảng
khác nhau có thể được kết nối lại và chỉ những thuộc tính lựa chọn mới được hiển thị.
- Select (Lựa chọn): tạo ra 1 tập con bao gồm tất cả các bản ghi trong bảng lưu trữ
mà đáp ứng các tiêu chí đặt ra
- Join (Kết nối): Kết nối các bảng liên quan nhằm cung cấp đầy đủ thông tin về đối
tượng
- Project (Xuất): Tạo 1 bảng mới chứa các dữ liệu mà người dùng yêu cầu
Trang 11
Minh họa bằng sơ đồ quan hệ giữa 2 bảng PART và SUPPLIER, ta có thể phân
tích hoạt động của DBMS như sau:
Hoạt động PART - SUPPLIER
Select Bản ghi của PART 137, 150
Join
Kết nối Part 137, 150 trong bảng PART với
Suplier liên quan trong bảng SUPPLIER
Project
Trình bày thông tin của Part 137 và 150 từ
bảng PART và SUPPLIER dưới một bảng
khác
2.3 Chức năng của DBMS
Hệ quản trị cơ sở dữ liệu (DBMS) có những chức năng và công cụ để tổ chức,
quản lý và truy cập dữ liệu. Những nhiệm vụ quan trọng nhất của nó là, khả năng
định nghĩa dữ liệu, từ điển dữ liệu và ngôn ngữ sửa đổi dữ liệu.
- Data Definition (Định nghĩa dữ liệu): Chỉ ra cấu trúc của cơ sở dữ liệu. Cụ thể

là, tạo bảng cơ sở dữ liệu rồi xác định các đặc tính của từng cột.
- Data Dictionary (Từ điển dữ liệu): Đây là nơi lưu trữ các thông tin dữ liệu bao
gồm thành phần và đặc điểm của dữ liệu đó
Ví dụ:
+ Microsoft Access có một bộ từ điển dữ liệu sơ cấp cho phép hiển thị thông tin
dưới nhiều kích cỡ, định dạng và những đặc tính khác của một trường trong cơ sở
dữ liệu.
Trang 12
+ Hình ảnh bên dưới cho thấy thông tin được lưu trữ trong bảng SUPPLIER. Biểu
tượng nhỏ phía góc trái của trường Supplier_Number là khóa chính của bảng.
- Data Manipulation Language (Ngôn ngữ sửa đổi dữ liệu): Mỗi DBMS có 1
ngôn ngữ riêng được dùng để thêm, thay đổi, xóa, tìm kiếm hay giải nén dữ liệu từ
cơ sở dữ liệu. Ngôn ngữ thông dụng hiện nay là SQL (Structured query language
– Ngôn ngữ truy vấn có cấu trúc)
SQL (Ngôn ngữ truy vấn có cấu trúc)
Trang 13
Một Truy vấn (Query) trong Microsoft Access
2.4 Cơ sở dữ liệu hướng đối tượng
Rất nhiều ứng dụng ngày nay yêu cầu một cơ sở dữ liệu có thể lưu trữ và kết xuất
được không chỉ những dữ liệu được cấu trúc hóa từ con số, mà còn những bản vẽ,
những hình ảnh, âm thanh hay video …
Vì vậy, cơ sở dữ liệu hướng đối tượng ra đời (OOD – Object-Oriented Database):
- Lưu trữ, tìm kiếm được dữ liệu dạng liên kết (relational database) và dữ liệu dạng
đa phương tiện (multimedia: drawing, video, voice…)
- Lưu trữ dữ liệu và quá trình dưới dạng 1 đôi tượng (bao gồm: biến và hàm thực
hiện) có thể được tự động tìm kiếm và chia sẻ
OODBMS (Object-oriented Database Management System) đang được sử
dụng phổ biến rộng rãi bởi khả năng xử lý với đa dạng thông tin. Tuy vậy, tốc độ xử
lý của OODBMS có phần chậm hơn so với relational DBMS. Do đó, ra đời hệ thống
Object – Relational DBMS nâng cao hơn hiệu quả sử dụng.

Trang 14
3. Sử dụng cơ sở dữ liệu để cải tiến hiệu suất kinh doanh và ra quyết định
Doanh nghiệp sử dụng cơ sở dữ liệu của họ nhằm:
- Theo dõi các giao dịch cơ bản
- Cung cấp thông tin sẽ giúp các công ty điều hành kinh doanh hiệu quả hơn
- Giúp các nhà quản lý và nhân viên đưa ra quyết định tốt hơn
Hiện nay, đã có rất nhiều phần mềm cung cấp cho người sử dụng những khả năng
truy vấn và lập các báo cáo thông tin, đặc biệt là các hệ quản trị cơ sở dữ liệu quan hệ.
Tuy nhiên, sử dụng các hệ thống này, chúng ta sẽ gặp rất nhiều khó khăn và bất tiện trong
việc tổ chức dữ liệu đa chiều vào các bảng hai chiều, không thể triển khai dữ liệu phân
tích với số lượng lớn, công cụ phân tích để tạo ra các dữ liệu quyết định không mạnh,
không thuận tiện, linh hoạt, và nhất là không dễ dàng để sử dụng đối với các nhà quản lý,
những người ra quyết định.
Để có khả năng cung cấp những dữ liệu quyết định cho những người ra quyết
định, cần sử dụng một cách lưu trữ dữ liệu cho phép họ quản lý, khai thác dữ liệu dễ dàng
hơn. Cách lưu trữ dữ liệu này là kho dữ liệu (Data Warehouses).
3.1 Kho dữ liệu (Data warehouses)
3.1.1 Khái niệm
- Là một cơ sở dữ liệu được thiết kế để trả lời các câu hỏi của doanh nghiệp.
Nó là nơi chứa nhiều loại dữ liệu doanh nghiệp từ các nguồn khác nhau
(các hệ thống xử lý tác vụ).
- Dữ liệu từ những nguồn này được chuyển dịch vào trong kho dữ liệu, được
đánh chỉ mục, và được kết nối lại để có thể được truy xuất nhanh chóng và
dễ dàng hơn, phục vụ cho các ứng dụng trợ giúp ra quyết định.
Trang 15
Data Sources
End User (HR, SD, MM …)
Vậy vì sao cần sử dụng Data Warehouse?
- Thông tin trong kho dữ liệu sẽ được tổng hợp và chuẩn hóa dựa trên cơ sở dữ liệu
từ nhiều nguồn khác nhau  Data Warehouse

- Thông tin này sẽ được rút trích (extract), chuyển đổi (transform và nạp (load) ở
DW
- Sau đó, các dữ liệu ở đây sẽ được khai thác sử dụng nhằm phục vụ cho việc ra
quyết định cho quản lý cấp trung, từ đó mới đưa lên cấp trên cao hơn.
3.1.2 Cách hoạt động
Trang 16
- Thông tin trong kho dữ liệu sẽ được tổng hợp và chuẩn hóa dựa trên cơ sở
dữ liệu từ nhiều nguồn khác nhau để đưa ra thông tin phục vụ việc phân
tích và ra quyết định.
Trang 17
- Sơ đồ ở trên minh họa cách một kho dữ liệu làm việc. Một kho dữ liệu tạo ra dữ
liệu có sẵn cho bất kỳ ai muốn truy cập khi có nhu cầu, nhưng không được thay
đổi hoặc chỉnh sửa. Một kho dữ liệu cũng cung cấp các dạng công cụ như công cụ
truy vấn, công cụ phân tích và những tiện lợi đặc biệt khác đã được chuẩn hóa. Và
một khi dữ liệu đã được thu thập, người sử dụng còn cần có một phương cách tốt
để dễ dàng khai thác chúng, nhằm truy xuất được các mẫu dữ liệu mà họ quan
tâm. Hệ thống OLAP giúp cho họ làm điều này.
Hệ thống OLAP (Online Analytical Processing) là một hệ thống quản lý dữ liệu
giàu năng lực. Nó cho phép người sử dụng phân
tích dữ liệu qua việc cắt lát (slice) dữ liệu theo
nhiều khía cạnh khác nhau, khoan xuống (Drill-
Down) mức chi tiết hơn hay cuộn lên (Roll-Up)
mức tổng hợp hơn của dữ liệu. Bản chất cốt lõi
của OLAP là dữ liệu được lấy ra từ Kho dữ liệu
hoặc từ DataMart (kho dữ liệu chủ đề - DM); sau
đó được chuyển thành mô hình đa chiều và được
lưu trữ trong một kho dữ liệu đa chiều.
Trang 18
Trong đó, khối là phần tử chính trong xử lý phân tích trực tuyến, là tập con
(subset) dữ liệu từ kho dữ liệu, được tổ chức và tổng hợp trong các cấu trúc đa chiều.

Để hiểu rõ về sự khác nhau giữa kho dữ liệu 2 chiều và đa chiều, ta phân tích một
khối dữ liệu như sau:
Ví dụ: một khối cho phân tích bán hàng bao
gồm các đơn vị đo lường: Sảnphẩm_Bánhàng_Giá
và Sảnphẩm_Chiphí từ bảng Bánhàng_chính và các
chiều Vịtrí_Kho (Store_Location), Dòng_sảnphẩm
và Năm_Tàichính.
Khối này cho phép người dùng phân chia
Sản phẩm_Bánhàng_Giá và Sảnphẩm_Chiphí
(Item_Cost) thành các loại khác nhau bởi
Vịtrí_Kho, Dòng_Sảnphẩm và Năm_Tàichính.
Mỗi chiều có thể chứa một hệ thống các cấp độ để chỉ sự phân chia rõ ràng của
người dùng. Ví dụ: Chiều Vịtrí_Kho có thể gồm hệ thống các cấp độ: Châu lục, nước,
vùng, tỉnh, thành phố (Continent, Country, Region, State_Province, City, Store_Number).
Lấy ví dụ minh họa cho mộ hình dữ liệu đa chiều sau:
Trang 19
- Lợi ích của hệ thống OLAP:
+ Dễ dàng lựa chọn, định hướng và khám phá dữ liệu
+ Cung cấp sức mạnh để khám phá các mối quan hệ trong dữ liệu kinh doanh
phức tạp
+ Thời gian trả lời rất nhanh đối với các truy vấn đặc biệt
3.2 BI (Business Intelligence)
3.4.1 Khái niệm
- Một khi dữ liệu được lưu trữ và tổ chức trong một kho dữ liệu và data mart, chúng
sẽ có nhiều thông tin có sẵn cho nhà phân tích hơn. Một chuỗi các công cụ làm
cho người dùng có thể phân tích những dữ liệu này để thấy những mô hình, mối
quan hệ, và sự hiểu biết rất có ích cho việc hướng dẫn ra quyết định được gọi là
BI.
3.4.2 Cách hoạt động
- Những công cụ BI này củng cố, phân tích, và cung cấp quyền truy cập vào khối

lượng lớn data để giúp người sử dụng đưa ra những quyết định chính xác hơn.
Những công cụ chính cho BI bao gồm phần mềm truy vấn dữ liệu và báo cáo, các
công cụ đáp ứng việc phân tích dữ liệu đa phương tiện hay khai thác dữ liệu.
Trang 20
- BI cung cấp cho công ty khả năng tích lũy thông tin, phát triển khả năng hiểu biết
về khách hàng, đối thủ, và hoạt động trong nội bộ tổ chức, và thay đổi hành vi ra
quyết định để đạt được khả năng sinh lời cao hơn và những mục tiêu khác.
3.3 Khai thác dữ liệu (Data Mining)
Là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm ra các mối
quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp, đồng
thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó. Data Mining được chia nhỏ
thành một số hướng chính như sau:
- Luật kết hợp (association rules): là dạng luật biểu diễn tri thứ ở dạng khá
đơn giản. Ví dụ: “60 % nam giới vào siêu thị nếu mua bia thì có tới 80%
trong số họ sẽ mua thêm thịt bò khô”. Luật kết hợp được ứng dụng nhiều
trong lĩnh vực kính doanh, y học, tin-sinh, tài chính & thị trường chứng
khoán, .v.v.
- Phân lớp và dự đoán (classification & prediction): xếp một đối tượng vào
một trong những lớp đã biết trước. Ví dụ: phân lớp vùng địa lý theo dữ liệu
Trang 21
thời tiết. Hướng tiếp cận này thường sử dụng một số kỹ thuật của machine
learning như cây quyết định (decision tree), mạng nơ-ron nhân tạo (neural
network), .v.v. Người ta còn gọi phân lớp là học có giám sát (học có thầy).
- Phân cụm (clustering): xếp các đối tượng theo từng cụm (số lượng cũng
như tên của cụm chưa được biết trước. Người ta còn gọi phân cụm là học
không giám sát (học không thầy).
- Khai phá chuỗi (sequential/temporal patterns): tương tự như khai phá luật
kết hợp nhưng có thêm tính thứ tự và tính thời gian. Hướng tiếp cận này
được ứng dụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán vì
nó có tính dự báo cao.

Hệ thống loại này cho phép thực hiện phân tích ở mức độ cao, có thể đi sâu vào
chi tiết khi cần. Đó là ứng dụng cơ sở dữ liệu cho tất cả các vùng chức năng trong
việc kinh doanh, chính phủ và công việc của nhà khoa học.
Ví dụ: Virgin Mobile Australia sử dụng một kho cơ sở dữ liệu và khai thác dữ liệu
để tăng lượng khách hàng trung thành và tung ra những dịch vụ mới. Công ty đã tạo
ra một kho cơ sở dữ liệu củng cố dữ liệu từ hệ thống dữ liêu doanh nghiệp, hệ thống
quản lý dữ liệu liên hệ khách hàng, dữ liệu thanh toán của khách hàng trong một dữ
liệu lớn. Khai thác dữ liệu cho phép quản lý xác định hồ sơ nhân khẩu học của những
khách hàng mới và liên hệ nó tới thiết bị cầm tay mà họ mua cũng như tới cuộc trình
diễn giới thiệu của mỗi cửa hàng và các chiến dịch tại điểm bán hàng, phản ứng của
người tiêu dùng tới sản phẩm và dịch vụ mới, và doanh thu từ mỗi khách hàng.
Text Mining (Khai phá dữ liệu văn bản) và Web Mining (Khai phá dữ liệu Web)
là một trong những ứng dụng quan trọng của Datamining.
- Text Mining (Khai phá dữ liệu văn bản): chúng ta có thể thấy vai trò của
biểu diễn văn bản là rất lớn, đặc biệt trong các bàit oán tìm kiếm, phân lớp,
phân cụm, dẫn đường.
Ví dụ: Maketer sử dụng Google Trends và Google Insights để tìm kiếm
dịch vụ, thông qua từ hoặc cụm từ trong truy vấn tìm kiếm Google, để tìm
hiểu những gì mọi người quan tâm và cái mà họ muốn mua.
Trang 22
- Web Mining (Khai phá dữ liệu Web): Sự phát triển nhanh chóng của mạng
Internet và Intranet đã sinh ra một khối lượng khổng lồ các dữ liệu dạng
siêu văn bản (dữ liệu Web). Có thể nói trang Web như là cuốn từ điển Bách
khoa toàn thư. Thông tin trên các trang Web đa dạng về mặt nội dung cũng
như hình thức. Có thể nói Internet như một xã hội ảo, nó bao gồm các
thông tin về mọi mặt của đời sống kinh tế, xã hội được trình bày dưới dạng
văn bản, hình ảnh, âm thanh,
Thuận lợi:
- Web bao gồm không chỉ có các trang mà còn có cả các hyperlink trỏ từ
trang này tới trang khác.

- Một máy chủ Web thường đăng ký một bản ghi đầu vào (Weblog entry) cho
mọi lần truy cập trang Web. Nó bao gồm địa chỉ URL, địa chỉ IP,
Timestamp. Dữ liệu Weblog cung cấp lượng thông tin giàu có về những
trang Web động
Khó khăn:
- Web dường như quá lớn để tổ chức thành một kho dữ liệu phục vụ
Dataming.
- Độ phức tạp của trang Web lớn hơn rất nhiều so với những tài liệu văn bản
truyền thống khác.
- Web là một nguồn tài nguyên thông tin có độ thay đổi cao.
- Chỉ một phần rất nhỏ của thông tin trên Web là thực sự hữu ích.
3.4 Dữ liệu và Web
Nhiều công ty đang sử dụng Web để làm cho thông tin trong cơ sở dữ liệu nội
bộ của họ sẵn có cho khách hàng và đối tác kinh doanh. Những khách hàng tương
lai có thể sử dụng web site của công ty để xem sản phẩm và đặt hàng. Công ty có
thể sử dụng Web để kiểm tra hàng tồn kho về sản phẩm đó từ nhà cung cấp, nhà
cung cấp có thể phải kiểm tra với những nhà cung cấp của họ cũng như những
hãng giao hàng cần giao hàng đúng giờ. Những hoạt động này bao gồm truy cập
và cập nhật cơ sở dữ liệu công ty qua Web (trong trường hợp đặt hàng).
Trang 23
3.4.1 Cách hoạt động
- Sơ đồ trên cho thấy rằng phần mềm làm việc giữa máy chủ web và DBMS có thể
nằm trên một máy chủ ứng dụng chạy trên máy tính chuyên dụng riêng.
- Phần mềm máy chủ ứng dụng xử lý tất cả các hoạt động ứng dụng bao gồm quá
trình giao dịch và truy cập dữ liệu, và giữa các máy tính nhờ vào trình duyệt và
một ứng dụng hay cơ sở dữ liệu kinh doanh phụ trợ của công ty.
- Máy chủ ứng dụng lấy yêu cầu từ máy chủ web, chạy theo trình tự kinh doanh để
xử lý giao dịch dựa trên những yêu cầu này, và cung cấp kết nối tới hệ thống hay
cơ sở dữ liệu phụ trợ của tổ chức.
3.4.2 Lợi ích

- Thứ nhất, mọi người biết sử dụng phần mềm trình duyệt web như thế nào, và yêu
cầu nhân viên đào tạo ít hơn nhiều nếu họ sử dụng công cụ truy vấn độc quyền.
- Thứ hai, giao diện web đòi hỏi ít hoặc không thay đổi đối với cơ sở dữ liệu nội
bộ.
- Thứ ba, truy cập cơ sở dữ liệu của công ty thông qua Web tạo ra những cơ hội và
hiệu quả mới, trong một vài trường hợp, nó thậm chí đang thay đổi cách thức kinh
doanh.
4. Quản lý nguồn tài nguyên dữ liệu
Xây dựng một hệ thống cơ sở dữ liệu chỉ mới là bước đầu. Để đảm bảo rằng
nguồn dữ liệu cho doanh nghiệp luôn được đảm bảo về độ chính xác, tính tin cậy và sẵn
sàng cho sử dụng thì cần phải có một chính sách hay thủ tục đặc biệt cho việc quản lý
nguồn dữ liệu ấy.
4.1 Thiết lập một chính sách thông tin
Trang 24
Tất cả các doanh nghiệp, dù lớn dù nhỏ, cũng đều cần một chính sách thông tin.
Cần phải đặt ra quy định về cách thức mà dữ liệu được tổ chức, được lưu giữ như thế
nào và những ai là người có quyền truy cập và thay đổi nguồn dữ liệu đó.
4.1.1 Chính sách thông tin (Information Policy)
- Chỉ rõ những quy định của tổ chức về việc chia sẻ, phổ biến, tiếp nhận, tiêu
chuẩn hóa, phân loại và kiểm kê thông tin.
- Vạch ra những thủ tục và trách nhiệm giải trình, nhận dạng người dùng hay
đơn vị tổ chức nào có thể chia sẻ thông tin, nơi nào thông tin được gửi đến,
ai là người chịu trách nhiệm cập nhật và lưu giữ thông tin.
4.1.2 Quản lý dữ liệu (Data Administration)
- Bao gồm việc đề ra những chính sách, thủ tục cụ thể mà thông qua đó, dữ
liệu được quản lý như 1 nguồn tài nguyên có cấu trúc.
- Các công việc cụ thể gồm có: phát triển chính sách thông tin, sắp xếp dữ
liệu, theo dõi thiết kế logic của dữ liệu, sự phát triển của danh mục dữ liệu
và giám sát việc sử dụng dữ liệu của các chuyên gia hệ thống thông tin và
nhóm người dùng cuối.

4.1.3 Quản lý cơ sở dữ liệu (Database Administration)
- Một tổ chức lớn cần có khung thiết kế dữ liệu và từng nhóm quản lý trong
một hệ thống thông tin chung, bộ phận mà sẽ chịu trách nhiệm trong việc
thiết lập cấu trúc, nội dung và lưu giữ dữ liệu.
- Các chức năng gồm có sự phối hợp sâu sát với người dùng, nhóm thiết kế
thiết lập nguồn dữ liệu, những mối quan hệ logic giữa các phần tử, cách
thức truy cập và chính sách bảo mật.
4.2 Đảm bảo chất lượng nguồn dữ liệu
Một cơ sở dữ liệu và cơ sở thông tin được thiết kế tốt sẽ hoạt động lâu dài, đảm
bảo cho doanh nghiệp có được đủ những thông tin cần. Tuy nhiên, cần thêm nhiều
bước phụ nữa để chắc chắn rằng dữ liệu trong cơ sở dữ liệu cấu trúc là chính xác và
đáng tin cậy.
4.2.1 Các vấn đề gặp phải về Cơ sở dữ liệu
- Tính thiếu chính xác: Những dữ liệu không chính xác, không đúng lúc hay
mâu thuẫn với những nguồn thông tin khác sẽ dẫn đến những vấn đề về tài
chính, về vận hành trong doanh nghiệp. Khi những dữ liệu bị lỗi không
Trang 25

×