Tải bản đầy đủ (.doc) (87 trang)

Nghiên cứu giải pháp tích hợp CSDL các phần mềm Bưu chính hỗ trợ thống kê, báo cáo tại Bưu điện Quảng Bình

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.66 MB, 87 trang )

LỜI CAM ĐOAN
Tôi xin cam đoan:
a. Những nội dung trong luận văn này là do tôi thực hiện dưới sự
hướng dẫn trực tiếp của PGS. TS Nguyễn Thanh Bình.
b. Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ
ràng và trung thực tên tác giả, tên công trình, thời gian, địa điểm
công bố.
c. Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian
trá, tôi xin chịu hoàn toàn trách nhiệm.
Tác giả
Hong Công Tin
MỤC LỤC
MỤC LỤC i
DANH MỤC CÁC TỪ VIẾT TẮT ii
DANH MỤC CÁC BẢNG iii
DANH MỤC CÁC HÌNH iv
v
MỞ ĐẦU 1
CƠ SỞ LÝ THUYẾT 5
1.1. KHO DỮ LIỆU 5
1.2. TÍCH HỢP DỮ LIỆU 14
1.3. XÂY DỰNG KHO DỮ LIỆU, TÍCH HỢP DỮ LIỆU TRONG SQL SERVER20
1.4. MÃ ĐỊA CHỈ BƯU CHÍNH 31
1.5. TổNG KT CHƯƠNG 1 37
GIẢI PHÁP TÍCH HỢP CÁC CSDL TẠI BƯU ĐIỆN QUẢNG BÌNH. .38
1.6. TRỰC TRẠNG CÁCH TỔ CHỨC CSDL TẠI BƯU ĐIỆN QUẢNG BÌNH.38
1.7. MÔ TẢ BÀI TOÁN TÍCH HỢP 40
1.8. ĐỀ XUẤT GIẢI PHÁP TÍCH HỢP 40
1.9. PHÂN TÍCH VÀ THIẾT KẾ GIẢI PHÁP TÍCH HỢP 42
1.10. TẠI KHO DỮ LIỆU, CSDL ĐƯỢC CÀI ĐẶT NHƯ SAU: 52
1.11. TỔNG KẾT CHƯƠNG 2 53


PHÁT TRIỂN ỨNG DỤNG 54
1.12. MÔ TẢ HỆ THỐNG ỨNG DỤNG 54
1.13. PHÂN TÍCH THIẾT KẾ HỆ THỐNG 55
1.14. THỬ NGHIỆM 59
KẾT LUẬN 76
TÀI LIỆU THAM KHẢO 78
QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN THẠC SĨ (BẢN SAO)
PHỤ LỤC.
DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết tắt
Giải Thích
Tiếng Anh Tiếng Việt
OLTP OnLine Transaction Processing Xử lý giao dịch trực tuyến
OLAP OnLine Analytical Processing Phân tích trực tuyến
SSIS
SQL Server Integration
Services
Dịch vụ tích hợp SQL Server
CSDL DataBase Cơ sở dữ liệu
DBA DataBase Administrator Quản trị cơ sở dữ liệu
DBMS Database Management System Hệ thống quản lý CSDL
DCE
Data Conversion and
Extraction
Chuyển đổi và xuất ra dữ liệu
DM DataMart Kho dữ liệu chủ đề
DOA Decision Oriented Analysis Phân tích hướng quyết định
DSS Decision Support System Hệ hỗ trợ quyết định
ETL Extract Transformation Load
Trích xuất, chuyển và nạp dữ

liệu
MSS Management Support System Hệ hỗ trợ quản lý
SA Subject Area Vùng chủ đề
DWH Data WareHouse Kho dữ liệu
EMS Dịch vụ chuyển phát nhanh
CT2003 Dịch vụ chuyển tiền 2003
DANH MỤC CÁC BẢNG
Số hiệu Tên Trang
Bảng 2-1 Các trường cần thiết trích rút đối với dịch vụ EMS
45
Bảng 2-2
Các trường cần thiết trích rút đối với dịch vụ
chuyển tiền nhanh
48
Bảng 2-3
Cấu trúc bảng dữ liệu khách hàng phát sinh tại các
dịch vụ
49
Bảng 2-4
Cấu trúc bảng dữ liệu khách hàng để gán mã địa
chỉ Bưu chính
50
Bảng 3-1
So sánh thuộc tính của các CSDL
62
Bảng 3-2
So sánh hình thức sử dụng thủ công và sử dụng
phần mềm để thống kê và báo cáo doanh thu dịch
vụ.
64

DANH MỤC CÁC HÌNH
Số hình Tên hình Trang
Hình 1.1 Lược đồ hình sao 9
Hình 1.2 Lược đồ hình bông tuyết 10
Hình 1.3 Kiến trúc kho dữ liệu 11
Hình 1.4 Mô hình tích hợp dữ liệu 15
Hình 1.5 Tích hợp dữ liệu do query-điều khiển 16
Hình 1.6 Mô hình tích hợp dữ liệu theo phương pháp ETL 17
Hình 1.7 Mô hình các kỹ thuật trích xuất dữ liệu trong phương
pháp ETL
18
Hình 1.8
Các dịch vụ của SQL Server 2005
20
Hình 1.9 Mô hình xây dựng kho dữ liệu 23
Hình 1.10 Công cụ phát triển SSIS 24
Hình 1.11
Kiến trúc của SSAS
26
Hình 1.12
Kiến trúc của Reporting Services
30
Hình 2.1 Mô hình CSDL hiện tại của Bưu điện Quảng Bình 40
Hình 2.2 Mô hình tổng thể tích hợp các CSDL 42
Hình 2.3 Mô hình ứng dụng của chương trình tin học dịch vụ
EMS
43
Hình 2.4 Cấu trúc bảng dữ liệu dịch vụ EMS đi 44
Hình 2.5 Cấu trúc bảng dữ liệu dịch vụ EMS đến 45
Hình 2.6 Mô hình ứng dụng của chương trình tin học dịch vụ

chuyển tiền
46
Hình 2.7 Cấu trúc bảng dữ liệu chứa thông tin dịch vụ chuyển
tiền
47
Hình 2.8
Mô hình chi tiết trích rút dữ liệu
51
Hình 2.9
Lưu đồ gán mã BC huyện cho dữ liệu khách hàng
52
Hình 2.10 Thuật toán gán mã Bưu chính huyện cho dữ liệu khách
hàng
53
Hình 2.11
Sơ đồ quan hệ giữa các bảng
53
Hình 3.1 Biểu đồ ca sử dụng quản trị người dùng 58
Hình 3.2 Biểu đồ ca sử dụng gán mã BC huyện 59
Hình 3.3 Biểu đồ ca sử dụng kết xuất báo cáo. 59
Hình 3.4 Mô hình trích rút dữ liệu 61

1
MỞ ĐẦU
1. Lý do chọn đề ti
Bắt đầu từ những năm 1990, việc nghiên cứu và ứng dụng kho dữ liệu
đã được diễn ra. Theo thống kê của nhóm META cho thấy công việc nghiên
cứu và áp dụng kho dữ liệu khiến thế giới đã tiêu tốn: tháng 02/1996 tiêu tốn
13.000 triệu USD (phần cứng: 8.000; service: 5.000); năm 1998: 14.600 USD;
năm 2001: lớn hơn 20.000 triệu USD.

Việc ứng dụng công nghệ thông tin nói chung và việc ứng dụng kho dữ
liệu nói riêng vào hoạt động của các doanh nghiệp đã góp phần thành công
trong sự phát triển của họ. Các ngành đã áp dụng rộng rãi công nghệ thông
tin cũng như việc áp dụng kho dữ liệu ngày càng nhiều. Ví dụ như: Hàng
không, ngân hàng, viễn thông, đầu tư, bảo hiểm, bán lẻ, chăm sóc sức khỏe,
… ứng dụng kho dữ liệu để thống kê, báo cáo và hỗ trợ để phân tích và đưa
ra quyết định, định hướng kinh doanh,… vì vậy đã phần nào đã đạt được
những thành công nhất định của riêng mình.
Đối với Bưu chính Việt Nam nói chung và Bưu điện Quảng Bình nói
riêng đã áp dụng hầu hết hệ thống tin học vào quy trình sản xuất. Nhưng do
đặc trưng riêng của từng chương trình vì vậy cơ sở dữ liệu không đồng nhất
với nhau, do đó tạo nên sự rời rạc có sở dữ liệu của các chương trình. Do đó
rất khó khăn khi tập hợp dữ liệu để báo cáo, tổng hợp, thống kê hàng tháng
cũng như hàng năm. Do đó, cần phải có một hệ thống nhằm tích hợp dữ liệu
từ các phần mềm đó tạo thành một cơ sở dữ liệu “đồng nhất”, nhằm xây dựng
chương trình tổng hợp số liệu để báo cáo, thống kê giúp cho những người
quản lý thấy được tình hình sản xuất, kinh doanh của đơn vị diễn ra nhằm có
những điều chỉnh về chính sách, phương hướng, kế hoạch để đạt hiệu quả
cao trong hoạt động sản xuất, kinh doanh của đơn vị.
2
Trước thực tế đó và được sự đồng ý của PGS. TS Nguyễn Thanh Bình,
tôi chọn đề tài “Nghiên cứu giải pháp tích hợp CSDL các phần mềm Bưu
chính hỗ trợ thống kê, báo cáo tại Bưu điện Quảng Bình” và mục đích đầu
tiên là sử dụng tại Bưu điện Quảng Bình.
2. Mục đích nghiên cứu
- Xây dựng kho dữ liệu tổng hợp của các phần mềm bưu chính nhằm
báo cáo, thống kê hiệu quả sản xuất kinh doanh (số lượng, doanh thu,…), để
kịp thời điều chỉnh nhanh chóng phương pháp làm việc và chăm sóc khách
hàng để đạt hiệu quả.
- Nâng cao hiệu quả kinh doanh, đủ sức cạnh tranh với các doanh

nghiệp khác.
- Tạo tiền đề để phát triển để phát triển các ứng dụng khác.
3. Đối tượng v phạm vi nghiên cứu
- Đối tượng nghiên cứu của đề tài
+ Các CSDL, quy trình sản xuất đang thực hiện tại Bưu điện Quảng
Bình.
+ Các công cụ lập trình, các hệ cơ sở dữ liệu liên quan đến đề tài (Kho
dữ liệu, tích hợp dữ liệu).
- Phạm vi nghiên cứu
+ Các CSDL, quy trình sản xuất đang thực hiện tại Bưu điện Quảng
Bình.
+ Xây dựng ứng thống kê, báo cáo và hệ Cơ sở dữ liệu SQL 2008.
3
4. Phương pháp nghiên cứu
- Phương pháp nghiên cứu lý luận: Các nội dung, văn bản quy trình
báo cáo, thống kê. Phân tích các nội dung văn bản, quy trình để xây dựng
kho dữ liệu, tích hợp dữ liệu.
- Phương pháp nghiên cứu thực tiễn. Tìm hiểu các CSDL của các phần
mềm bưu chính hiện sử dụng tại Bưu điện Quảng Bình.
- Phương pháp nghiên cứu tài liệu: Tìm hiểu ngôn ngữ lập trình, hệ
quản trị Cơ sở dữ liệu; Xây dựng ứng dụng.
5. Ý nghĩa khoa học v thực tiễn của đề ti
Bưu điện Quảng Bình là đơn vị doanh nghiệp ứng dụng hầu hết công
nghệ thông tin vào khai thác, sản xuất dịch vụ Bưu chính tại tỉnh Quảng
Bình. Do vậy, việc xây dựng, ứng dụng kho dữ liệu để phục vụ công việc
tổng hợp, thống kê báo cáo hiệu suất của công tác sản xuất tại đơn vị giúp
cho những người quản lý thấy được tình hình sản xuất, kinh doanh của đơn
vị diễn ra nhằm có những điều chỉnh về chính sách, phương hướng, kế hoạch
để đạt hiệu quả cao trong hoạt động sản xuất, kinh doanh của đơn vị.
6. Bố cục của luận văn

Báo cáo của luận văn được được tổ chức thành ba chương chính.
Chương 1. Cơ sở lý thuyt. Chúng tôi trình bày lý thuyết tổng quan về
kho dữ liệu, lý thuyết về tích hợp dữ liệu và khái niệm và cách tổ chức mã
địa chỉ Bưu chính.
Chương 2. Giải pháp tích hợp các CSDL tại Bưu điện Quảng Bình.
Chúng tôi trình bày thực trạng các CSDL đang ứng dụng tại Bưu điện Quảng
Bình và mô tả bài toán tích hợp dữ liệu, từ đó đề xuất và phân tích thiết kế
giải phát tích hợp các CSDL thành một kho dữ liệu thống nhất để phục vụ
mục đích tổng hợp, thống kê sản lượng kinh doanh các dịch vụ Bưu chính
nhằm điều chỉnh và đưa ra chiến lược kinh doanh.
4
Chương 3. Phát triển ứng dụng. Trên cơ sở kho dữ liệu đã được tích
hợp ở chương 2, chúng tôi tiếp tục trình bày các bước phân tích thiết kế, xây
dựng ứng dụng “Thống kê và báo cáo sản lượng dịch vụ Bưu chính”, và đánh
giá kết quả đạt được.
5
CHƯƠNG 1.
CƠ SỞ LÝ THUYẾT
Trong chương này, chúng tôi trình bày lý thuyết tổng quan về khái
niệm, đặt tính, cấu trúc, các công cụ xây dựng kho dữ liệu, trình bày lý
thuyết tổng quan về khái niệm, các phương pháp tích hợp dữ liệu. Các dữ
liệu khách hàng được tích hợp sau này sẽ được gán mã Bưu chính do đó
trong chương này chúng tôi cũng trình bày khái niệm và các tổ chức mã địa
chỉ Bưu chính.
1.1. KHO DỮ LIỆU
Những nghiên cứu và phát triển trong các hệ thống cơ sở dữ liệu từ
những năm 1970 đã là động lực cho việc phát triển các hệ thống cơ sở dữ liệu
quan hệ tinh vi từ những hệ thống xử lý file đơn giản. Việc giảm chi phí,
tăng tốc độ của các bộ vi xử lý đã cho phép những loại dữ liệu khác nhau như
các “tài liệu” đa truyền thông, hình ảnh, chuỗi thời gian, thủ tục hoặc những

dữ liệu “hoạt động”, và những hình thức dữ liệu phức tạp khác được lưu trữ
trong các cấu trúc bảng quan hệ. Kết quả là, nhiều công ty trong thế giới kinh
doanh đã lưu trữ, tổ chức và cập nhật các bảng kiểm kê hàng hoá, lịch sử bán
hàng, thông tin khách hàng,… trong một tập hợp các cơ sở dữ liệu lớn. Ví
dụ, một trong những cơ sở dữ liệu lớn nhất trên thế giới đã được tạo bởi
WalMart (một nhà bán lẻ ở Hoa Kỳ), đã xử lý hơn 20 triệu giao dịch một
ngày. Những tổ chức phi kinh doanh khác cũng đã thu thập những lượng dữ
liệu khổng lồ. Ngày nay, hầu như những giao dịch đều được lưu vào máy tính
và kết quả là những cơ sở dữ liệu lên đến hàng Gigabyte [3].
Nếu dữ liệu tích luỹ được phân tích chính xác, nó có thể trở thành
những phương tiện cạnh tranh hiệu quả. Thật không may, sự phát triển nhanh
chóng, lượng dữ liệu sưu tập khổng lồ đã vượt xa khả năng hiểu biết và đánh
6
giá của con người. Chúng rõ ràng đã làm tràn ngập những phương pháp phân
tích dữ liệu truyền thống chẳng hạn như bảng tính và câu truy vấn. Vì thế,
nhiều quyết định quan trọng đã được đưa ra dựa trên những chủ quan, kinh
nghiệm, sự thông thạo của người ra quyết định hơn là trên những thông tin
được lưu trữ trong cơ sở dữ liệu. Và kết quả là những cơ sở dữ liệu lớn đã trở
thành các “mồ dữ liệu” (data tombs) và điều này đã được mô tả như là vấn đề
“giàu dữ liệu nhưng nghèo thông tin”.
Trong môi trường cạnh tranh ngày nay cùng với sự phát triển nhanh
chóng của thế giới, những nhà ra quyết định xác định rõ cần phải có một thế
hệ các kỹ thuật và công cụ tính toán mới nhằm hỗ trợ họ trong việc trích xuất
các thông tin hữu ích (tri thức) được nhúng bên trong các dữ liệu thu thập và
tích luỹ. Họ mong muốn có những công cụ hỗ trợ quyết định trong một môi
trường tích hợp để họ có thể tự tạo những tiêu chuẩn của riêng mình hoặc
những báo biểu đặc biệt cho phân tích các dữ liệu phức tạp. Nắm được lợi ích
của lượng dữ liệu lớn, họ có thể xác định được những thông tin tiềm ẩn,
chẳng hạn nhờ đó có thể tiết kiệm chi phí, vươn tới những thị trường mới và
theo vết tổng thu nhập một cách hiệu quả.

Một loại hệ thống hỗ trợ quyết định tinh vi mới – data warehouse – đã
bắt đầu xuất hiện. Chúng là những công cụ có giá trị đối với nhiều tổ chức
bởi vì chúng cung cấp một tập hợp các kỹ thuật hỗ trợ quyết định để cho
phép thực hiện, quản lý, phân tích,… nhằm thực hiện những quyết định
nhanh hơn và chính xác hơn.
1.1.1. Khái niệm
Thông thường, một kho dữ liệu được xem như một cơ sở dữ liệu mà
được duy trì tách biệt từ những cơ sở dữ liệu tác nghiệp (operational
database) của tổ chức. Nó thường được tích hợp với một hệ thống ứng dụng
đa dạng để hỗ trợ xử lý thông tin và phân tích dữ liệu bằng cách cung cấp
7
một nền tảng đồng nhất cho việc hợp nhất, lịch sử hoá dữ liệu. Theo
W.H.Inmon, một nhà kiến trúc hàng đầu của việc xây dựng kho dữ liệu, thì
kho dữ liệu được định nghĩa như một “tập hợp dữ liệu định hướng theo chủ
đề, tích hợp, có tính ổn định, thay đổi theo thời gian hỗ trợ cho xử lý thực
hiện quyết định quản trị” [1], [11].
Thuật ngữ tạo kho dữ liệu (data warehousing) được xem như quá trình
xây dựng và sử dụng kho dữ liệu. Những công cụ hỗ trợ quyết định thường
yêu cầu hợp nhất dữ liệu từ nhiều nguồn không đồng nhất, mà có thể bao
gồm nhiều nguồn bên ngoài như dữ liệu thị trường chứng khoán. Những
nguồn dữ liệu này bắt buộc phải làm cho tương thích, vì chúng có thể chứa
dữ liệu khác nhau về chất lượng, hình thức sử dụng, mã và định dạng. Do đó,
xây dựng một kho dữ liệu đòi hỏi phải tích hợp dữ liệu, làm sạch dữ liệu, và
hợp nhất dữ liệu.
Các đặc tính của kho dữ liệu
Một kho dữ liệu có thể được coi là một hệ thống thông tin với những
đặc tính:
- Là một cơ sở dữ liệu được thiết kế có nhiệm vụ phân tích, sử dụng các
dữ liệu từ các ứng dụng khác nhau.
- Hỗ trợ cho một số người dùng có liên quan với các thông tin liên

quan.
- Là dữ liệu chỉ đọc.
- Nội dung của nó được cập nhật thường xuyên theo cách thêm thông
tin.
- Chứa các dữ liệu lịch sử và hiện tại để cung cấp các xu hướng thông
tin.
- Chứa các bảng dữ liệu có kích thước lớn.
8
- Một câu hỏi thường trả về một tập kết quả liên quan đến toàn bộ bảng
và các liên kết nhiều bảng [1].
1.1.2. Cách thức xây dựng kho dữ liệu
a. Thiết kế kho dữ liệu
Lược đồ thực thể kết hợp và kỹ thuật dạng chuẩn được sử dụng phổ biến
cho thiết kế cơ sở dữ liệu trong môi trường xử lý giao dịch trực tuyến –
OLTP (On-Line Transaction Processing). Do đó, cơ sở dữ liệu được thiết kế
bởi lược đồ thực thể liên kết – ER (Entity Relationship Diagram) không thích
hợp cho các hệ thống hỗ trợ quyết định vì chúng chủ yếu cần hiệu quả trong
truy vấn và trong nạp dữ liệu.
Còn kho dữ liệu, mục tiêu là hỗ trợ quyết định cho các nhà quản lý.
Tính chi tiết và riêng lẻ của các mẩu tin thì ít quan trọng hơn dữ liệu có tính
lịch sử, tổng kết và hợp nhất. Do đó, kho dữ liệu thường chứa dữ liệu hợp
nhất từ một hoặc nhiều cơ sở dữ liệu tác nghiệp và được thu thập qua một
thời gian dài. Kết quả là kích thước kho dữ liệu có khuynh hướng từ vài trăm
gigabyte đến hàng terabyte so với các cơ sở dữ liệu tác nghiệp. Kho dữ liệu
hỗ trợ các truy vấn phức tạp với thời gian hồi đáp nhanh, các truy vấn phức
tạp có thể truy xuất hàng triệu mẩu tin và thực hiện nhiều lần các thao tác
quét, kết và tổng hợp. Đối với kho dữ liệu, số lượng truy vấn đưa vào và thời
gian hồi đáp quan trọng hơn số lượng giao dịch đưa vào.
Căn cứ vào đó, các cơ sở dữ liệu tác nghiệp được làm cho phù hợp tốt
để hỗ trợ các tác vụ OLTP, còn kho dữ liệu được thiết kế để phục vụ tốt cho

vấn đề truy vấn và khai thác dữ liệu. Vì thế, nếu cố gắng thực thi các truy
vấn phức tạp đối với các cơ sở dữ liệu tác nghiệp sẽ có kết quả là hiệu quả
thực hiện không thể chấp nhận được.
Cách đơn giản nhất để mô tả một kho dữ liệu là chuyển nó thành các
9
lược đồ sao (star schema) để thể hiện mô hình dữ liệu. Cơ sở dữ liệu bao gồm
một bảng chi phối lớn ở giữa, được gọi là bảng sự kiện (fact table), mà chỉ là
bao gồm nhiều kết nối đến các bảng còn lại. Các bảng còn lại, được gọi là các
bảng chiều (dimension table), mỗi bảng chỉ có một liên kết đến bảng sự kiện.
Mỗi dòng trong bảng sự kiện bao gồm một con trỏ đến một bảng chiều để
cung cấp toạ độ đa chiều của nó, và lưu trữ các độ đo cho các toạ độ này. Mỗi
bảng chiều bao gồm các cột tương đương với các thuộc tính của chiều. Các
bảng chiều mô tả và bổ sung thông tin cho bảng sự kiện.
Hình 1-1: Lược đồ hình sao
Lược đồ hình sao rõ ràng là không hỗ trợ cho phân cấp thuộc tính. Lược
đồ bông tuyết (Snowflake schema) là một cải tiến của lược đồ hình sao trong
đó một số chiều được phân cấp để thể hiện rõ ràng dạng chuẩn của bảng
chiều. Điều này dẫn đến nhiều lợi ích trong việc duy trì các bảng chiều. Tuy
nhiên cấu trúc phi dạng chuẩn của các bảng chiều trong lược đồ hình sao có
thể thích hợp hơn cho việc duyệt các chiều.
10
Hình 1-2: Lược đồ hình bông tuyết
b. Cấu trúc kho dữ liệu
Cấu trúc kho dữ liệu được xây dựng dựa trên các hệ quản trị cơ sở dữ
liệu quan hệ, có chức năng giống như một kho lưu trữ thông tin trung tâm.
Trong đó, dữ liệu tác nghiệp và phần xử lý được tách riêng khỏi quá trình xử
lý kho dữ liệu. Kho lưu trữ trung tâm được bao quanh bởi các thành phần
được thiết kế để làm cho kho dữ liệu có thể hoạt động, quản lý và truy nhập
được từ người dùng đầu cuối cũng như từ các nguồn dữ liệu [3].
Chiều thời

gian
Cửa hng
phân phối
Chiều sản
phẩm
Chiều
khách
hng
Bảng sự
kiện bán
hng
Loại
sản
phẩm
11
Hình 1-3: Kiến trúc kho dữ liệu
Như hình trên cho thấy, kho dữ liệu bao gồm bảy phần:
- Dữ liệu nguồn (là các ứng dụng tác nghiệp hoặc các cơ sở dữ
liệu tác nghiệp) và các công cụ chiết xuất, làm sạch và chuyển đổi dữ liệu.
- Kho dữ liệu về dữ liệu (Metadata).
- Các kỹ thuật xây kho.
- Kho dữ liệu theo chủ đề (Data mart), là nơi các dữ liệu được
khoanh vùng theo chủ đề tới một giới hạn nào đó và có thể được thay đổi cho
phù hợp với nhu cầu của từng bộ phận người dùng. Một kho dữ liệu có thể
được phân tích thành nhiều kho dữ liệu chủ đề và ngược lại một tập hợp các
kho dữ liệu theo chủ đề có thể tạo thành một kho dữ liệu.
+ Các công cụ truy vấn (query), báo cáo (reporting), phân tích trực
tuyến (OLAP) và khai phá dữ liệu (data mining). Đây chính là các cách khai
thác kho dữ liệu để đem lại những “tri thức” hơn là đem lại chính những dữ
liệu thô.

+ Quản trị kho dữ liệu.
12
+ Hệ thống phân phối thông tin.
Kho dữ liệu theo chủ đề (Data Mart)
Kho dữ liệu chủ đề là một dạng thu nhỏ của kho dữ liệu, nếu kho dữ
liệu mô tả thông tin của một tổ chức thương mại thì kho dữ liệu chủ đề mô tả
thông tin cho từng phòng ban của tổ chức đó (như phòng kinh doanh, phòng
nhân sự,…) hoặc chứa thông tin cho mỗi chi nhánh của tổ chức.
Kho dữ liệu chủ đề thì không cần thiết, vì chúng có thể làm tốn thêm
thời gian xử lý cho việc cập nhật dữ liệu mới cho một số lượng lớn kho dữ
liệu chủ đề. Tuy nhiên, sử dụng kho dữ liệu chủ đề cho phép thực thi các truy
vấn nhanh hơn vì dữ liệu của chúng ít hơn so với kho dữ liệu.
1.1.3. Các vấn đề liên quan đn kho dữ liệu
Các ứng dụng của kho dữ liệu: Một kho dữ liệu bình thường chưa đủ
để có các tri thức. Để có tri thức, kho dữ liệu cần phải được sử dụng đúng
cách, có thể sử dụng theo 3 cách chính:
Theo cách khai thác truyền thống, kho dữ liệu được sử dụng để khai
thác các thông tin bằng các công cụ truy vấn và báo cáo. Tuy nhiên, nhờ có
việc chiết xuất, tổng hợp và chuyển đổi từ các dữ liệu thô sang dạng các dữ
liệu chất lượng cao và có tính ổn định, kho dữ liệu đã giúp cho việc nâng cao
các kỹ thuật biểu diễn thông tin truyền thống (truy vấn và báo cáo). Bằng
cách tạo ra một tầng ẩn giữa người dùng và cơ sở dữ liệu, các dữ liệu đầu vào
của các kỹ thuật này được đặt vào một nguồn duy nhất. Việc hợp nhất này
loại bỏ được rất nhiều lỗi sinh ra do việc phải thu thập và biểu diễn thông tin
từ rất nhiều nguồn khác nhau cũng như giảm bớt được sự chậm trễ do phải
lấy các dữ liệu bị phân đoạn trong các cơ sở dữ liệu khác nhau, tránh cho
người dùng gặp phải những câu lệnh SQL phức tạp. Tuy nhiên, đây mới chỉ
là cách khai thác với kỹ thuật cao để đưa ra các dữ liệu tinh và chính xác hơn
13
chứ chưa đưa ra được dữ liệu “tri thức”.

Thứ hai là các kho dữ liệu được sử dụng để hỗ trợ cho phân tích trực
tuyến (OLAP). Trong khi ngôn ngữ vấn đáp chuẩn SQL và các công cụ làm
báo cáo truyền thống chỉ có thể miêu tả những gì có trong cơ sở dữ liệu, thì
phân tích trực tuyến có khả năng phân tích dữ liệu, xác định xem giả thuyết
đúng hay sai. Tuy nhiên, phân tích trực tuyến lại không có khả năng đưa ra
được các giả thuyết.
Hơn nữa, kích thước quá lớn và tính chất phức tạp của kho dữ liệu làm
cho nó rất khó có thể được sử dụng cho những mục đích như đưa ra các giả
thuyết từ các thông tin mà chương trình ứng dụng cung cấp. (Ví dụ như khó
có thể đưa ra được giả thuyết giải thích được hành vi của một nhóm khách
hàng).
Trước đây, kỹ thuật máy học thường được sử dụng để tìm ra những giả
thuyết từ các thông tin dữ liệu thu thập được. Tuy nhiên, thực nghiệm cho
thấy chúng thể hiện khả năng rất kém khi áp dụng với các tập dữ liệu lớn
trong kho dữ liệu này. Phương pháp thống kê tuy ra đời đã lâu nhưng không
có gì cải tiến để phù hợp với sự phát triển của dữ liệu. Đây chính là lý do tại
sao một khối lượng lớn dữ liệu vẫn chưa được khai thác và thậm chí được lưu
chủ yếu trong các kho dữ liệu không trực tuyến (off-line). Điều này đã tạo
nên một lỗ hổng lớn trong việc hỗ trợ phân tích và tìm hiểu dữ liệu, tạo ra
khoảng cách giữa việc tạo ra dữ liệu và việc khai thác các dữ liệu đó. Trong
khi đó, càng ngày người ta càng nhận thấy rằng nếu được phân tích thông
minh thì dữ liệu sẽ là một nguồn tài nguyên quý giá trong cạnh tranh trên
thương trường.
Giới tin học đã đáp lại những thách thức trong thực tiễn cũng như trong
nghiên cứu khoa học bằng cách đưa ra một phương pháp mới đáp ứng cả nhu
14
cầu trong khoa học cũng như trong hoạt động thực tiễn, đó chính là công
nghệ tích hợp và khai phá dữ liệu. Đây chính là ứng dụng chính thứ ba của
kho dữ liệu.
1.2. TÍCH HỢP DỮ LIỆU

Trong những năm gần đây, sự phát triển mạnh mẽ của CNTT và ngành
công nghiệp phần cứng đã làm cho khả năng thu thập và lưu trữ thông tin của
các hệ thống thông tin tăng rất nhanh. Bên cạnh đó, việc tin học hoá một
cách ồ ạt và nhanh chóng các hoạt động sản xuất, kinh doanh cũng như nhiều
lĩnh vực hoạt động khác đã tạo ra cho chúng ta một lượng dữ liệu lưu trữ
khổng lồ. Hàng triệu CSDL đã được sử dụng trong các hoạt động sản xuất,
kinh doanh, quản lí Trong đó, có nhiều CSDL cực lớn cỡ Gigabyte, thậm
chí là Terabyte. Chúng được chứa trong nhiều CSDL khác nhau, do đó nhu
cầu cấp thiết là cần có những kĩ thuật và công cụ mới để tự động chuyển đổi
lượng dữ liệu khổng lồ kia thành các tri thức có ích và tích hợp nó lại thành
một mối thống nhất. Từ đó, các kĩ thuật tích hợp dữ liệu đã trở thành một
lĩnh vực thời sự của nền CNTT thế giới hiện nay.
1.2.1. Khái niệm
Tích hợp dữ liệu là quá trình tổng hợp có sự lựa chọn dữ liệu từ các
nguồn khác nhau sau đó kết hợp lại thành một tập hợp thông tin chính xác,
chất lượng và nhất quán tiếp tục chuẩn hóa, làm sạch tạo thành kho dữ liệu
để cung cấp người dùng với một cái nhìn thống nhất của các dữ liệu này [5].
15
Hình 1-4: Mô hình tích hợp dữ liệu
1.2.2. Các phương pháp tích hợp dữ liệu
Hiện tại có 3 phương pháp phổ biến được ứng dụng cho việc tích hợp dữ
liệu: Tích hợp dữ liệu thủ công, tích hợp dữ liệu bán tự động và tích hợp dữ
liệu được tiến hành một cách tự động hoàn toàn.
a. Tích hợp dữ liệu bằng phương pháp thủ công
Quan sát một CSDL và mã nguồn của nó và tìm thấy một số trường dữ
liệu cần trích xuất. Người sử dụng có thể dùng các giải pháp đơn giản như:
select, export,… hoặc viết chương trình để trích xuất các dữ liệu mục tiêu.
Tuy nhiên, với phương pháp này thì không thể làm việc với một số lượng lớn
và được cập nhập thường xuyên.
b. Tích hợp dữ liệu bằng phương pháp bán tự động

• Phương pháp do query-điều khiển (on-demand)
Mô hình tích hợp dữ liệu bằng phương pháp bán tự động được trình
bày ở hình 1-5.
16
Hình 1-5: Tích hợp dữ liệu do query-điều khiển
Phương pháp bán tự động này được đề xuất vào khoảng năm 1995-
1996. Trong phương pháp này các lược đồ trung gian (tập hợp các luật trích
xuất) được xây dựng, dựa vào đó người dùng có thể chạy các câu truy vấn
để trích xuất dữ liệu từ những kiểu dữ liệu có định dạng tương tự.
Những hạn chế khi sử dụng giải pháp này:
+ Xử lý truy vấn
♦ Chậm hay nguồn thông tin không có.
♦ Tích hợp và lọc phức tạp.
+ Không hiệu suất và tốn phí cho các query phổ biến.
+ Cạnh tranh do xử lý cục bộ tại nguồn.
c. Tích hợp dữ liệu bằng phương pháp tự động
•Phương pháp ETL - trích xuất, biến đổi và tải [17].
Là quá trình gồm 3 bước: Trích xuất dữ liệu từ các nguồn khác nhau sau
đó biến đổi nó và cuối cùng là tải (load) vào nơi đã chuẩn bị trước.
Mô hình tích hợp dữ liệu bằng phương pháp ETL được trình bày ở
hình 1-6.
17
Hình 1-6: Mô hình tích hợp dữ liệu theo phương pháp ETL
 Trích xuất: Là phần đầu của một quá trình ETL liên quan đến việc
trích xuất dữ liệu từ các hệ thống dữ liệu nguồn.
Hầu hết các kho dữ được hợp nhất từ các nguồn dữ liệu khác nhau.
Các nguồn dữ liệu này có thể được tổ chức định dạng dữ liệu khác nhau, các
định dạng thường gặp là cơ sở dữ liệu quan hệ và các tập tin phẳng, nhưng có
thể bao gồm quan hệ cơ sở dữ liệu phi cấu trúc hay cấu trúc dữ liệu khác.
Trích xuất dữ liệu có nhiệm vụ lấy những dữ liệu cần thiết từ các nguồn dữ

liệu này để tạo cơ sở cho các công đoạn kế tiếp của quá trình. Nói chung,
mục tiêu của giai đoạn này là khai thác dữ liệu từ các nguồn khác nhau thành
một định dạng duy nhất để chế biến, chuyển đổi.
Các kỹ thuật trích xuất dữ liệu được trình bày tại hình 1-7.
18
Hình 1-7: Mô hình các kỹ thuật trích xuất dữ liệu trong phương pháp ETL
 Chuyển đổi: Là giai đoạn áp dụng một loạt các quy tắc hoặc các
chức năng để các dữ liệu được trích xuất từ các nguồn biến đổi thành dữ liệu
mong muốn để nạp vào nơi chuẩn bị trước. Một số nguồn dữ liệu sẽ yêu cầu
rất ít hoặc thậm chí không có thao tác chuyển đổi dữ liệu mà dùng nguyên lại
dữ liệu nguồn. Trong trường hợp khác, nhiều loại loại dữ liệu trích xuất nhất
thiết phải chuyển đổi mới có thể đáp ứng được các nhu cầu và kỹ thuật của
cơ sở dữ liệu đích (kho dữ liệu đã thiết kế sẵn):
- Chỉ chọn các cột nào đó để tải (hoặc chọn cột không cần tải). Ví dụ,
nếu dữ liệu nguồn có ba cột (còn gọi là trường) gồm họ tên, tuổi, tiền lương
nhưng dữ liệu chúng ta cần là họ tên và tiền lương, như vậy cột tuổi phải
chuyển đổi làm mất đi. Tương tự như vậy, cơ chế khai thác có thể bỏ qua tất
cả các bảng ghi mà không có lương (lương = null).
- Dịch các giá trị được mã hóa.Ví dụ, nếu dữ liệu nguồn được tổ chức:
1 cho Bình và 2 dành cho nữ, nhưng kho dữ liệu đích chúng ta thiết kế M lưu
trữ cho Bình và F cho nữ, nhưng vậy chúng ta phải biến đổi nó cho phù hợp.
- Phát sinh một tính toán giá trị mới (ví dụ, sale_amount = qty *
unit_price)
- Gia nhập dữ liệu từ nhiều nguồn khác nhau (ví dụ, tra cứu, hợp nhất)
19
- Tập hợp (ví dụ, rollup - tổng hợp nhiều hàng dữ liệu - tổng doanh thu
cho mỗi cửa hàng, và cho từng khu vực, v.v…)
- Tạo ra trường giá trị khóa (key) thay thế.
- Transposing hoặc pivoting (chuyển nhiều cột thành nhiều hàng hoặc
ngược lại).

- Tách một cột thành nhiều cột. Ví dụ, đặt một danh sách cách nhau
bằng dấu phẩy quy định như một chuỗi trong một cột như các giá trị cá nhân
trong các cột khác nhau.
- Phân tích sự lặp đi lặp lại cột vào một bảng chi tiết riêng biệt. Ví dụ,
di chuyển một loạt các địa chỉ trong một bản ghi vào địa chỉ duy nhất trong
một tập hợp các bản ghi trong một bảng địa chỉ liên kết.
Áp dụng bất kỳ hình thức chuyển đổi dữ liệu đơn giản hay phức tạp,
nếu không phù hợp với cấu trúc của dữ liệu đích thì có thể dẫn đến loại bỏ
hoàn toàn, một phần hoặc không có các dữ liệu để nạp vào cơ sở dữ liệu đích.
Bên cạnh những thiết kế quy tắc, chức năng chuyển đổi dữ liệu tự động
thường có thêm những quy định xử lý ngoại lệ, thủ công.
 Tải: Giai đoạn nạp tải dữ liệu đã được trích xuất và chuyển đổi vào
các mục tiêu cuối cùng, thường là các kho dữ liệu (DWH). Tùy thuộc vào yêu
cầu của tổ chức, quá trình này rất khác nhau. Một số kho dữ liệu có thể ghi
đè lên thông tin hiện có với thông tin tích luỹ, thường xuyên cập nhật trích
xuất dữ liệu được thực hiện trên cơ sở hàng ngày, hàng tuần hoặc hàng
tháng. DWH khác (hoặc ngay cả các bộ phận khác của cùng một DWH) có
thể thêm dữ liệu mới theo thời gian thực.

×