Tải bản đầy đủ (.pdf) (73 trang)

(Luận văn thạc sĩ) nghiên cứu một số giải pháp tích hợp dữ liệu, ứng dụng xây dựng cơ sở dữ liệu nghiệp vụ tập trung trong ngành hải quan 04

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.71 MB, 73 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

LƢU HÙNG CƢỜNG

NGHIÊN CỨU MỘT SỐ GIẢI PHÁP TÍCH HỢP DỮ LIỆU,
ỨNG DỤNG XÂY DỰNG CƠ SỞ DỮ LIỆU NGHIỆP VỤ
TẬP TRUNG TRONG NGÀNH HẢI QUAN

LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

LƢU HÙNG CƢỜNG

NGHIÊN CỨU MỘT SỐ GIẢI PHÁP TÍCH HỢP DỮ LIỆU,
ỨNG DỤNG XÂY DỰNG CƠ SỞ DỮ LIỆU NGHIỆP VỤ
TẬP TRUNG TRONG NGÀNH HẢI QUAN
Ngành: Công nghệ Thông tin
Chuyên ngành: Hệ thống thơng tin
Mã số: 60.48.01.04

LUẬN VĂN THẠC SỸ CƠNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. PHÙNG VĂN ỔN


Hà Nội - 2015


LỜI CAM ĐOAN
Tơi cam đoan đây là cơng trình nghiên cứu của tôi. Các số liệu, kết quả nêu trong
luận văn là trung thực và chưa từng được công bố trong bất kỳ cơng trình nào khác.

Hà Nội ngày 12 tháng 09 năm 2015
Học viên

Lưu Hùng Cường

3


LỜI CẢM ƠN
Do vốn kiến thức thực tế còn hạn chế nên nội dung luận văn không thể tránh khỏi
thiếu sót. Do vậy em rất mong nhận được ý kiến đóng góp của các thầy cơ giáo và
những ai quan tâm đến vấn đề tích hợp dữ liệu để em có thể hồn thiện hơn trong
những lần sau ở các cấp học cao hơn.
Em cũng xin được gửi lời cảm ơn chân thành tới các thầy cô của Trường Đại học
Công nghệ, Đại học Quốc gia Hà Nội đã tạo mọi điều kiện cho em khi nghiên cứu đề
tài này. Và đặc biệt em xin được gửi lời cảm ơn sâu sắc nhất tới TS. Phùng Văn Ổn,
thầy đã tận tình chỉ bảo và hướng dẫn em hồn thành luận văn này.
Trong luận văn có một phần là cơng sức đóng góp chung của tập thể anh chị em
trong cơng ty, nơi em cơng tác với vai trị là Project Manager.
Hà Nội ngày 26 tháng 9 năm 2015
Học viên

Lưu Hùng Cường


4


MỤC LỤC
LỜI CAM ĐOAN ............................................................................................... 3
LỜI CẢM ƠN ..................................................................................................... 4
MỤC LỤC ........................................................................................................... 5
DANH MỤC CÁC CHỮ CÁI VIẾT TẮT ....................................................... 8
DANH MỤC CÁC HÌNH VẼ ............................................................................ 9
LỜI MỞ ĐẦU ................................................................................................... 10
CHƢƠNG I. GIỚI THIỆU CHUNG .............................................................. 13
1.1 Tích hợp dữ liệu ....................................................................................... 13
1.1.1 Khái niệm về tích hợp dữ liệu ............................................................ 13
1.1.2 Các mức độ tích hợp dữ liệu .............................................................. 13
1.1.3 Vấn đề của tích hợp dữ liệu ................................................................ 14
1.1.4 Vai trị của tích hợp dữ liệu trong các tổ chức ................................... 15
1.1.5 Các yếu tố quyết định đến việc lựa chọn giải pháp tích hợp dữ liệu . 16
1.2 Cơ sở dữ liệu trong hệ thống OLTP và OLAP ..................................... 17
1.3 Kho dữ liệu (Datawarehouse) ................................................................. 20
1.3.1 Định nghĩa kho dữ liệu ....................................................................... 20
1.3.2 Các đặc trưng của kho dữ liệu ............................................................ 20
1.3.3 Kiến trúc của kho dữ liệu ................................................................... 21
1.3.4 Mơ hình dữ liệu sử dụng trong kho dữ liệu ........................................ 22
1.4 Hiện trạng mơ hình dữ liệu ngành hải quan ......................................... 23
1.4.1 Các hệ thống đang được sử dụng ....................................................... 23
1.4.2 Quy trình thực hiện............................................................................. 23
1.4.3 Những tồn tại và nhu cầu bổ sung ...................................................... 24

5



1.5 Hiện trạng ứng dụng CNTT tại cục Hải quan TP HCM ..................... 25
1.5.1 Hệ thống mạng ................................................................................... 25
1.5.2 Hệ thống thiết bị ................................................................................. 27
1.5.3 Các ứng dụng đã triển khai................................................................. 27
CHƢƠNG II: MỘT SỐ KỸ THUẬT, CƠNG NGHỆ TÍCH HỢP DỮ LIỆU31
2.1 Các kỹ thuật tích hợp dữ liệu ................................................................. 31
2.1.1 Kỹ thuật hợp nhất dữ liệu ................................................................... 31
2.1.2 Kỹ thuật liên hợp dữ liệu .................................................................... 32
2.1.3 Kỹ thuật lan truyền dữ liệu ................................................................. 34
2.1.4 Kỹ thuật lai ......................................................................................... 35
2.2 Các cơng nghệ tích hợp dữ liệu .............................................................. 35
2.2.1 Công nghệ ETL .................................................................................. 35
2.2.2 Công nghệ EII .................................................................................... 36
2.2.3 Công nghệ EAI ................................................................................... 37
2.2.4 Công nghệ EDR.................................................................................. 39
2.2.5 Công nghệ ECM ................................................................................. 39
2.3 Nhận xét đánh giá .................................................................................... 40
2.3.1 Bức tranh tổng thể .............................................................................. 40
2.3.2 So sánh sự khác biệt ........................................................................... 40
2.3.3 Kết hợp các công nghệ ....................................................................... 42
CHƢƠNG III: GIẢI PHÁP TÍCH HỢP DỮ LIỆU BẰNG SQL SERVER
REPLICATION ...................................................................................................... 43
3.1 Tổng quan về SQL Server Replication .................................................. 43
3.1.1 Thành phần ......................................................................................... 43
3.1.2 Các kiểu replication ............................................................................ 46

6



3.2 Snapshot replication ................................................................................ 46
3.3 Transactional replication ........................................................................ 47
3.4 Merge replication ..................................................................................... 49
3.5 Các phƣơng pháp triển khai replication ............................................... 49
3.6 Lựa chọn mơ hình và cách tiếp cận ........................................................ 50
3.7 Nhận xét đánh giá .................................................................................... 51
CHƢƠNG IV. ỨNG DỤNG XÂY DỰNG CƠ SỞ DỮ LIỆU TÍCH HỢP
TỒN NGÀNH HẢI QUAN ................................................................................. 53
4.1 Giới thiệu bài toán ................................................................................... 53
4.2 Yêu cầu về kỹ thuật ................................................................................. 55
4.3 Kiến trúc tổng thể của hệ thống ............................................................. 55
4.3.1 Mơ hình tổng thể ................................................................................ 55
4.3.2 Mơ hình phân lớp của hệ thống .......................................................... 56
4.3.3 Mơ hình kiến trúc ứng dụng và dữ liệu .............................................. 58
4.3.4 Mơ hình trao đổi dữ liệu với hệ thống khác ....................................... 61
4.4 Giải pháp công nghệ sử dụng ................................................................. 61
4.4.1 Giải pháp tích hợp dữ liệu .................................................................. 61
4.4.2 Giải pháp xây dựng ứng dụng tích hợp nghiệp vụ hải quan .............. 66
4.4.3 Giải pháp xây dựng ứng dụng dự phòng, phòng chống thảm họa ..... 69
4.5 Kết quả thực hiện ..................................................................................... 70
4.6 Đánh giá kết quả ...................................................................................... 70
KẾT LUẬN ....................................................................................................... 71
TÀI LIỆU THAM KHẢO ............................................................................... 73

7


DANH MỤC CÁC CHỮ CÁI VIẾT TẮT
Tên đầy đủ


Tên viết tắt
CDC

Change data capture

CNTT

Công nghệ thông tin

EAI

Enterprise Applicaion Integration

ECM

Enterprise Content Manager

EDR

Enterprise Data Replication

EII

Enterprise Information Integration

ESB

Enterprise Services Bus


ETL

Extract-Transform-Load

MPLS

Multi Protocol Label Switching

OLAP

On-line Analytical Processing

OLTP

On-line Transaction Processing

SXXK

Sản xuất xuất khẩu

UTP

Unshielded Twisted Pair

XML

EXtensible Markup Language

XNK


Xuất nhập khẩu

8


DANH MỤC CÁC HÌNH VẼ
Hình 1.1: Kiến trúc ứng dụng và mức độ tích hợp dữ liệu. ............................................ 13
Hình 1.2: Các thành phần của một ứng dụng tích hợp .................................................. 16
Hình 1.3: OTLP và OLAP ................................................................................................ 18
Hình 1.4: Kiến trúc kho dữ liệu. ...................................................................................... 21
Hình 1.4: Mơ hình dữ liệu hình sao và bơng tuyết. ........................................................ 23
Hình 1.5: Mơ hình hạ tầng mạng Cục Hải quan TP. Hồ Chí Minh .............................. 26
Hình 2.1: Kỹ thuật hợp nhất dữ liệu. ............................................................................... 31
Hình 2.2: Mơ hình kết hợp cơ chế pull và push. ............................................................. 32
Hình 2.3: Kỹ thuật liên hợp dữ liệu. ................................................................................ 33
Hình 2.4: Kỹ thuật lan truyền dữ liệu. ............................................................................. 34
Hình 2.5: Tiến trình trong ETL. ...................................................................................... 36
Hình 2.6: Cơng nghệ EII.................................................................................................. 37
Hình 2.7: Cơng nghệ EAI. ............................................................................................... 37
Hình 2.8: Cơng nghệ EAI với ESB. ................................................................................. 38
Hình 2.9: Các kỹ thuật và cơng nghệ tích hợp dữ liệu. .................................................. 40
Hình 2.10: Mơ hình kết hợp nhiều cơng nghệ. ............................................................... 42
Hình 3.1: Kiến trúc cơng nghệ SQL Server Replication. ................................................ 44
Hình 3.2: Snapshot Replication. ...................................................................................... 47
Hình 3.3: Transactional Replication. .............................................................................. 48
Hình 3.4: Merge Replication. ........................................................................................... 49
Hình 3.5: Tạo replication trong Management Studtio. ................................................... 50
Hình 4.1: Mơ hình tập trung dữ liệu giai đoạn 1 ............................................................ 55
Hình 4.3: Mơ hình tổng thể hệ thống tích hợp nghiệp vụ hải quan .............................. 56
Hình 4.4: Mơ hình phân lớp hệ thống tích hợp nghiệp vụ hải quan ............................. 56

Hình 4.5: Mơ hình kiến trúc úng dụng và dữ liệu .......................................................... 58
Hình 4.6: Mơ hình trao đổi dữ liệu .................................................................................. 61
Hình 4.7: Mơ hình tích hợp dữ liệu thử nghiệm ............................................................. 62
Hình 4.8: Mơ hình tích hợp dữ liệu thực tế triển khai ................................................... 62
Hình 4.9: Luồng hoạt động của ứng dụng chuyển đổi số liệu ....................................... 64
Hình 4.10: Giao diện chương trình chuyển đổi số liệu .................................................. 65
Hình 4.11: Mơ hình ứng dụng trên sharepoint ............................................................... 66
Hình 4.12: Đưa thêm webpart và sharepoint .................................................................. 67
Hình 4.13: Cấu hình sử dụng các control ascx ............................................................... 68
Hình 4.14: Giao diện sau khi cấu hình ........................................................................... 68
Hình 4.15: Giao diện ứng dụng tích hợp nghiệp vụ ....................................................... 68
Hình 4.16: Mơ hình hệ thống dự phịng ứng dụng tích hợp nghiệp vụ ......................... 69

9


LỜI MỞ ĐẦU
Trong q trình tin học hóa các hoạt động của tổ chức, doanh nghiệp, một loạt
các hệ thống đã được xây dựng để đáp ứng nhu cầu quản lý,vận hành, lưu trữ riêng lẻ
của các các bộ phận trong tổ chức, doanh nghiệp. Các hệ thống này được xây dựng
dựa trên các nền tảng công nghệ khác nhau và gần như khơng có sự chia sẻ thơng tin
giữa các hệ thống vì các hệ thống này được thiết kế để hoạt động độc lập và được thiết
kế để giải quyết các bài toán đơn lẻ cho các bộ phận riêng lẻ của tổ chức, doanh
nghiệp. Điều này dẫn đến tình trạng là các nguồn dữ liệu được lưu trữ không đồng
nhất và phân tán ở nhiều nơi, người sử dụng cần phải sử dụng nhiều chương trình khác
nhau để hồn thành cơng việc của mình, hoặc phải khai thác dữ liệu từ các chương
trình khác nhau rồi kết hợp lại để được dữ liệu mong muốn. Khi các hoạt động của tổ
chức được mở rộng (đặc biệt trong hoạt động kinh doanh của doanh nghiệp) nhu cầu
tổng hợp dữ liệu để có được các báo cáo đầy đủ nhằm phục vụ cho việc điều hành tổ
chức, doanh nghiệp trở nên cấp thiết hơn bao giờ hết việc thực hiện tổng hợp dữ liệu

từ các hệ thống riêng lẻ rất tốn thời gian và gần như là không thể thực hiện được nếu
dữ liệu lớn. Ngoài ra, nếu phải thao tác với quá nhiều chương trình cùng một lúc
thường sẽ mất nhiều thời gian hơn so với việc thực hiện trên một hệ thống và có nhiều
khả năng dẫn đến sai sót do phải làm thủ cơng nhiều bước. Một trong những vấn đề
gặp phải nữa của việc duy trì các hệ thống riêng lẻ đó là chi phí vận hành lớn, các tổ
chức doanh nghiệp sẽ cần phải dùng nhiều nguồn lực dành cho việc duy trì nhiều hệ
thống hoạt động.
Vấn đề tích hợp dữ liệu đã khơng còn là một xu hướng mà thực sự đã trở thành
nhu cầu của các tổ chức, doanh nghiệp lớn trong những năm gần đây. Một loại những
kỹ thuật, những công nghệ, những sản phẩm phẩn mềm của các hãng công nghệ hàng
đầu thế giới đã được giới thiệu như Oracle Data Integrator, Oracle GoldenGate, IBM
InfoSphere, Microsoft BizTalk, Microsoft Business Intelligent, Microsoft SQL Server
Replication,…
1. Tính cấp thiết của đề tài
Ở Việt Nam, vấn đề tích hợp dữ liệu đang là một trong những quan tâm lớn của
các tổ chức, các doanh nghiệp lớn và đặc biệt là trong các cơ quan nhà nước trong đó
có Tổng cục Hải quan.
Việc nghiên cứu, xây dựng các nhóm giải pháp, quy trình phù hợp, các bước thực
hiện trong bài tốn tích hợp dữ liệu sẽ giúp cho các tổ chức, các doanh nghiệp Việt
Nam có thể thực hiện việc tích hợp dữ liệu của mình dễ dàng hơn từ đó có thể phát
triển thêm những ứng dụng xử lý tập trung đáp ứng những địi hỏi ngày càng cao của
mình.
10


Thơng qua việc phân tích và trình bày các kỹ thuật, các cơng nghệ tích hợp dữ
liệu cùng với kinh nghiệm 4 năm triển khai vận hành hệ thống tích hợp thực tế tại Cục
Hải quan TP. Hồ Chí Minh của tác giả mà các tổ chức, doanh nghiệp hay các đơn vị
quan tâm đến vấn đề tích hợp dữ liệu có thể lựa chọn giải pháp tích hợp dữ liệu phù
hợp với đặc thù và nhu cầu của đơn vị mình.

2. Tình hình triển khai giải pháp
2.1 Trên thế giới
Việc nghiên cứu và triển khai các giải pháp tích hợp đã được bắt đầu từ rất sớm,
ngay từ khi cơ sở dữ liệu được đưa vào sử dụng cho các ứng dụng phục vụ cho nhu
cầu quản lý kinh doanh của các doanh nghiệp, Tuy nhiên nó thực sự chỉ được bùng nổ
trong khoảng thời gian 10 năm gần đây với một loạt các giải pháp tích hợp được ra đời
và triển khai.
2.2 Tại Việt Nam
Khi việc tích hợp dữ liệu trở lên phổ biến ở các nước phát triển thì ở Việt nam
mới bắt đầu có nhu cầu. Các hệ thống tích hợp dữ liệu trên quy mơ lớn bắt đầu được
hình thành và triển khai. Hệ thống “Tích hợp nghiệp vụ ngành hải quan” là hệ thống
tích hợp dữ liệu đầu tiên của Tổng cục hải quan và được bắt đầu triển khai từ năm
2010.
3. Đối tƣợng nghiên cứu
Các kỹ thuật, các công nghệ sử dụng phổ biến nhất hiện nay được sử dụng trong
lĩnh vực tích hợp dữ liệu sẽ là đối tượng nghiên cứu trong khuôn khổ nghiên cứu của
luận văn này.
4. Mục tiêu nghiên cứu
Hiểu được các thành phần, cách thức thực hiện trong các giải pháp được nghiên
cứu cũng như phân tích những ưu nhược điểm của từng kỹ thuật, công nghệ là mục
tiêu nghiên cứu của đề tài. Đồng thời đề xuất và kiểm nghiệm thực tế một giải pháp
tích hợp dữ liệu qua đó đánh giá và hồn thiện giải pháp để phục vụ cho nhu cầu tích
hợp dữ liệu ở các tổ chức, doanh nghiệp.
5. Nội dung nghiên cứu
Nội dung đề tài tập trung vào các công việc chủ yếu sau:
 Các kỹ thuật, các cơng nghệ tích hợp dữ liệu hiện nay.
 Nghiên cứu chi tiết công nghệ Microsoft SQL Server Replication
 Ứng dụng các công nghệ này đề xuất, xây dựng triển khai ứng dụng “Tích
hợp nghiệp vụ ngành hải quan”
6. Phƣơng pháp nghiên cứu

Đề tài được tiếp cận và được nghiên cứu theo những phương pháp dưới đây:
 Thu thập tài liệu và kinh nghiệm quốc tế về các giải pháp tích hợp dữ liệu,
qua các nguồn Internet và qua các chuyên gia công nghệ.

11


 Nghiên cứu tìm hiểu các giải pháp tích hợp dữ liệu tiên tiến hiện nay trên
thế giới để đưa ra các khuyến nghị áp dụng.
 Cài đặt và triển khai thử nghiệm một giải pháp tích hợp dữ liệu từ đó có
những đánh giá cụ thể hơn.
7. Bố cục của luận văn
Luận văn “Nghiên cứu một số giải pháp tích hợp dữ liệu, ứng dụng xây dựng
cơ sở dữ liệu nghiệp vụ tập trung trong ngành hải quan” nhằm tìm hiểu, phân tích,
so sánh các kỹ thuật, các cơng nghệ tích hợp dữ liệu tiên tiến hiện nay trên cơ sở đó đi
sâu nghiên cứu, làm chủ cơng nghệ để triển khai ứng dụng trong hoàn cảnh thực tế
Việt Nam.
Bố cục luận văn gồm 4 chương:
Chƣơng I: Giới thiệu tổng quan về tích hợp dữ liệu và mục đích của tích hợp
dữ liệu. Thực trạng dữ liệu phân tán của ngành hải quan cũng được trình bày tại
chương này.
Chƣơng II: Trình bày một số kỹ thuật tích hợp dữ liệu, các cơng nghệ tích
hợp dữ liệu qua đó đưa ra bức tranh tổng thể của các kỹ thuật, các cơng nghệ tích
hợp dữ liệu cũng như so sánh sự khác biệt giữa chúng đồng thời đề cập khả năng
kết hợp các công nghệ này vào một giải pháp để giải quyết các bài tốn tích hợp dữ
liệu trong thực tế.
Chƣơng III: Trình bày chi tiết giải pháp tích hợp dữ liệu bằng Microsoft
Replication nhằm mục đích áp dụng cho bài tốn “Tích hợp nghiệp vụ ngành hải
quan” được mơ tả chi tiết ở chương tiếp theo.
Chƣơng IV: Ứng dụng các kỹ thuật, các công nghệ đã nghiên cứu ở trên để

xây dựng giải pháp cho hệ thống “Tích hợp nghiệp vụ ngành hải quan” từ đó
đưa ra những đánh giá, những bài học kinh nghiệm có được trong quá vận hành và
triển khai thực tế ứng dụng.

12


CHƢƠNG I. GIỚI THIỆU CHUNG
1.1 Tích hợp dữ liệu
1.1.1 Khái niệm về tích hợp dữ liệu
Tích hợp dữ liệu là một trong những lĩnh vực nghiên cứu của cơ sở dữ liệu, ngay
từ khi cơ sở dữ liệu được đưa vào sử dụng cho các ứng dụng phục vụ cho nhu cầu
quản lý kinh doanh của các doanh nghiệp thì vấn đề tích hợp dữ liệu đã được nghiên
cứu. Mục đích của việc tích hợp các hệ thống thơng tin là nhằm kết hợp các hệ thống
được lựa chọn để tạo thành một hệ thống thông tin đầy đủ, thống nhất đối với người sử
dụng. Qua đó người dùng được cung cấp một khung nhìn đồng nhất về mặt dữ liệu (dữ
liệu có thể phân tán và nguồn dữ liệu có thể khác nhau về cấu trúc hoặc khơng đồng
nhất về mặt cơng nghệ).
Vậy tích hợp dữ liệu là sự kết hợp của các quy trình kỹ thuật và kinh doanh sử
dụng để kết hợp dữ liệu từ các nguồn khác nhau nhằm tạo ra thơng tin có ý nghĩa và có
giá trị. Đứng ở góc độ giải pháp thì tích hợp dữ liệu là một ứng dụng nền tảng, một sản
phẩm hoặc các kỹ thuật và các công nghệ để cung cấp một khung nhìn thống nhất cho
nhiều nguồn dữ liệu khác nhau.
1.1.2 Các mức độ tích hợp dữ liệu
Dựa trên kiến trúc tầng của một hệ thống thông tin chúng ta sẽ có các mức độ tích
hợp dữ liệu khác nhau như hình vẽ dưới đây:

Hình 1.1: Kiến trúc ứng dụng và mức độ tích hợp dữ liệu.
Từ hình vẽ trên, chúng ta có thể thấy được về lý thuyết sẽ có các cách tiếp cập
sau:


13


Tích hợp thủ cơng: Cách tiếp cận này sẽ đặt người sử dụng làm trung tâm.
Người sử dụng phải thực hiện lấy các dữ liệu từ các hệ thống thông tin khác nhau, từ
đó tổng hợp lại để có được thơng tin mà mình mong muốn. Với cách làm này, người
sử dụng cần phải nắm vững được các nơi để lấy được các thông tin cũng như quan hệ
giữa các thơng tin này.
Tích hợp giao diện dùng chung: Người sử dụng sẽ được cung cấp một giao diện
dùng chung cho tất cả các hệ thống. Ở cách tiếp cận này, các dữ liệu vẫn được đặt
riêng rẽ, người dùng vẫn cần phải kết hợp các dữ liệu riêng lẻ có được bằn cách sử
dụng giao diện dùng chung này.
Tích hợp ứng dụng: Cách tiếp cận này sử dụng các ứng dụng tích hợp cho phép
việc truy cập đến nhiều nguồn dữ liệu khác nhau. Các dữ liệu này sẽ được kết hợp lại
và trả về cho ngưởi sử dụng. Tuy nhiên, nếu có nhiều ứng dụng thì việc tích hợp sẽ trở
lên khó khăn do ứng dụng phải duy trì quá nhiều các interface, các kết nối đến các
nguồn dữ liệu có định dạng khơng đồng nhất khiến ứng dụng tích hợp trở nên cồng
kềnh.
Tích hợp bằng phần mềm lớp giữa: Cách tiếp cận này sử dụng một phần mềm
lớp giữa. Phần mềm lớp giữa sẽ cung cấp những chức năng mà có thể dễ dàng sử dụng
lại bởi các ứng dụng. Như vậy với cách tiếp cận này thì chi phí cho việc xây dựng các
ứng dụng tích hợp sẽ được giảm thiểu do có thể sử dụng được các chức năng tích hợp
chung mà khơng cần phải xây dựng lại.
Tích hợp tầng truy xuất dữ liệu: Các dữ liệu tích hợp logic được tạo ra ở tầng
truy xuất dữ liệu bằng cách cung cấp các khung nhìn (view). Các khung nhìn này là
các dữ liệu ảo được tạo ra bằng cách liên kết các dữ liệu từ các nguồn dữ liệu khác
nhau, khi các ứng dụng lấy dữ liệu từ khung nhìn này, tầng truy xuất dữ liệu sẽ thực
hiện việc truy xuất đến các nguồn dữ liệu thật, kết hợp chúng lại và trả về cho người
dùng. Việc kết hợp dữ liệu từ các nguồn khác nhau có thể mất thời gian xử lý vì thế

cần phải cân nhắc đến vấn đề hiệu năng của hệ thống khi tiếp cận theo hướng này.
Tích hợp ở tầng lƣu trữ dữ liệu: Đây là mức độ tích hợp ở tầng vật lý, các dữ
liệu từ các nguồn khác nhau sẽ được chuyển đổi đến nơi lưu trữ mới. Với cách tiếp cận
này thì việc truy cập dữ liệu sẽ trở lên dễ dàng và tốc độ truy vấn được đảm bảo. Tuy
nhiên, các ứng dụng sẽ cần phải sửa đổi để sử dụng dữ liệu tích hợp mới này và cần
phải duy trì cơ chế để đồng bộ dữ liệu từ các nguồn dữ liệu về nơi lưu trữ mới điều này
có thể dẫn đến việc lãng phí bộ nhớ lưu trữ.
1.1.3 Vấn đề của tích hợp dữ liệu
Như đã nói ở trên, việc tích hợp các hệ thống thơng tin nhằm mục đích kết hợp
các hệ thống thơng tin được lựa chọn thành một hệ thống thông tin đầy đủ, thống nhất
đối với người sử dụng. Để đáp ứng được yêu cầu này, tất cả các dữ liệu cần phải được
biểu diễn dựa trên một mơ hình dữ liệu toàn cục thống nhất về nguyên tắc và ngữ
nghĩa.
14


Vấn đề này sinh khi các hệ thống được lựa chọn để tích hợp khơng được thiết kế
để tích hợp với các hệ thống khác. Các hệ thống này được viết trên các nền tảng công
nghệ khác nhau, sử dụng các kiểu dữ liệu khác nhau dẫn đến không thể tích hợp trực
tiếp và cần phải tạo ra các bộ tích hợp để chuyển đổi các dữ liệu giúp các hệ thống có
thể tích hợp với nhau cũng như việc loại bỏ các xung đột khi kết hợp chúng lại, chính
vì vậy giải pháp tích hợp dữ liệu của các hệ thống thông tin được lựa chọn phụ thuộc
vào các yếu tố chính sau:
 Kiến trúc của hệ thống thơng tin.
 Nội dung và chức năng của các hệ thống được tích hợp.
 Kiểu thơng tin được quản lý bởi từng hệ thống (dữ liệu có cấu trúc hay phi
cấu trúc).
 Mức độ hoạt động độc lập của các hệ thống.
 Mục đích sử dụng của hệ thống thơng tin đã được tích hợp (OLTP hay
OLAP).

 Hiệu năng của hệ thống.
 Nguồn lực dành cho dự án (Thời gian, nhân lực, kinh phí, các kinh nghiệm
đã có…).
Ngồi ra các yếu tố sau cũng cần phải được cân nhắc khi xem xét đến vấn đề tích
hợp dữ liệu:
 Phần cứng và hệ điều hành chạy ứng dụng.
 Hệ quản trị cơ sở dữ liệu.
 Mơ hình dữ liệu, lược đồ dữ liệu và ngữ nghĩa dữ liệu.
 Phần mềm lớp giữa.
 Giao diện người dùng.
 Các rằng buộc toàn vẹn dữ liệu.
1.1.4 Vai trị của tích hợp dữ liệu trong các tổ chức
Tích hợp dữ liệu có vai trị đặc biệt quan trọng trong các tổ chức và doanh
nghiệp. Nó cho phép dữ liệu được chia sẻ một cách đầy đủ, xuyên suốt và dễ dàng
giữa các bộ phận trong cùng một tổ chức. Nếu như doanh nghiệp có nhiều nguồn
thơng tin được lưu trữ và quản lý bởi các hệ thống khác nhau mà các thơng tin này có
liên quan đến nhau ở cấp độ quản lý tổ chức doanh nghiệp thì nhu cầu tích hợp dữ liệu
sẽ rất lớn vì các khó khăn sau:
Khó khăn trong việc chia sẻ dữ liệu: Các dữ liệu sẽ do từng bộ phận phụ trách
ứng dụng quản lý việc chia sẻ dữ liệu sẽ phải thực hiện thủ công thông qua các chức
năng kết xuất dữ liệu của từng hệ thống riêng lẻ, nếu hệ thống khơng có chức năng kết
xuất dữ liệu thì việc này khơng thể thực hiện được. Các dữ liệu chia sẻ sẽ cần phải lưu
trữ ở nơi lưu trữ chung và sẽ rất khó khăn trong việc tìm kiếm, kiểm sốt truy cập. Dữ
liệu chia sẻ khơng phản ánh kịp thời đến tình hình hoạt động thực tế (dữ liệu cũ, không
phải là mới nhất).
15


Khó khăn trong việc tạo báo cáo tổng hợp: Các báo cáo ảnh hưởng đến việc ra
các quyết định hoạt động của các tổ chức đòi hỏi phải tổng hợp dữ liệu từ nhiều nguồn

dữ liệu từ các hệ thống khác nhau, người làm báo cáo tổng hợp đòi hỏi phải am hiểu
cách kết xuất dữ liệu từ các hệ thống riêng lẻ cũng như mối quan hệ giữa các dữ liệu
kết xuất được từ các hệ thống này. Sau khi có được dữ liệu từ các hệ thống riêng lẻ,
việc làm báo cáo tổng hợp buộc phải làm bằng phương pháp thủ công điều này tốn
nhiều thời gian, công sức và có thể có những sai sót.
Khó khăn trong việc vận hành các hệ thống thông tin: Bất kỳ hệ thống thơng
tin nào cũng đều phải duy trì một đội ngũ cán bộ kỹ thuật để đảm bảo được hệ thống
được vận hành an toàn, liên tục; đội ngũ cán bộ này sẽ cần phải kiểm tra, phát hiện và
giải quyết các sự cố cho các hệ thống. Chi phí vận hanh, bảo dưỡng chắc chắn sẽ
khơng nhỏ và có xu hướng tăng nhanh trong tương lai khi có các hệ thống khác được
phát triển và đi vào sử dụng. Ngồi ra, các hệ thống này có thể địi hỏi nhiều tài
ngun nếu khơng có chính sách quản lý, chia sẻ tài nguyên phù hợp khi chúng hoạt
động riêng lẻ.
Nếu việc tích hợp dữ liệu thành cơng thì tồn bộ những khó khăn trên có thể
được giải quyết, chính vì vậy vai trị của tích hợp dữ liệu trong doanh nghiệp và các tổ
chức là vô cùng quan trọng.
1.1.5 Các yếu tố quyết định đến việc lựa chọn giải pháp tích hợp dữ liệu
Một giải pháp tích hợp dữ liệu sẽ bao gồm một nền tảng ứng dụng tích hợp
(Integrated application framework) cho phép các ứng dụng tích hợp được xây dựng
trên nó, các kỹ thuật, các cơng nghệ, các sản phẩm cho phép việc cung cấp một khung
nhìn thống nhất và nhất quán về dữ liệu của tổ chức.
Có thể mơ tả các thành phần trong một giải pháp tích hợp dữ liệu như hình vẽ
dưới đây:

Hình 1.2: Các thành phần của một ứng dụng tích hợp

16


Các ứng dụng là các giải pháp được xây dựng dựa theo các yêu cầu của các tổ

chức, doanh nghiệp và được phát triển bởi nhà cung cấp trong đó có sử dụng một hay
nhiều sản phẩm tích hợp dữ liệu.
Các sản phẩm tích hợp dữ liệu là các giải pháp thương mại được đóng gói trong
đó có hỗ trợ một hoặc nhiều các kỹ thuật, cơng nghệ tích hợp dữ liệu.
Các công nghệ thực thi một hay nhiều các kỹ thuật tích hợp dữ liệu.
Các kỹ thuật là các phương pháp được sử dụng (độc lập với công nghệ) cho việc
tích hợp dữ liệu.
Trước khi lựa chọn một giải pháp tích hợp dữ liệu cho các nguồn dữ liệu chúng
ta cần phải cân nhắc đến các yếu tố sau:
 Kiểu dữ liệu của nguồn: Có cấu trúc hay phi cấu trúc
 Tổ chức của dữ liệu nguồn: Đồng nhất hay không đồng nhất, tập trung hay
phân tán.
 Yêu cầu chuyển đổi dữ liệu nguồn: Dữ liệu nguồn có cần chuyển đổi sang
dữ liệu khác hay không.
 Yêu cầu về sử dụng dữ liệu: Thời gian làm mới dữ liệu, mục đích sử dụng
dữ liệu (đọc ghi, chỉ đọc).
 Kỹ thuật và cơng nghệ tích hợp dữ liệu: Các kỹ thuật, cơng nghệ được
đóng gói trong giải pháp tích hợp.
 Quy mô dữ liệu: Số lượng nguồn dữ liệu cần tích hợp, kích thước của từng
nguồn dữ liệu, tần xuất thay đổi trên các nguồn dữ liệu.

1.2 Cơ sở dữ liệu trong hệ thống OLTP và OLAP
Một trong những yếu tố quyết định đến thiết kế ứng dụng tích hợp là mục đích sử
dụng cơ sở dữ liệu tích hơp. Chúng ta có thể chia hệ thống thơng tin thành hai loại đó
là hệ thống xử lý giao dịch trực tuyến (hệ thống OLTP) và hệ thống phân tích dữ liệu
trực tuyến(hệ thống OLAP). Hình vẽ dưới đây cho thấy sự khác nhau cũng như quan
hệ giữa hệ thống OLAP và hệ thống OLTP.

17



Hình 1.3: OTLP và OLAP
Thơng thường hệ thống OLTP sẽ là nguồn cung cấp dữ liệu cho hệ thống OLAP
để phân tích các dữ liệu chi tiết có được từ hệ thống OLTP thành các thơng tin có giá
trị.
Hệ thống xử lý giao dịch trực tuyến: Là một hệ thống xử lý dữ liệu phổ biến
trong các tổ chức, doanh nghiệp ngày nay, được thiết kế nhằm mục đích thu thập dữ
liệu. Đặc trưng của hệ thống này là xử lý một số lượng lớn các giao dịch trong thời
gian ngắn (các giao dịch đơn giản: insert, update, delete). Yêu cầu đối với các hệ thống
này là xử lý thật nhanh các truy vấn dữ liệu, duy trì tính tồn vẹn dữ liệu trong môi
trường đa truy cập (đa người dùng). Hiệu năng của hệ thống OLTP có thể đo bằng số
lượng giao dịch (transaction) trên mỗi giây. Cơ sở dữ liệu trong hệ thống OLTP được
sử dụng để lưu chi tiết các thông tin phục vụ cho các tác vụ, lược đồ dữ liệu thường ở
chuẩn 3NF.
Hệ thống phân tích dữ liệu trực tuyến: Trái ngược với hệ thống xử lý giao dịch
trực tuyến, đặc chưng của OLAP system là có rất ít các giao dịch (transaction) hoạt
động đồng thời. Các truy vấn thường rất phức tạp, đòi hỏi phải kết hợp nhiều thơng tin
có trong cơ sở dữ liệu. Thời gian phản hồi cho các truy vấn là thước đo đánh giá hiệu
năng của các hệ thống OLAP. Ứng dụng OLAP được sử dụng rộng rãi bởi các kỹ thuật
khai phá dữ liệu. Dữ liệu được lưu trữ trong cơ sở dữ liệu của hệ thống OLAP là các
dữ liệu đã được tổng hợp lại, có tính lịch sử được lưu trữ trong các lược đồ đa chiều
(thường là lược đồ hình sao hoặc bơng tuyết).
Điểm khác biệt giữa hệ thống OLTP và OLAP được tóm tắt lại ở bản so sánh
dưới đây:

18


Tiêu chí
Dữ liệu

nguồn

Hệ thống OLTP
Dữ liệu hoạt động của tổ chức, là
dữ liệu gốc ban đầu do người dùng
đầu cuối nhập vào.
Để kiểm soát và chạy các nghiệp
vụ cơ bản, thiết yếu xảy ra hàng
ngày. Phục vụ người dùng ở cấp
hoạt động trong tổ chức, doanh
nghiệp.
Cho thấy một ảnh chụp nhanh của
các quá trình vận hành, kinh doanh
liên tục của tổ chức, doanh nghiệp.
Thêm, sửa nhanh chóng và được
tạo bởi người dùng cuối ở cấp hoạt
động.

Hệ thống OLAP
Dữ liệu hợp nhất. Dữ liệu OLAP
đến từ nhiều nguồn khác nhau của
hệ thống OLTP.
Mục đích
Phục vụ mục đích lập kế hoạch,
của dữ
giải quyết vấn đề, hỗ trợ ra quyết
liệu
định. Phục vụ cho các cấp bậc
quản lý chiến lược của tổ chức,
doanh nghiệp.

Phản ánh
Số liệu cung cấp góc nhìn đa chiều
dữ liệu
các hoạt động vận hành, kinh
nào
doanh trong tổ chức, doanh nghiệp.
Thêm và
Chạy theo chu kỳ, theo lô lớn các
sửa dữ
giao dịch, như vào một giờ nhất
liệu
định để tập hợp, tính tốn và làm
mới dữ liệu.
Truy vấn Các truy vấn cơ bản, số lượng dòng Thường truy vấn với các câu truy
dữ liệu trả về ít.
vấn tính tốn phức tạp dựa trên
khối lượng dữ liệu rất lớn.
Tốc độ xử Thường rất nhanh trong một vài
Phụ thuộc vào khối lượng dữ liệu

giây.
cần xử lý và một lần xử lý một lô
các truy vấn để tập hợp và tính
tốn dữ liệu có thể kéo dài hàng
giờ đồng hồ.
Không
Tương đối nhỏ nếu dữ liệu lịch sử
Thường rất lớn, do sự tồn tại của
gian lưu
được cắt giảm và lưu trữ thích hợp. dữ liệu tổng hợp mang tính lịch sử,

trữ
cần nhiều index hơn so với OLTP.
Thiết kế
Chuẩn hóa ở mức cao, cần nhiều
Thường khơng cần chuẩn hóa, ít
database
table.
table hơn. Dữ liệu thường theo 2
mơ hình là sao (Star) hoặc bông
tuyết (Snowflake).
Backup và Thường xuyên phải backup. Dữ
Thay vì phải backup đều đặn, khi
phục hồi
liệu hoạt động là cực kỳ quan trọng mất mát dữ liệu xảy ra, nhiều hệ
dữ liệu
với hoạt động kinh doanh nên phải thống OLAP thường chọn một
bảo trì backup cẩn thận, việc mất
phương pháp đơn giản là load lại
mát dữ liệu cũng đồng nghĩa với
dữ liệu từ các nguồn dữ liệu gốc ở
việc mất mát thời gian, tiền bạc và các hệ thống OLTP như là một giải
công sức nhập liệu cũng như liên
pháp phục hồi dữ liệu.
quan đến trách nhiệm pháp lý.

19


1.3 Kho dữ liệu (Datawarehouse)
Khi kinh tế trở lên khó khăn, các đối thủ trong kinh doanh của các doanh nghiệp

ngày càng nhiều thì việc phân tích dữ liệu càng trở lên quan trọng đối với các doanh
nghiệp vì nó ảnh hưởng đến việc ra các quyết sách điều hành đường hướng phát triển
của doanh nghiệp nhằm gia tăng lợi thế cạnh tranh. Hệ thống OLAP ra đời nhằm giải
quyết nhu cầu trên (Do hệ thống OLTP không thể đáp ứng được như đã nói ở trên).
Thuật ngữ Datawarehouse ra đời để ám chỉ những cơ sở dữ liệu phục vụ cho hệ thống
OLAP.
1.3.1 Định nghĩa kho dữ liệu
Kho dữ liệu là một tập hợp dữ liệu hướng chủ đề, tích hợp, có tính thời gian và
khơng thay đổi để hỗ trợ quá trình tạo quyết định quản lý. - W. H. Inmon [4]
Kho dữ liệu là một cơ sở dữ liệu quan hệ hay một cơ sở dữ liệu đa chiều được
thiết kế cho mục đích truy vấn và phân tích hơn là xử lý các giao dịch. Kho dữ liệu tập
hợp các dữ liệu lịch sử và dữ liệu đã phân tích lấy được từ nhiều nguồn. Kho dữ liệu
tách riêng việc phân tích với việc xử lý giao dịch, và cho phép hợp nhất dữ liệu từ
nhiều nguồn dữ liệu khác nhau. Kho dữ liệu thường lưu trữ dữ liệu của nhiều tháng
hay nhiều năm để hỗ trợ phân tích. Dữ liệu trong một kho dữ liệu thường được đưa
vào thơng qua một q trình trích xuất dữ liệu, chuyển đổi, và tải vào (Extract
Transform Load - ETL) từ một hay nhiều nguồn dữ liệu như các ứng dụng On-Line
Transaction Processing – OLTP hay các nhà cung cấp dữ liệu bên ngoài. Người sử
dụng kho dữ liệu sẽ thực hiện các phân tích dữ liệu thường có liên quan đến thời gian.
Các phân tích phức tạp hơn bao gồm phân tích xu hướng và khai thác dữ liệu, sử dụng
các dữ liệu tồn tại để dự báo các xu hướng hay dự báo tương lai. Kho dữ liệu cung cấp
cơ sở cho một môi trường kinh doanh thông minh.
1.3.2 Các đặc trƣng của kho dữ liệu
Hƣớng chủ đề: Dữ liệu trong kho dữ liệu được tổ chức xung quanh các chủ đề
chính như khách hàng, sản phẩm, sản xuất. Nó tập trung vào việc mơ hình hóa và
phân tích dữ liệu cho các nhà ra quyết định mà không tập trung vào các xử lý nghiệp
vụ thông thường, tức là các dữ liệu khơng hữu ích cho hệ thống hỗ trợ ra quyết định
sẽ được loại bỏ. Cung cấp cho người dùng một khung nhìn tồn vẹn, đơn giản và đầy
đủ về các sự kiện quanh các chủ đề.
Tính tích hợp: Là đặc tính quan trọng nhất của kho dữ liệu. Dữ liệu trong kho

dữ liệu được xây dựng bằng cách tổng hợp dữ liệu từ nhiều nguồn khác nhau và các
nguồn có tổ chức khác nhau như: Cơ sở dữ liệu, các file excel, các flat file hoặc các
raw file. Các kỹ thuật làm sạch, sắp xếp, rút gọn dữ liệu sẽ được áp dụng nhằm đảm
bảo tính nhất quán của dữ liệu.
Tính ổn định: Dữ liệu trong kho dữ liệu được chuyển đổi từ môi trường tác
nghiệp và được lưu trữ trong một thời gian dài, khi dữ liệu được chuyển đổi vào đây

20


thì các thao tác cập nhật và xóa dữ liệu thường không xảy ra. Dữ liệu trong kho dữ liệu
chỉ có hai thao tác: Chèn mới và đọc dữ liệu.
Biến đổi theo thời gian: Dữ liệu trong kho dữ liệu thường có tính lịch sử và gắn
với thời gian. Phạm vi về thời gian của dữ liệu được lưu trữ trong kho dữ liệu dài hơn
so với các hệ thống tác nghiệp, nếu như dữ liệu tác nghiệp chỉ có giá trị hiện thời thì
kho dữ liệu cung cấp thơng tin lịch sử lâu dài vì thế nó cung cấp một cái nhìn đầy đủ
và nhiều thơng tin hơn. Trong kho dữ liệu, thời gian được lưu trữ như một thành phần
của khóa chính để đảm bảo tính duy nhất của dữ liệu và cung cấp một đặc trưng thời
gian của dữ liệu. Dữ liệu trong kho luôn gắn với một giá trị thời gian nhất định.
1.3.3 Kiến trúc của kho dữ liệu
Về cơ bản kho dữ liệu sẽ bao gồm 04 thành phần:
 Nguồn dữ liệu (Data Sources)
 Khu vực xử lý (Staging Area)
 Kho dữ liệu (Warehouse)
 Công cụ truy cập dữ liệu hay người khai thác dữ liệu(Users)
Các thành phần này được mơ tả ở hình vẽ dưới đây:

Hình 1.4: Kiến trúc kho dữ liệu.
Nguồn dữ liệu:
Dữ liệu trong kho dữ liệu đươc tổng hợp từ rất nhiều nguồn dữ liệu khác nhau và

có cấu trúc dữ liệu khác nhau:
- Dữ liệu từ hệ thống OLTP: Đây là nguồn dữ liệu chính để xây dựng kho dữ
liệu, chứa các dữ liệu chi tiết hiện tại của hệ thống tác nghiệp.
- Dữ liệu từ hệ thống OLAP: Đây là dữ liệu đã được tổng hợp từ các nguồn dữ
liệu của các hệ thống phân tích dữ liệu khác và được tổ chức lại theo nhiều phương
pháp khác nhau.
21


Khu vực xử lý (Staging Area):
Ở khu vực này, các kỹ thuật làm sạch và chuyển đổi sẽ được thực thi nhằm đảm
bảo tính nhất quán dữ liệu trước khi đưa vào kho dữ liệu. Thông thường người ta sử
dụng các cơng cụ trích xuất, chuyển đổi và nạp dữ liệu (ETL). Đúng như tên gọi công
cụ này thực hiện các thao tác trích xuất dữ liệu, chuyển đổi dữ liệu, tải dữ liệu vào kho
dữ liệu.
Kho dữ liệu:
Kho dữ liệu là cơ sở dữ liệu được tổ chức lại theo mơ hình hình sao hay mơ hình
bơng tuyết. Mơ hình được phi chuẩn hóa, chấp nhận sự dư thừa dữ liệu trong lưu trữ
dữ liệu, chính vì mơ hình dữ liệu đơn giản hơn nên việc truy vấn dễ dàng hơn và tốc
độ xử lý cũng nhanh hơn mô hình dữ liệu được chuẩn hóa. Ngồi ra kho dữ liệu còn
chứa các dữ liệu khác như:
Siêu dữ liệu: Đây là dữ liệu mô tả các dữ liệu được lưu trữ trong kho dữ liệu.
Siêu dữ liệu định nghĩa nên các thành phần của kho dữ liệu, cách thức dữ liệu được tải
vào kho dữ liệu, lưu lại quá trình hoạt động của kho dữ liệu. Siêu dữ liệu gồm có các
dạng sau:
- Dữ liệu định nghĩa và cách thức ánh xạ dữ liệu vào các bảng trong kho dữ liệu.
- Dữ liệu định nghĩa và giải thích cấu trúc của các bảng bên trong kho dữ liệu.
- Dữ liệu định nghĩa cấu trúc dữ liệu ở hệ thống nguồn.
- Dữ liệu định nghĩa và chú thích về tiến trình ETL.
- Dữ liệu định nghĩa các luật (quy định) về chất lượng dữ liệu, các mức độ sai

lệch của dữ liệu và cách thức xử lý.
- Dữ liệu theo dõi tiến trình xử lý các bản ghi trong kho dữ liệu.
- Dữ liệu chứa các sự kiện hoạt động của các ứng dụng.
Bảng sự kiện tổng hợp: Các bảng tổng hợp này lưu giữ các dữ liệu tính tốn được
nhằm trả lời một cách nhanh nhất các câu hỏi của người dùng đưa ra. Đây là dữ liệu có
thể tính toán được từ các bảng khác tuy nhiên để tăng tốc độ xử lý, dữ liệu này được
lưu trữ để khơng phải tính tốn lại mỗi khi có truy vấn lặp lại.
Công cụ truy cập:
Là các công cụ khai thác dữ liệu trong kho dữ liệu được cung cấp cho người
dùng. Ở mức thấp nhất, đó có thể là một công cụ hỗ trợ truy vấn SQL đơn giản. Ở mức
cao hơn, đó có thể là các bộ cơng cụ chuyên về báo cáo như Business Objects,
Microsoft Business Intelligent, Oracle Business Intelligent…
1.3.4 Mơ hình dữ liệu sử dụng trong kho dữ liệu
Như đã mô tả ở trên, dữ liệu trong kho dữ liệu thường được tổ chức dưới dạng
mơ hình hình sao hay mơ hình bơng tuyết nhằm tối ưu hóa tốc độ xử lý. Ở mơ hình
hình sao, chúng ta sẽ có một bảng dữ liệu trung tâm được gọi là bảng sự kiện (fact)
bao xung quanh nó là các bảng chiều (dimensions). Mơ hình bơng tuyết là sự mở rộng

22


của mơ hình hình sao, trong đó một vài cấu trúc chiều được chuẩn hóa thành các bảng
chiều nhỏ hơn.

Hình 1.4: Mơ hình dữ liệu hình sao và bơng tuyết.

1.4 Hiện trạng mơ hình dữ liệu ngành hải quan
1.4.1 Các hệ thống đang đƣợc sử dụng
Trong quá trình tin học hóa các hoạt động quản lý hành chính của mình, ngành
Hải quan cũng khơng tránh khỏi vấn đề về tình trạng phân tán dữ liệu bởi việc vận

hành các hệ thống rời rạc được đặt riêng lẻ ở tổng cục, cục và chi cục. Hàng loạt các
hệ thống ra đời với mục tiêu ban đầu là giải quyết một phần nghiệp vụ trong từng đơn
vị bộ phận của hải quan theo mơ hình phân tán mà khơng tính đến các yêu cầu tổng thể
như: Hệ thống thông tin quản lý tờ khai XNK; Hệ thống thông tin quản lý kế tốn thuế
XNK; Hệ thống thơng tin quản lý thơng tin giá tính thuế; Hệ thống thơng tin quản lý
thơng tin vi phạm; Hệ thống thông tin thống kê tập trung; Hệ thống thống kê thuế theo
từng dòng hàng; Hệ thống thông tin quản lý hàng gia công; Hệ thống tiếp nhận khai
báo từ xa đối với các loại hình XNK; Chương trình quản lý loại hình nhập SXXK;
Chương trình giám sát container cảng biển; Chương trình NetOffice; Hệ thống thơng
quan điện tử.
1.4.2 Quy trình thực hiện
Quy trình thủ tục Hải quan hiện nay đang áp dụng theo các văn bản hướng dẫn
như sau:
- Nghị định 154/2005/NĐ-CP ngày 15/12/2005
- Thông tư 112/2005/TT-BTC ngày 15/12/2005
- Thông tư 113/2005/TT-BTC ngày 15/12/2005
- Thông tư 40/2008/TT-BTC ngày 21/05/2008
- Quyết định 874/QĐ-TCHQ ngày 15/05/2006
-…
23


Các khâu chính như sau:
Bước 1: Tiếp nhận hồ sơ đăng ký tờ khai
1 - SLXNK: Nhập các thông tin đăng ký tờ khai, tra cứu thông tin phân loại
doanh nghiệp, kiểm tra phân luồng tờ khai.
2 - GTT22: Nhập thơng tin tờ khai trị giá (nếu có)
3 - KT559: Nhập thông tin số thuế phải nộp của tờ khai
4 - KT559: Tra cứu tình trạng nợ thuế của doanh nghiệp (trong hạn, quá
hạn, cưỡng chế),

5 - ViCum: Tra cứu thông tin vi phạm của doanh nghiệp
6 - Tra cứu thông tin doanh nghiệp đã từng nợ thuế quá hạn 90 ngày (cưỡng
chế) trong thời hạn 365 ngày kể từ ngày đăng ký tờ khai
(Cục Hải quan TP HCM quy định thêm các bước tra cứu 4,5,6)
Bước 2: Kiểm tra chi tiết hồ sơ
1 - GTT22: Tra cứu thông tin, xác định giá tính thuế
2 - KT559: Tính lại thuế, ra quyết định điều chỉnh thuế (nếu có)
3 - SLXNK: Cập nhật lại những thay đổi thông tin tờ khai phát sinh tại
bước này. Cập nhật kết quả kiểm tra hồ sơ
Bước 3: Kiểm tra thực tế hàng hóa
1 - SLXNK: Nhập thơng tin kết quả kiểm hố.
2 - GTT22: Nhập thơng tin chi tiết hàng hố
Bước 4: Phúc tập hồ sơ
1 - GTT22: Xác nhận thông tin tờ khai đã phúc tập
1.4.3 Những tồn tại và nhu cầu bổ sung
Tồn tại:
- Các chương trình ứng dụng mới chỉ đáp ứng được các yêu cầu về nghiệp vụ hải
quan đơn lẻ, vì vậy thực hiện một quy trình nghiệp vụ thơng quan phải thực hiện thơng
qua rất nhiều chương trình.
- Đa số các hệ thống được xây dựng theo mô hình phân tán nên phải đầu tư
nhiều, dàn trải. Mỗi chi cục đều phải đầu tư các thiết bị phần cứng, có cán bộ chuyên
trách để vận hành các hệ thống. Phải đầu tư thiết bị lưu trữ rất tốn kém cho từng Chi
cục. Dữ liệu truyền nhận hàng ngày lớn chiếm dụng hết đường truyền, ảnh hưởng đến
việc truyền tải các thông tin khác.
- Không đảm bảo an ninh an tồn dữ liệu. Khơng kiểm sốt được việc hiệu chỉnh,
sửa đổi, xóa dữ liệu, bổ sung danh mục chuẩn. Không đảm bảo được việc sao lưu dữ
liệu tại các Chi cục và khả năng vận hành liên tục của hệ thống.

24



- Người sử dụng phải có trình độ cao. Cơng chức hải quan phải có nhiều kinh
nghiệm, kỹ năng trong thao tác nghiệp vụ để sử dụng nhiều ứng dụng khác nhau cho
việc hồn thành một quy trình thủ tục.
- Các hệ thống khơng có tính nhất qn. Việc quản lý phiên bản, cập nhật và bảo
trì các ứng dụng và cơ sở dữ liệu ứng dụng tại Chi cục có nhiều khó khăn. Khả năng
trao đổi dữ liệu giữa các hệ thống có hạn chế.
- Hệ thống CNTT tại Trung tâm dữ liệu chưa thể đáp ứng làm “Trung tâm dữ liệu
tập trung” theo đúng nghĩa, chưa được xây dựng theo đúng mơ hình “Data Center”.
Nhu cầu cần bổ sung:
- Xây dựng thành một hệ thống thống nhất đáp ứng được đầy đủ các khâu trong
quy trình thơng quan.
- Hệ thống xử lý tập trung tại cấp Cục, Tổng Cục.
- Đảm bảo an ninh, an tồn dữ liệu tính sẵn sàng của hệ thống.
- Xây dựng trung tâm dữ liệu theo mơ hình “Data center”.

1.5 Hiện trạng ứng dụng CNTT tại cục Hải quan TP HCM
Do chiếm tới gần 50% dữ liệu xuất nhập khẩu của toàn ngành hải quan nên cục
Hải quan TP. Hồ Chí Minh là địa điểm lựa chọn cho việc thử nghiệm giải pháp tích
hợp dữ liệu được đề xuất trong luận văn. Chi tiết hiện trạng ứng dụng CNTT tại cục
Hải quan TP. Hồ Chí Minh được mơ tả như ở dưới đây.
1.5.1 Hệ thống mạng
Tồn bộ các Chi cục trực thuộc đều có đường kết nối MPLS, UTP hoặc Leaseline
tới TTDL Cục Hải quan TP HCM, các Chi cục nói trên đều đã được triển khai hệ
thống mạng nội bộ (LAN). Mỗi chi cục đều đã được trang bị máy chủ PC Server, máy
trạm phục vụ xử lý thơng tin, quy trình nghiệp vụ.
Bảng và hình sau mơ tả hiện trạng kết nối mạng của Cục hải quan TP. Hồ Chí
Minh.
Số
TT


Số lƣợng
đuờng
kêt nối
16

Đơn vị
Cục Hải quan Hồ Chí Minh

Băng
thơng

Cơng nghệ

16

1

Trụ sở Cục Hải quan HCM

1

2

Chi cục HQ cảng KV1 - Tâng Cảng

2

256


MPLS

3

Chi cục HQ cảng KV2

2

256

MPLS

4

Chi cục HQ cảng KV3 - Bến Nghé

2

256

MPLS

5

Chi cục HQ KCX Tân Thuận

2

256


MPLS

25


×