Tải bản đầy đủ (.doc) (74 trang)

Nghiên cứu một số giải pháp tích hợp dữ liệu, ứng dụng xây dựng cơ sở dữ liệu nghiệp vụ tập trung trong ngành hải quan

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.14 MB, 74 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

LƯU HÙNG CƯỜNG

NGHIÊN CỨU MỘT SỐ GIẢI PHÁP TÍCH HỢP DỮ LIỆU,
ỨNG DỤNG XÂY DỰNG CƠ SỞ DỮ LIỆU NGHIỆP VỤ
TẬP TRUNG TRONG NGÀNH HẢI QUAN

LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

LƯU HÙNG CƯỜNG

NGHIÊN CỨU MỘT SỐ GIẢI PHÁP TÍCH HỢP DỮ LIỆU,
ỨNG DỤNG XÂY DỰNG CƠ SỞ DỮ LIỆU NGHIỆP VỤ
TẬP TRUNG TRONG NGÀNH HẢI QUAN
Ngành: Công nghệ Thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.01.04

LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. PHÙNG VĂN ỔN


Hà Nội - 2015


LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của tôi. Các số liệu, kết quả nêu trong
luận văn là trung thực và chưa từng được công bố trong bất kỳ công trình nào khác.

Hà Nội ngày 12 tháng 09 năm 2015
Học viên

Lưu Hùng Cường

3


LỜI CẢM ƠN
Do vốn kiến thức thực tế còn hạn chế nên nội dung luận văn không thể tránh khỏi
thiếu sót. Do vậy em rất mong nhận được ý kiến đóng góp của các thầy cô giáo và
những ai quan tâm đến vấn đề tích hợp dữ liệu để em có thể hoàn thiện hơn trong
những lần sau ở các cấp học cao hơn.
Em cũng xin được gửi lời cảm ơn chân thành tới các thầy cô của Trường Đại học
Công nghệ, Đại học Quốc gia Hà Nội đã tạo mọi điều kiện cho em khi nghiên cứu đề
tài này. Và đặc biệt em xin được gửi lời cảm ơn sâu sắc nhất tới TS. Phùng Văn Ổn,
thầy đã tận tình chỉ bảo và hướng dẫn em hoàn thành luận văn này.
Trong luận văn có một phần là công sức đóng góp chung của tập thể anh chị em
trong công ty, nơi em công tác với vai trò là Project Manager.
Hà Nội ngày 26 tháng 9 năm 2015
Học viên

Lưu Hùng Cường


4


MỤC LỤC
LỜI CAM ĐOAN..............................................................................................3
LỜI CẢM ƠN....................................................................................................4
MỤC LỤC.........................................................................................................5
DANH MỤC CÁC CHỮ CÁI VIẾT TẮT.......................................................8
DANH MỤC CÁC HÌNH VẼ...........................................................................9
LỜI MỞ ĐẦU..................................................................................................10
CHƯƠNG I. GIỚI THIỆU CHUNG.............................................................13
1.1 Tích hợp dữ liệu......................................................................................13
1.1.1 Khái niệm về tích hợp dữ liệu

13

1.1.2 Các mức độ tích hợp dữ liệu

13

1.1.3 Vấn đề của tích hợp dữ liệu14
1.1.4 Vai trò của tích hợp dữ liệu trong các tổ chức

15

1.1.5 Các yếu tố quyết định đến việc lựa chọn giải pháp tích hợp dữ liệu

16


1.2 Cơ sở dữ liệu trong hệ thống OLTP và OLAP......................................17
1.3 Kho dữ liệu (Datawarehouse)................................................................20
1.3.1 Định nghĩa kho dữ liệu

20

1.3.2 Các đặc trưng của kho dữ liệu

20

1.3.3 Kiến trúc của kho dữ liệu 21
1.3.4 Mô hình dữ liệu sử dụng trong kho dữ liệu

22

1.4 Hiện trạng mô hình dữ liệu ngành hải quan.........................................23
1.4.1 Các hệ thống đang được sử dụng 23
1.4.2 Quy trình thực hiện 23
1.4.3 Những tồn tại và nhu cầu bổ sung 24

5


1.5 Hiện trạng ứng dụng CNTT tại cục Hải quan TP HCM......................25
1.5.1 Hệ thống mạng

25

1.5.2 Hệ thống thiết bị


27

1.5.3 Các ứng dụng đã triển khai 27
CHƯƠNG II: MỘT SỐ KỸ THUẬT, CÔNG NGHỆ TÍCH HỢP DỮ LIỆU31
2.1 Các kỹ thuật tích hợp dữ liệu.................................................................31
2.1.1 Kỹ thuật hợp nhất dữ liệu 31
2.1.2 Kỹ thuật liên hợp dữ liệu

32

2.1.3 Kỹ thuật lan truyền dữ liệu 33
2.1.4 Kỹ thuật lai 35
2.2 Các công nghệ tích hợp dữ liệu..............................................................35
2.2.1 Công nghệ ETL

35

2.2.2 Công nghệ EII

36

2.2.3 Công nghệ EAI

37

2.2.4 Công nghệ EDR

39

2.2.5 Công nghệ ECM


39

2.3 Nhận xét đánh giá...................................................................................40
2.3.1 Bức tranh tổng thể 40
2.3.2 So sánh sự khác biệt 40
2.3.3 Kết hợp các công nghệ

42

CHƯƠNG III: GIẢI PHÁP TÍCH HỢP DỮ LIỆU BẰNG SQL SERVER
REPLICATION.....................................................................................................43
3.1 Tổng quan về SQL Server Replication..................................................43
3.1.1 Thành phần 43
3.1.2 Các kiểu replication 46

6


3.2 Snapshot replication...............................................................................46
3.3 Transactional replication........................................................................47
3.4 Merge replication....................................................................................49
3.5 Các phương pháp triển khai replication...............................................49
3.6 Lựa chọn mô hình và cách tiếp cận.......................................................50
3.7 Nhận xét đánh giá...................................................................................51
CHƯƠNG IV. ỨNG DỤNG XÂY DỰNG CƠ SỞ DỮ LIỆU TÍCH HỢP
TOÀN NGÀNH HẢI QUAN................................................................................53
4.1 Giới thiệu bài toán..................................................................................53
4.2 Yêu cầu về kỹ thuật................................................................................55
4.3 Kiến trúc tổng thể của hệ thống.............................................................55

4.3.1 Mô hình tổng thể

55

4.3.2 Mô hình phân lớp của hệ thống

56

4.3.3 Mô hình kiến trúc ứng dụng và dữ liệu

58

4.3.4 Mô hình trao đổi dữ liệu với hệ thống khác

61

4.4 Giải pháp công nghệ sử dụng.................................................................61
4.4.1 Giải pháp tích hợp dữ liệu 61
4.4.2 Giải pháp xây dựng ứng dụng tích hợp nghiệp vụ hải quan

66

4.4.3 Giải pháp xây dựng ứng dụng dự phòng, phòng chống thảm họa

69

4.5 Kết quả thực hiện...................................................................................70
4.6 Đánh giá kết quả.....................................................................................70
KẾT LUẬN......................................................................................................71
TÀI LIỆU THAM KHẢO.................................................................................73


7


DANH MỤC CÁC CHỮ CÁI VIẾT TẮT
Tên viết tắt
CDC
CNTT
EAI
ECM
EDR
EII
ESB
ETL
MPLS
OLAP
OLTP
SXXK
UTP
XML
XNK

Tên đầy đủ
Change data capture
Công nghệ thông tin
Enterprise Applicaion Integration
Enterprise Content Manager
Enterprise Data Replication
Enterprise Information Integration
Enterprise Services Bus

Extract-Transform-Load
Multi Protocol Label Switching
On-line Analytical Processing
On-line Transaction Processing
Sản xuất xuất khẩu
Unshielded Twisted Pair
EXtensible Markup Language
Xuất nhập khẩu

8


DANH MỤC CÁC HÌNH VẼ
Hình 1.1: Kiến trúc ứng dụng và mức độ tích hợp dữ liệu.............................................13
Hình 1.2: Các thành phần của một ứng dụng tích hợp..................................................16
Hình 1.3: OTLP và OLAP................................................................................................18
Hình 1.4: Kiến trúc kho dữ liệu.......................................................................................21
Hình 1.4: Mô hình dữ liệu hình sao và bông tuyết.........................................................23
Hình 1.5: Mô hình hạ tầng mạng Cục Hải quan TP. Hồ Chí Minh..............................26
Hình 2.1: Kỹ thuật hợp nhất dữ liệu................................................................................31
Hình 2.2: Mô hình kết hợp cơ chế pull và push..............................................................32
Hình 2.3: Kỹ thuật liên hợp dữ liệu.................................................................................33
Hình 2.4: Kỹ thuật lan truyền dữ liệu..............................................................................34
Hình 2.5: Tiến trình trong ETL.......................................................................................36
Hình 2.6: Công nghệ EII..................................................................................................37
Hình 2.7: Công nghệ EAI................................................................................................37
Hình 2.8: Công nghệ EAI với ESB..................................................................................38
Hình 2.9: Các kỹ thuật và công nghệ tích hợp dữ liệu...................................................40
Hình 2.10: Mô hình kết hợp nhiều công nghệ................................................................42
Hình 3.1: Kiến trúc công nghệ SQL Server Replication.................................................44

Hình 3.2: Snapshot Replication.......................................................................................46
Hình 3.3: Transactional Replication................................................................................48
Hình 3.4: Merge Replication............................................................................................49
Hình 3.5: Tạo replication trong Management Studtio....................................................50
Hình 4.1: Mô hình tập trung dữ liệu giai đoạn 1............................................................55
Hình 4.3: Mô hình tổng thể hệ thống tích hợp nghiệp vụ hải quan..............................56
Hình 4.4: Mô hình phân lớp hệ thống tích hợp nghiệp vụ hải quan.............................56
Hình 4.5: Mô hình kiến trúc úng dụng và dữ liệu..........................................................58
Hình 4.6: Mô hình trao đổi dữ liệu..................................................................................61
Hình 4.7: Mô hình tích hợp dữ liệu thử nghiệm.............................................................62
Hình 4.8: Mô hình tích hợp dữ liệu thực tế triển khai...................................................62
Hình 4.9: Luồng hoạt động của ứng dụng chuyển đổi số liệu.......................................64
Hình 4.10: Giao diện chương trình chuyển đổi số liệu..................................................65
Hình 4.11: Mô hình ứng dụng trên sharepoint...............................................................66
Hình 4.12: Đưa thêm webpart và sharepoint...................................................................67
Hình 4.13: Cấu hình sử dụng các control ascx...............................................................68
Hình 4.14: Giao diện sau khi cấu hình...........................................................................68
Hình 4.15: Giao diện ứng dụng tích hợp nghiệp vụ.......................................................68
Hình 4.16: Mô hình hệ thống dự phòng ứng dụng tích hợp nghiệp vụ..............................69

9


LỜI MỞ ĐẦU
Trong quá trình tin học hóa các hoạt động của tổ chức, doanh nghiệp, một loạt
các hệ thống đã được xây dựng để đáp ứng nhu cầu quản lý,vận hành, lưu trữ riêng lẻ
của các các bộ phận trong tổ chức, doanh nghiệp. Các hệ thống này được xây dựng
dựa trên các nền tảng công nghệ khác nhau và gần như không có sự chia sẻ thông tin
giữa các hệ thống vì các hệ thống này được thiết kế để hoạt động độc lập và được thiết
kế để giải quyết các bài toán đơn lẻ cho các bộ phận riêng lẻ của tổ chức, doanh

nghiệp. Điều này dẫn đến tình trạng là các nguồn dữ liệu được lưu trữ không đồng
nhất và phân tán ở nhiều nơi, người sử dụng cần phải sử dụng nhiều chương trình khác
nhau để hoàn thành công việc của mình, hoặc phải khai thác dữ liệu từ các chương
trình khác nhau rồi kết hợp lại để được dữ liệu mong muốn. Khi các hoạt động của tổ
chức được mở rộng (đặc biệt trong hoạt động kinh doanh của doanh nghiệp) nhu cầu
tổng hợp dữ liệu để có được các báo cáo đầy đủ nhằm phục vụ cho việc điều hành tổ
chức, doanh nghiệp trở nên cấp thiết hơn bao giờ hết việc thực hiện tổng hợp dữ liệu
từ các hệ thống riêng lẻ rất tốn thời gian và gần như là không thể thực hiện được nếu
dữ liệu lớn. Ngoài ra, nếu phải thao tác với quá nhiều chương trình cùng một lúc
thường sẽ mất nhiều thời gian hơn so với việc thực hiện trên một hệ thống và có nhiều
khả năng dẫn đến sai sót do phải làm thủ công nhiều bước. Một trong những vấn đề
gặp phải nữa của việc duy trì các hệ thống riêng lẻ đó là chi phí vận hành lớn, các tổ
chức doanh nghiệp sẽ cần phải dùng nhiều nguồn lực dành cho việc duy trì nhiều hệ
thống hoạt động.
Vấn đề tích hợp dữ liệu đã không còn là một xu hướng mà thực sự đã trở thành
nhu cầu của các tổ chức, doanh nghiệp lớn trong những năm gần đây. Một loại những
kỹ thuật, những công nghệ, những sản phẩm phẩn mềm của các hãng công nghệ hàng
đầu thế giới đã được giới thiệu như Oracle Data Integrator, Oracle GoldenGate, IBM
InfoSphere, Microsoft BizTalk, Microsoft Business Intelligent, Microsoft SQL Server
Replication,…
1. Tính cấp thiết của đề tài
Ở Việt Nam, vấn đề tích hợp dữ liệu đang là một trong những quan tâm lớn của
các tổ chức, các doanh nghiệp lớn và đặc biệt là trong các cơ quan nhà nước trong đó
có Tổng cục Hải quan.
Việc nghiên cứu, xây dựng các nhóm giải pháp, quy trình phù hợp, các bước thực
hiện trong bài toán tích hợp dữ liệu sẽ giúp cho các tổ chức, các doanh nghiệp Việt
Nam có thể thực hiện việc tích hợp dữ liệu của mình dễ dàng hơn từ đó có thể phát
triển thêm những ứng dụng xử lý tập trung đáp ứng những đòi hỏi ngày càng cao của
mình.
10



Thông qua việc phân tích và trình bày các kỹ thuật, các công nghệ tích hợp dữ
liệu cùng với kinh nghiệm 4 năm triển khai vận hành hệ thống tích hợp thực tế tại Cục
Hải quan TP. Hồ Chí Minh của tác giả mà các tổ chức, doanh nghiệp hay các đơn vị
quan tâm đến vấn đề tích hợp dữ liệu có thể lựa chọn giải pháp tích hợp dữ liệu phù
hợp với đặc thù và nhu cầu của đơn vị mình.
2. Tình hình triển khai giải pháp
2.1 Trên thế giới
Việc nghiên cứu và triển khai các giải pháp tích hợp đã được bắt đầu từ rất sớm,
ngay từ khi cơ sở dữ liệu được đưa vào sử dụng cho các ứng dụng phục vụ cho nhu
cầu quản lý kinh doanh của các doanh nghiệp, Tuy nhiên nó thực sự chỉ được bùng nổ
trong khoảng thời gian 10 năm gần đây với một loạt các giải pháp tích hợp được ra đời
và triển khai.
2.2 Tại Việt Nam
Khi việc tích hợp dữ liệu trở lên phổ biến ở các nước phát triển thì ở Việt nam
mới bắt đầu có nhu cầu. Các hệ thống tích hợp dữ liệu trên quy mô lớn bắt đầu được
hình thành và triển khai. Hệ thống “Tích hợp nghiệp vụ ngành hải quan” là hệ thống
tích hợp dữ liệu đầu tiên của Tổng cục hải quan và được bắt đầu triển khai từ năm
2010.
3. Đối tượng nghiên cứu
Các kỹ thuật, các công nghệ sử dụng phổ biến nhất hiện nay được sử dụng trong
lĩnh vực tích hợp dữ liệu sẽ là đối tượng nghiên cứu trong khuôn khổ nghiên cứu của
luận văn này.
4. Mục tiêu nghiên cứu
Hiểu được các thành phần, cách thức thực hiện trong các giải pháp được nghiên
cứu cũng như phân tích những ưu nhược điểm của từng kỹ thuật, công nghệ là mục
tiêu nghiên cứu của đề tài. Đồng thời đề xuất và kiểm nghiệm thực tế một giải pháp
tích hợp dữ liệu qua đó đánh giá và hoàn thiện giải pháp để phục vụ cho nhu cầu tích
hợp dữ liệu ở các tổ chức, doanh nghiệp.

5. Nội dung nghiên cứu
Nội dung đề tài tập trung vào các công việc chủ yếu sau:
 Các kỹ thuật, các công nghệ tích hợp dữ liệu hiện nay.
 Nghiên cứu chi tiết công nghệ Microsoft SQL Server Replication
 Ứng dụng các công nghệ này đề xuất, xây dựng triển khai ứng dụng “Tích
hợp nghiệp vụ ngành hải quan”
6. Phương pháp nghiên cứu
Đề tài được tiếp cận và được nghiên cứu theo những phương pháp dưới đây:
 Thu thập tài liệu và kinh nghiệm quốc tế về các giải pháp tích hợp dữ liệu,
qua các nguồn Internet và qua các chuyên gia công nghệ.

11


 Nghiên cứu tìm hiểu các giải pháp tích hợp dữ liệu tiên tiến hiện nay trên
thế giới để đưa ra các khuyến nghị áp dụng.
 Cài đặt và triển khai thử nghiệm một giải pháp tích hợp dữ liệu từ đó có
những đánh giá cụ thể hơn.
7. Bố cục của luận văn
Luận văn “Nghiên cứu một số giải pháp tích hợp dữ liệu, ứng dụng xây dựng
cơ sở dữ liệu nghiệp vụ tập trung trong ngành hải quan” nhằm tìm hiểu, phân tích,
so sánh các kỹ thuật, các công nghệ tích hợp dữ liệu tiên tiến hiện nay trên cơ sở đó đi
sâu nghiên cứu, làm chủ công nghệ để triển khai ứng dụng trong hoàn cảnh thực tế
Việt Nam.
Bố cục luận văn gồm 4 chương:
Chương I: Giới thiệu tổng quan về tích hợp dữ liệu và mục đích của tích hợp
dữ liệu. Thực trạng dữ liệu phân tán của ngành hải quan cũng được trình bày tại
chương này.
Chương II: Trình bày một số kỹ thuật tích hợp dữ liệu, các công nghệ tích
hợp dữ liệu qua đó đưa ra bức tranh tổng thể của các kỹ thuật, các công nghệ tích

hợp dữ liệu cũng như so sánh sự khác biệt giữa chúng đồng thời đề cập khả năng
kết hợp các công nghệ này vào một giải pháp để giải quyết các bài toán tích hợp dữ
liệu trong thực tế.
Chương III: Trình bày chi tiết giải pháp tích hợp dữ liệu bằng Microsoft
Replication nhằm mục đích áp dụng cho bài toán “Tích hợp nghiệp vụ ngành hải
quan” được mô tả chi tiết ở chương tiếp theo.
Chương IV: Ứng dụng các kỹ thuật, các công nghệ đã nghiên cứu ở trên để
xây dựng giải pháp cho hệ thống “Tích hợp nghiệp vụ ngành hải quan” từ đó
đưa ra những đánh giá, những bài học kinh nghiệm có được trong quá vận hành và
triển khai thực tế ứng dụng.

12


CHƯƠNG I. GIỚI THIỆU CHUNG
1.1

Tích hợp dữ liệu

1.2

Khái niệm về tích hợp dữ liệu
Tích hợp dữ liệu là một trong những lĩnh vực nghiên cứu của cơ sở dữ liệu, ngay
từ khi cơ sở dữ liệu được đưa vào sử dụng cho các ứng dụng phục vụ cho nhu cầu
quản lý kinh doanh của các doanh nghiệp thì vấn đề tích hợp dữ liệu đã được nghiên
cứu. Mục đích của việc tích hợp các hệ thống thông tin là nhằm kết hợp các hệ thống
được lựa chọn để tạo thành một hệ thống thông tin đầy đủ, thống nhất đối với người sử
dụng. Qua đó người dùng được cung cấp một khung nhìn đồng nhất về mặt dữ liệu (dữ
liệu có thể phân tán và nguồn dữ liệu có thể khác nhau về cấu trúc hoặc không đồng
nhất về mặt công nghệ).

Vậy tích hợp dữ liệu là sự kết hợp của các quy trình kỹ thuật và kinh doanh sử
dụng để kết hợp dữ liệu từ các nguồn khác nhau nhằm tạo ra thông tin có ý nghĩa và có
giá trị. Đứng ở góc độ giải pháp thì tích hợp dữ liệu là một ứng dụng nền tảng, một sản
phẩm hoặc các kỹ thuật và các công nghệ để cung cấp một khung nhìn thống nhất cho
nhiều nguồn dữ liệu khác nhau.
2
Các mức độ tích hợp dữ liệu
Dựa trên kiến trúc tầng của một hệ thống thông tin chúng ta sẽ có các mức độ tích
hợp dữ liệu khác nhau như hình vẽ dưới đây:

Hình 1.1: Kiến trúc ứng dụng và mức độ tích hợp dữ liệu.
Từ hình vẽ trên, chúng ta có thể thấy được về lý thuyết sẽ có các cách tiếp cập
sau:

13


Tích hợp thủ công: Cách tiếp cận này sẽ đặt người sử dụng làm trung tâm.
Người sử dụng phải thực hiện lấy các dữ liệu từ các hệ thống thông tin khác nhau, từ
đó tổng hợp lại để có được thông tin mà mình mong muốn. Với cách làm này, người sử
dụng cần phải nắm vững được các nơi để lấy được các thông tin cũng như quan hệ
giữa các thông tin này.
Tích hợp giao diện dùng chung: Người sử dụng sẽ được cung cấp một giao
diện dùng chung cho tất cả các hệ thống. Ở cách tiếp cận này, các dữ liệu vẫn được đặt
riêng rẽ, người dùng vẫn cần phải kết hợp các dữ liệu riêng lẻ có được bằn cách sử
dụng giao diện dùng chung này.
Tích hợp ứng dụng: Cách tiếp cận này sử dụng các ứng dụng tích hợp cho phép
việc truy cập đến nhiều nguồn dữ liệu khác nhau. Các dữ liệu này sẽ được kết hợp lại
và trả về cho ngưởi sử dụng. Tuy nhiên, nếu có nhiều ứng dụng thì việc tích hợp sẽ trở
lên khó khăn do ứng dụng phải duy trì quá nhiều các interface, các kết nối đến các

nguồn dữ liệu có định dạng không đồng nhất khiến ứng dụng tích hợp trở nên cồng
kềnh.
Tích hợp bằng phần mềm lớp giữa: Cách tiếp cận này sử dụng một phần mềm
lớp giữa. Phần mềm lớp giữa sẽ cung cấp những chức năng mà có thể dễ dàng sử dụng
lại bởi các ứng dụng. Như vậy với cách tiếp cận này thì chi phí cho việc xây dựng các
ứng dụng tích hợp sẽ được giảm thiểu do có thể sử dụng được các chức năng tích hợp
chung mà không cần phải xây dựng lại.
Tích hợp tầng truy xuất dữ liệu: Các dữ liệu tích hợp logic được tạo ra ở tầng
truy xuất dữ liệu bằng cách cung cấp các khung nhìn (view). Các khung nhìn này là
các dữ liệu ảo được tạo ra bằng cách liên kết các dữ liệu từ các nguồn dữ liệu khác
nhau, khi các ứng dụng lấy dữ liệu từ khung nhìn này, tầng truy xuất dữ liệu sẽ thực
hiện việc truy xuất đến các nguồn dữ liệu thật, kết hợp chúng lại và trả về cho người
dùng. Việc kết hợp dữ liệu từ các nguồn khác nhau có thể mất thời gian xử lý vì thế
cần phải cân nhắc đến vấn đề hiệu năng của hệ thống khi tiếp cận theo hướng này.
Tích hợp ở tầng lưu trữ dữ liệu: Đây là mức độ tích hợp ở tầng vật lý, các dữ
liệu từ các nguồn khác nhau sẽ được chuyển đổi đến nơi lưu trữ mới. Với cách tiếp cận
này thì việc truy cập dữ liệu sẽ trở lên dễ dàng và tốc độ truy vấn được đảm bảo. Tuy
nhiên, các ứng dụng sẽ cần phải sửa đổi để sử dụng dữ liệu tích hợp mới này và cần
phải duy trì cơ chế để đồng bộ dữ liệu từ các nguồn dữ liệu về nơi lưu trữ mới điều này
có thể dẫn đến việc lãng phí bộ nhớ lưu trữ.
3
Vấn đề của tích hợp dữ liệu
Như đã nói ở trên, việc tích hợp các hệ thống thông tin nhằm mục đích kết hợp
các hệ thống thông tin được lựa chọn thành một hệ thống thông tin đầy đủ, thống nhất
đối với người sử dụng. Để đáp ứng được yêu cầu này, tất cả các dữ liệu cần phải được
biểu diễn dựa trên một mô hình dữ liệu toàn cục thống nhất về nguyên tắc và ngữ
nghĩa.

14



Vấn đề này sinh khi các hệ thống được lựa chọn để tích hợp không được thiết kế
để tích hợp với các hệ thống khác. Các hệ thống này được viết trên các nền tảng công
nghệ khác nhau, sử dụng các kiểu dữ liệu khác nhau dẫn đến không thể tích hợp trực
tiếp và cần phải tạo ra các bộ tích hợp để chuyển đổi các dữ liệu giúp các hệ thống có
thể tích hợp với nhau cũng như việc loại bỏ các xung đột khi kết hợp chúng lại, chính
vì vậy giải pháp tích hợp dữ liệu của các hệ thống thông tin được lựa chọn phụ thuộc
vào các yếu tố chính sau:
 Kiến trúc của hệ thống thông tin.
 Nội dung và chức năng của các hệ thống được tích hợp.
 Kiểu thông tin được quản lý bởi từng hệ thống (dữ liệu có cấu trúc hay phi
cấu trúc).
 Mức độ hoạt động độc lập của các hệ thống.
 Mục đích sử dụng của hệ thống thông tin đã được tích hợp (OLTP hay
OLAP).
 Hiệu năng của hệ thống.
 Nguồn lực dành cho dự án (Thời gian, nhân lực, kinh phí, các kinh nghiệm
đã có…).
Ngoài ra các yếu tố sau cũng cần phải được cân nhắc khi xem xét đến vấn đề tích
hợp dữ liệu:
 Phần cứng và hệ điều hành chạy ứng dụng.
 Hệ quản trị cơ sở dữ liệu.
 Mô hình dữ liệu, lược đồ dữ liệu và ngữ nghĩa dữ liệu.
 Phần mềm lớp giữa.
 Giao diện người dùng.
 Các rằng buộc toàn vẹn dữ liệu.
3.1

Vai trò của tích hợp dữ liệu trong các tổ chức
Tích hợp dữ liệu có vai trò đặc biệt quan trọng trong các tổ chức và doanh

nghiệp. Nó cho phép dữ liệu được chia sẻ một cách đầy đủ, xuyên suốt và dễ dàng
giữa các bộ phận trong cùng một tổ chức. Nếu như doanh nghiệp có nhiều nguồn
thông tin được lưu trữ và quản lý bởi các hệ thống khác nhau mà các thông tin này có
liên quan đến nhau ở cấp độ quản lý tổ chức doanh nghiệp thì nhu cầu tích hợp dữ liệu
sẽ rất lớn vì các khó khăn sau:
Khó khăn trong việc chia sẻ dữ liệu: Các dữ liệu sẽ do từng bộ phận phụ trách
ứng dụng quản lý việc chia sẻ dữ liệu sẽ phải thực hiện thủ công thông qua các chức
năng kết xuất dữ liệu của từng hệ thống riêng lẻ, nếu hệ thống không có chức năng kết
xuất dữ liệu thì việc này không thể thực hiện được. Các dữ liệu chia sẻ sẽ cần phải lưu
trữ ở nơi lưu trữ chung và sẽ rất khó khăn trong việc tìm kiếm, kiểm soát truy cập. Dữ

15


liệu chia sẻ không phản ánh kịp thời đến tình hình hoạt động thực tế (dữ liệu cũ, không
phải là mới nhất).
Khó khăn trong việc tạo báo cáo tổng hợp: Các báo cáo ảnh hưởng đến việc ra
các quyết định hoạt động của các tổ chức đòi hỏi phải tổng hợp dữ liệu từ nhiều nguồn
dữ liệu từ các hệ thống khác nhau, người làm báo cáo tổng hợp đòi hỏi phải am hiểu
cách kết xuất dữ liệu từ các hệ thống riêng lẻ cũng như mối quan hệ giữa các dữ liệu
kết xuất được từ các hệ thống này. Sau khi có được dữ liệu từ các hệ thống riêng lẻ,
việc làm báo cáo tổng hợp buộc phải làm bằng phương pháp thủ công điều này tốn
nhiều thời gian, công sức và có thể có những sai sót.
Khó khăn trong việc vận hành các hệ thống thông tin: Bất kỳ hệ thống thông
tin nào cũng đều phải duy trì một đội ngũ cán bộ kỹ thuật để đảm bảo được hệ thống
được vận hành an toàn, liên tục; đội ngũ cán bộ này sẽ cần phải kiểm tra, phát hiện và
giải quyết các sự cố cho các hệ thống. Chi phí vận hanh, bảo dưỡng chắc chắn sẽ
không nhỏ và có xu hướng tăng nhanh trong tương lai khi có các hệ thống khác được
phát triển và đi vào sử dụng. Ngoài ra, các hệ thống này có thể đòi hỏi nhiều tài
nguyên nếu không có chính sách quản lý, chia sẻ tài nguyên phù hợp khi chúng hoạt

động riêng lẻ.
Nếu việc tích hợp dữ liệu thành công thì toàn bộ những khó khăn trên có thể
được giải quyết, chính vì vậy vai trò của tích hợp dữ liệu trong doanh nghiệp và các tổ
chức là vô cùng quan trọng.
4
Các yếu tố quyết định đến việc lựa chọn giải pháp tích hợp dữ liệu
Một giải pháp tích hợp dữ liệu sẽ bao gồm một nền tảng ứng dụng tích hợp
(Integrated application framework) cho phép các ứng dụng tích hợp được xây dựng
trên nó, các kỹ thuật, các công nghệ, các sản phẩm cho phép việc cung cấp một khung
nhìn thống nhất và nhất quán về dữ liệu của tổ chức.
Có thể mô tả các thành phần trong một giải pháp tích hợp dữ liệu như hình vẽ
dưới đây:

16


Hình 1.2: Các thành phần của một ứng dụng tích hợp
Các ứng dụng là các giải pháp được xây dựng dựa theo các yêu cầu của các tổ
chức, doanh nghiệp và được phát triển bởi nhà cung cấp trong đó có sử dụng một hay
nhiều sản phẩm tích hợp dữ liệu.
Các sản phẩm tích hợp dữ liệu là các giải pháp thương mại được đóng gói trong
đó có hỗ trợ một hoặc nhiều các kỹ thuật, công nghệ tích hợp dữ liệu.
Các công nghệ thực thi một hay nhiều các kỹ thuật tích hợp dữ liệu.
Các kỹ thuật là các phương pháp được sử dụng (độc lập với công nghệ) cho việc
tích hợp dữ liệu.
Trước khi lựa chọn một giải pháp tích hợp dữ liệu cho các nguồn dữ liệu chúng
ta cần phải cân nhắc đến các yếu tố sau:
 Kiểu dữ liệu của nguồn: Có cấu trúc hay phi cấu trúc
 Tổ chức của dữ liệu nguồn: Đồng nhất hay không đồng nhất, tập trung hay
phân tán.

 Yêu cầu chuyển đổi dữ liệu nguồn: Dữ liệu nguồn có cần chuyển đổi sang
dữ liệu khác hay không.
 Yêu cầu về sử dụng dữ liệu: Thời gian làm mới dữ liệu, mục đích sử dụng
dữ liệu (đọc ghi, chỉ đọc).
 Kỹ thuật và công nghệ tích hợp dữ liệu: Các kỹ thuật, công nghệ được
đóng gói trong giải pháp tích hợp.
 Quy mô dữ liệu: Số lượng nguồn dữ liệu cần tích hợp, kích thước của từng
nguồn dữ liệu, tần xuất thay đổi trên các nguồn dữ liệu.

4.1

Cơ sở dữ liệu trong hệ thống OLTP và OLAP

Một trong những yếu tố quyết định đến thiết kế ứng dụng tích hợp là mục đích sử
dụng cơ sở dữ liệu tích hơp. Chúng ta có thể chia hệ thống thông tin thành hai loại đó
là hệ thống xử lý giao dịch trực tuyến (hệ thống OLTP) và hệ thống phân tích dữ liệu
trực tuyến(hệ thống OLAP). Hình vẽ dưới đây cho thấy sự khác nhau cũng như quan
hệ giữa hệ thống OLAP và hệ thống OLTP.

17


Hình 1.3: OTLP và OLAP
Thông thường hệ thống OLTP sẽ là nguồn cung cấp dữ liệu cho hệ thống OLAP
để phân tích các dữ liệu chi tiết có được từ hệ thống OLTP thành các thông tin có giá
trị.
Hệ thống xử lý giao dịch trực tuyến: Là một hệ thống xử lý dữ liệu phổ biến
trong các tổ chức, doanh nghiệp ngày nay, được thiết kế nhằm mục đích thu thập dữ
liệu. Đặc trưng của hệ thống này là xử lý một số lượng lớn các giao dịch trong thời
gian ngắn (các giao dịch đơn giản: insert, update, delete). Yêu cầu đối với các hệ thống

này là xử lý thật nhanh các truy vấn dữ liệu, duy trì tính toàn vẹn dữ liệu trong môi
trường đa truy cập (đa người dùng). Hiệu năng của hệ thống OLTP có thể đo bằng số
lượng giao dịch (transaction) trên mỗi giây. Cơ sở dữ liệu trong hệ thống OLTP được
sử dụng để lưu chi tiết các thông tin phục vụ cho các tác vụ, lược đồ dữ liệu thường ở
chuẩn 3NF.
Hệ thống phân tích dữ liệu trực tuyến: Trái ngược với hệ thống xử lý giao dịch
trực tuyến, đặc chưng của OLAP system là có rất ít các giao dịch (transaction) hoạt
động đồng thời. Các truy vấn thường rất phức tạp, đòi hỏi phải kết hợp nhiều thông tin
có trong cơ sở dữ liệu. Thời gian phản hồi cho các truy vấn là thước đo đánh giá hiệu
năng của các hệ thống OLAP. Ứng dụng OLAP được sử dụng rộng rãi bởi các kỹ thuật
khai phá dữ liệu. Dữ liệu được lưu trữ trong cơ sở dữ liệu của hệ thống OLAP là các
dữ liệu đã được tổng hợp lại, có tính lịch sử được lưu trữ trong các lược đồ đa chiều
(thường là lược đồ hình sao hoặc bông tuyết).
Điểm khác biệt giữa hệ thống OLTP và OLAP được tóm tắt lại ở bản so sánh
dưới đây:

18


Tiêu chí
Dữ liệu
nguồn

Hệ thống OLTP
Dữ liệu hoạt động của tổ chức, là
dữ liệu gốc ban đầu do người dùng
đầu cuối nhập vào.
Để kiểm soát và chạy các nghiệp
vụ cơ bản, thiết yếu xảy ra hàng
ngày. Phục vụ người dùng ở cấp

hoạt động trong tổ chức, doanh
nghiệp.
Cho thấy một ảnh chụp nhanh của
các quá trình vận hành, kinh doanh
liên tục của tổ chức, doanh nghiệp.
Thêm, sửa nhanh chóng và được
tạo bởi người dùng cuối ở cấp hoạt
động.

Hệ thống OLAP
Dữ liệu hợp nhất. Dữ liệu OLAP
đến từ nhiều nguồn khác nhau của
hệ thống OLTP.
Mục đích
Phục vụ mục đích lập kế hoạch,
của dữ
giải quyết vấn đề, hỗ trợ ra quyết
liệu
định. Phục vụ cho các cấp bậc
quản lý chiến lược của tổ chức,
doanh nghiệp.
Phản ánh
Số liệu cung cấp góc nhìn đa chiều
dữ liệu
các hoạt động vận hành, kinh
nào
doanh trong tổ chức, doanh nghiệp.
Thêm và
Chạy theo chu kỳ, theo lô lớn các
sửa dữ

giao dịch, như vào một giờ nhất
liệu
định để tập hợp, tính toán và làm
mới dữ liệu.
Truy vấn Các truy vấn cơ bản, số lượng dòng Thường truy vấn với các câu truy
dữ liệu trả về ít.
vấn tính toán phức tạp dựa trên
khối lượng dữ liệu rất lớn.
Tốc độ xử Thường rất nhanh trong một vài
Phụ thuộc vào khối lượng dữ liệu

giây.
cần xử lý và một lần xử lý một lô
các truy vấn để tập hợp và tính
toán dữ liệu có thể kéo dài hàng
giờ đồng hồ.
Không
Tương đối nhỏ nếu dữ liệu lịch sử
Thường rất lớn, do sự tồn tại của
gian lưu
được cắt giảm và lưu trữ thích hợp. dữ liệu tổng hợp mang tính lịch sử,
trữ
cần nhiều index hơn so với OLTP.
Thiết kế
Chuẩn hóa ở mức cao, cần nhiều
Thường không cần chuẩn hóa, ít
database
table.
table hơn. Dữ liệu thường theo 2
mô hình là sao (Star) hoặc bông

tuyết (Snowflake).
Backup và Thường xuyên phải backup. Dữ
Thay vì phải backup đều đặn, khi
phục hồi
liệu hoạt động là cực kỳ quan trọng mất mát dữ liệu xảy ra, nhiều hệ
dữ liệu
với hoạt động kinh doanh nên phải thống OLAP thường chọn một
bảo trì backup cẩn thận, việc mất
phương pháp đơn giản là load lại
mát dữ liệu cũng đồng nghĩa với
dữ liệu từ các nguồn dữ liệu gốc ở
việc mất mát thời gian, tiền bạc và các hệ thống OLTP như là một giải
công sức nhập liệu cũng như liên
pháp phục hồi dữ liệu.
quan đến trách nhiệm pháp lý.

19


4.2

Kho dữ liệu (Datawarehouse)

Khi kinh tế trở lên khó khăn, các đối thủ trong kinh doanh của các doanh nghiệp
ngày càng nhiều thì việc phân tích dữ liệu càng trở lên quan trọng đối với các doanh
nghiệp vì nó ảnh hưởng đến việc ra các quyết sách điều hành đường hướng phát triển
của doanh nghiệp nhằm gia tăng lợi thế cạnh tranh. Hệ thống OLAP ra đời nhằm giải
quyết nhu cầu trên (Do hệ thống OLTP không thể đáp ứng được như đã nói ở trên).
Thuật ngữ Datawarehouse ra đời để ám chỉ những cơ sở dữ liệu phục vụ cho hệ thống
OLAP.

5
Định nghĩa kho dữ liệu
Kho dữ liệu là một tập hợp dữ liệu hướng chủ đề, tích hợp, có tính thời gian và
không thay đổi để hỗ trợ quá trình tạo quyết định quản lý. - W. H. Inmon [4]
Kho dữ liệu là một cơ sở dữ liệu quan hệ hay một cơ sở dữ liệu đa chiều được
thiết kế cho mục đích truy vấn và phân tích hơn là xử lý các giao dịch. Kho dữ liệu tập
hợp các dữ liệu lịch sử và dữ liệu đã phân tích lấy được từ nhiều nguồn. Kho dữ liệu
tách riêng việc phân tích với việc xử lý giao dịch, và cho phép hợp nhất dữ liệu từ
nhiều nguồn dữ liệu khác nhau. Kho dữ liệu thường lưu trữ dữ liệu của nhiều tháng
hay nhiều năm để hỗ trợ phân tích. Dữ liệu trong một kho dữ liệu thường được đưa
vào thông qua một quá trình trích xuất dữ liệu, chuyển đổi, và tải vào (Extract
Transform Load - ETL) từ một hay nhiều nguồn dữ liệu như các ứng dụng On-Line
Transaction Processing – OLTP hay các nhà cung cấp dữ liệu bên ngoài. Người sử
dụng kho dữ liệu sẽ thực hiện các phân tích dữ liệu thường có liên quan đến thời gian.
Các phân tích phức tạp hơn bao gồm phân tích xu hướng và khai thác dữ liệu, sử dụng
các dữ liệu tồn tại để dự báo các xu hướng hay dự báo tương lai. Kho dữ liệu cung cấp
cơ sở cho một môi trường kinh doanh thông minh.
6
Các đặc trưng của kho dữ liệu
Hướng chủ đề: Dữ liệu trong kho dữ liệu được tổ chức xung quanh các chủ đề
chính như khách hàng, sản phẩm, sản xuất. Nó tập trung vào việc mô hình hóa và
phân tích dữ liệu cho các nhà ra quyết định mà không tập trung vào các xử lý nghiệp
vụ thông thường, tức là các dữ liệu không hữu ích cho hệ thống hỗ trợ ra quyết định
sẽ được loại bỏ. Cung cấp cho người dùng một khung nhìn toàn vẹn, đơn giản và đầy
đủ về các sự kiện quanh các chủ đề.
Tính tích hợp: Là đặc tính quan trọng nhất của kho dữ liệu. Dữ liệu trong kho
dữ liệu được xây dựng bằng cách tổng hợp dữ liệu từ nhiều nguồn khác nhau và các
nguồn có tổ chức khác nhau như: Cơ sở dữ liệu, các file excel, các flat file hoặc các
raw file. Các kỹ thuật làm sạch, sắp xếp, rút gọn dữ liệu sẽ được áp dụng nhằm đảm
bảo tính nhất quán của dữ liệu.

Tính ổn định: Dữ liệu trong kho dữ liệu được chuyển đổi từ môi trường tác
nghiệp và được lưu trữ trong một thời gian dài, khi dữ liệu được chuyển đổi vào đây

20


thì các thao tác cập nhật và xóa dữ liệu thường không xảy ra. Dữ liệu trong kho dữ liệu
chỉ có hai thao tác: Chèn mới và đọc dữ liệu.
Biến đổi theo thời gian: Dữ liệu trong kho dữ liệu thường có tính lịch sử và gắn
với thời gian. Phạm vi về thời gian của dữ liệu được lưu trữ trong kho dữ liệu dài hơn
so với các hệ thống tác nghiệp, nếu như dữ liệu tác nghiệp chỉ có giá trị hiện thời thì
kho dữ liệu cung cấp thông tin lịch sử lâu dài vì thế nó cung cấp một cái nhìn đầy đủ
và nhiều thông tin hơn. Trong kho dữ liệu, thời gian được lưu trữ như một thành phần
của khóa chính để đảm bảo tính duy nhất của dữ liệu và cung cấp một đặc trưng thời
gian của dữ liệu. Dữ liệu trong kho luôn gắn với một giá trị thời gian nhất định.
7
Kiến trúc của kho dữ liệu
Về cơ bản kho dữ liệu sẽ bao gồm 04 thành phần:
 Nguồn dữ liệu (Data Sources)
 Khu vực xử lý (Staging Area)
 Kho dữ liệu (Warehouse)
 Công cụ truy cập dữ liệu hay người khai thác dữ liệu(Users)
Các thành phần này được mô tả ở hình vẽ dưới đây:

Hình 1.4: Kiến trúc kho dữ liệu.
Nguồn dữ liệu:
Dữ liệu trong kho dữ liệu đươc tổng hợp từ rất nhiều nguồn dữ liệu khác nhau và
có cấu trúc dữ liệu khác nhau:
- Dữ liệu từ hệ thống OLTP: Đây là nguồn dữ liệu chính để xây dựng kho dữ
liệu, chứa các dữ liệu chi tiết hiện tại của hệ thống tác nghiệp.

- Dữ liệu từ hệ thống OLAP: Đây là dữ liệu đã được tổng hợp từ các nguồn dữ
liệu của các hệ thống phân tích dữ liệu khác và được tổ chức lại theo nhiều phương
pháp khác nhau.
21


Khu vực xử lý (Staging Area):
Ở khu vực này, các kỹ thuật làm sạch và chuyển đổi sẽ được thực thi nhằm đảm
bảo tính nhất quán dữ liệu trước khi đưa vào kho dữ liệu. Thông thường người ta sử
dụng các công cụ trích xuất, chuyển đổi và nạp dữ liệu (ETL). Đúng như tên gọi công
cụ này thực hiện các thao tác trích xuất dữ liệu, chuyển đổi dữ liệu, tải dữ liệu vào kho
dữ liệu.
Kho dữ liệu:
Kho dữ liệu là cơ sở dữ liệu được tổ chức lại theo mô hình hình sao hay mô hình
bông tuyết. Mô hình được phi chuẩn hóa, chấp nhận sự dư thừa dữ liệu trong lưu trữ
dữ liệu, chính vì mô hình dữ liệu đơn giản hơn nên việc truy vấn dễ dàng hơn và tốc
độ xử lý cũng nhanh hơn mô hình dữ liệu được chuẩn hóa. Ngoài ra kho dữ liệu còn
chứa các dữ liệu khác như:
Siêu dữ liệu: Đây là dữ liệu mô tả các dữ liệu được lưu trữ trong kho dữ liệu.
Siêu dữ liệu định nghĩa nên các thành phần của kho dữ liệu, cách thức dữ liệu được tải
vào kho dữ liệu, lưu lại quá trình hoạt động của kho dữ liệu. Siêu dữ liệu gồm có các
dạng sau:
- Dữ liệu định nghĩa và cách thức ánh xạ dữ liệu vào các bảng trong kho dữ liệu.
- Dữ liệu định nghĩa và giải thích cấu trúc của các bảng bên trong kho dữ liệu.
- Dữ liệu định nghĩa cấu trúc dữ liệu ở hệ thống nguồn.
- Dữ liệu định nghĩa và chú thích về tiến trình ETL.
- Dữ liệu định nghĩa các luật (quy định) về chất lượng dữ liệu, các mức độ sai
lệch của dữ liệu và cách thức xử lý.
- Dữ liệu theo dõi tiến trình xử lý các bản ghi trong kho dữ liệu.
- Dữ liệu chứa các sự kiện hoạt động của các ứng dụng.

Bảng sự kiện tổng hợp: Các bảng tổng hợp này lưu giữ các dữ liệu tính toán được
nhằm trả lời một cách nhanh nhất các câu hỏi của người dùng đưa ra. Đây là dữ liệu có
thể tính toán được từ các bảng khác tuy nhiên để tăng tốc độ xử lý, dữ liệu này được
lưu trữ để không phải tính toán lại mỗi khi có truy vấn lặp lại.
Công cụ truy cập:
Là các công cụ khai thác dữ liệu trong kho dữ liệu được cung cấp cho người
dùng. Ở mức thấp nhất, đó có thể là một công cụ hỗ trợ truy vấn SQL đơn giản. Ở mức
cao hơn, đó có thể là các bộ công cụ chuyên về báo cáo như Business Objects,
Microsoft Business Intelligent, Oracle Business Intelligent…
8
Mô hình dữ liệu sử dụng trong kho dữ liệu
Như đã mô tả ở trên, dữ liệu trong kho dữ liệu thường được tổ chức dưới dạng
mô hình hình sao hay mô hình bông tuyết nhằm tối ưu hóa tốc độ xử lý. Ở mô hình
hình sao, chúng ta sẽ có một bảng dữ liệu trung tâm được gọi là bảng sự kiện (fact)
bao xung quanh nó là các bảng chiều (dimensions). Mô hình bông tuyết là sự mở rộng

22


của mô hình hình sao, trong đó một vài cấu trúc chiều được chuẩn hóa thành các bảng
chiều nhỏ hơn.

Hình 1.4: Mô hình dữ liệu hình sao và bông tuyết.

8.1

Hiện trạng mô hình dữ liệu ngành hải quan

8.2


Các hệ thống đang được sử dụng
Trong quá trình tin học hóa các hoạt động quản lý hành chính của mình, ngành
Hải quan cũng không tránh khỏi vấn đề về tình trạng phân tán dữ liệu bởi việc vận
hành các hệ thống rời rạc được đặt riêng lẻ ở tổng cục, cục và chi cục. Hàng loạt các
hệ thống ra đời với mục tiêu ban đầu là giải quyết một phần nghiệp vụ trong từng đơn
vị bộ phận của hải quan theo mô hình phân tán mà không tính đến các yêu cầu tổng thể
như: Hệ thống thông tin quản lý tờ khai XNK; Hệ thống thông tin quản lý kế toán thuế
XNK; Hệ thống thông tin quản lý thông tin giá tính thuế; Hệ thống thông tin quản lý
thông tin vi phạm; Hệ thống thông tin thống kê tập trung; Hệ thống thống kê thuế theo
từng dòng hàng; Hệ thống thông tin quản lý hàng gia công; Hệ thống tiếp nhận khai
báo từ xa đối với các loại hình XNK; Chương trình quản lý loại hình nhập SXXK;
Chương trình giám sát container cảng biển; Chương trình NetOffice; Hệ thống thông
quan điện tử.
9
Quy trình thực hiện
Quy trình thủ tục Hải quan hiện nay đang áp dụng theo các văn bản hướng dẫn
như sau:
- Nghị định 154/2005/NĐ-CP ngày 15/12/2005
- Thông tư 112/2005/TT-BTC ngày 15/12/2005
- Thông tư 113/2005/TT-BTC ngày 15/12/2005
- Thông tư 40/2008/TT-BTC ngày 21/05/2008
- Quyết định 874/QĐ-TCHQ ngày 15/05/2006
-…
23


Các khâu chính như sau:
Bước 1: Tiếp nhận hồ sơ đăng ký tờ khai
1 - SLXNK: Nhập các thông tin đăng ký tờ khai, tra cứu thông tin phân loại
doanh nghiệp, kiểm tra phân luồng tờ khai.

2 - GTT22: Nhập thông tin tờ khai trị giá (nếu có)
3 - KT559: Nhập thông tin số thuế phải nộp của tờ khai
4 - KT559: Tra cứu tình trạng nợ thuế của doanh nghiệp (trong hạn, quá
hạn, cưỡng chế),
5 - ViCum: Tra cứu thông tin vi phạm của doanh nghiệp
6 - Tra cứu thông tin doanh nghiệp đã từng nợ thuế quá hạn 90 ngày (cưỡng
chế) trong thời hạn 365 ngày kể từ ngày đăng ký tờ khai
(Cục Hải quan TP HCM quy định thêm các bước tra cứu 4,5,6)
Bước 2: Kiểm tra chi tiết hồ sơ
1 - GTT22: Tra cứu thông tin, xác định giá tính thuế
2 - KT559: Tính lại thuế, ra quyết định điều chỉnh thuế (nếu có)
3 - SLXNK: Cập nhật lại những thay đổi thông tin tờ khai phát sinh tại
bước này. Cập nhật kết quả kiểm tra hồ sơ
Bước 3: Kiểm tra thực tế hàng hóa
1 - SLXNK: Nhập thông tin kết quả kiểm hoá.
2 - GTT22: Nhập thông tin chi tiết hàng hoá
Bước 4: Phúc tập hồ sơ
1 - GTT22: Xác nhận thông tin tờ khai đã phúc tập
10

Những tồn tại và nhu cầu bổ sung
Tồn tại:

- Các chương trình ứng dụng mới chỉ đáp ứng được các yêu cầu về nghiệp vụ hải
quan đơn lẻ, vì vậy thực hiện một quy trình nghiệp vụ thông quan phải thực hiện thông
qua rất nhiều chương trình.
- Đa số các hệ thống được xây dựng theo mô hình phân tán nên phải đầu tư
nhiều, dàn trải. Mỗi chi cục đều phải đầu tư các thiết bị phần cứng, có cán bộ chuyên
trách để vận hành các hệ thống. Phải đầu tư thiết bị lưu trữ rất tốn kém cho từng Chi
cục. Dữ liệu truyền nhận hàng ngày lớn chiếm dụng hết đường truyền, ảnh hưởng đến

việc truyền tải các thông tin khác.
- Không đảm bảo an ninh an toàn dữ liệu. Không kiểm soát được việc hiệu chỉnh,
sửa đổi, xóa dữ liệu, bổ sung danh mục chuẩn. Không đảm bảo được việc sao lưu dữ
liệu tại các Chi cục và khả năng vận hành liên tục của hệ thống.

24


- Người sử dụng phải có trình độ cao. Công chức hải quan phải có nhiều kinh
nghiệm, kỹ năng trong thao tác nghiệp vụ để sử dụng nhiều ứng dụng khác nhau cho
việc hoàn thành một quy trình thủ tục.
- Các hệ thống không có tính nhất quán. Việc quản lý phiên bản, cập nhật và bảo
trì các ứng dụng và cơ sở dữ liệu ứng dụng tại Chi cục có nhiều khó khăn. Khả năng
trao đổi dữ liệu giữa các hệ thống có hạn chế.
- Hệ thống CNTT tại Trung tâm dữ liệu chưa thể đáp ứng làm “Trung tâm dữ liệu
tập trung” theo đúng nghĩa, chưa được xây dựng theo đúng mô hình “Data Center”.
Nhu cầu cần bổ sung:
- Xây dựng thành một hệ thống thống nhất đáp ứng được đầy đủ các khâu trong
quy trình thông quan.
- Hệ thống xử lý tập trung tại cấp Cục, Tổng Cục.
- Đảm bảo an ninh, an toàn dữ liệu tính sẵn sàng của hệ thống.
- Xây dựng trung tâm dữ liệu theo mô hình “Data center”.

10.1 Hiện trạng ứng dụng CNTT tại cục Hải quan TP HCM
Do chiếm tới gần 50% dữ liệu xuất nhập khẩu của toàn ngành hải quan nên cục
Hải quan TP. Hồ Chí Minh là địa điểm lựa chọn cho việc thử nghiệm giải pháp tích
hợp dữ liệu được đề xuất trong luận văn. Chi tiết hiện trạng ứng dụng CNTT tại cục
Hải quan TP. Hồ Chí Minh được mô tả như ở dưới đây.
11
Hệ thống mạng

Toàn bộ các Chi cục trực thuộc đều có đường kết nối MPLS, UTP hoặc Leaseline
tới TTDL Cục Hải quan TP HCM, các Chi cục nói trên đều đã được triển khai hệ
thống mạng nội bộ (LAN). Mỗi chi cục đều đã được trang bị máy chủ PC Server, máy
trạm phục vụ xử lý thông tin, quy trình nghiệp vụ.
Bảng và hình sau mô tả hiện trạng kết nối mạng của Cục hải quan TP. Hồ Chí
Minh.

25


×