Tải bản đầy đủ (.docx) (85 trang)

Xây dựng kho dữ liệu phục vụ việc lập báo cáo ngành hải quan việt nam,khoá luận tốt nghiệp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4 MB, 85 trang )


HỌC VIỆN NGÂN HÀNG
KHOA HỆ THỐNG THƠNG TIN QUẢN LÝ

KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC
••••

XÂY DỰNG KHO DỮ LIỆU PHỤC VỤ VIỆC
LẬP BÁO CÁO NGÀNH HẢI QUAN VIỆT NAM

NGUYỄN QUANG LONG

HÀ NỘI, NĂM 2019


HỌC VIỆN NGÂN HÀNG
KHOA HỆ THỐNG THƠNG TIN QUẢN LÝ

KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC
••••

XÂY DỰNG KHO DỮ LIỆU PHỤC VỤ VIỆC
LẬP BÁO CÁO NGÀNH HẢI QUAN VIỆT NAM

Giáo viên hướng dẫn:
Sinh viên thực hiện:
Mã sinh viên:

TS.Chu Hồng Hải
Nguyễn Quang Long
18A4040128



Lớp: HTTTB
Khóa: K18
Hệ: Đại học chính quy

Hà Nội, tháng 5/2019


Khoá luận tốt nghiệp

Xây dựng kho dữ liệu phục vụ việc lập báo cáo
ngành Hải quan Việt Nam

Lời cảm ơn
Em xin gửi lời cảm ơn đến toàn thể các cán bộ Giảng viên Học viên Ngân hàng,
đặc biệt là thấy cô giáo Khoa Hệ Thống thông tin quản lý đã tâm huyết giảng dạy và
truyền đạt cho em những kiến thức bổ ích trong suốt q trình học tập tại trường.
Em xin bày tỏ lòng biết ơn chân thành sâu sắc tới TS. Chu Thị Hồng Hải- Giảng
viên Khoa Hệ thống thông tin quản lý - Học viện Ngân hàng. Cơ đã ln tạo điều kiện
và tận tình hướng dẫn em khơng chỉ trong thời gian viết khóa luận tốt nghiệp mà cả
trong những kỳ học đã qua.
Em xin trân thành cảm ơn Ban giám đốc Công ty cổ phần hệ thống công nghệ
ETC
đã cho phép và tạo điều kiện thuận lợi giúp em có thể hồn thành tốt cơng việc thực tập
tại công ty. Đặc biệt, em xin cảm ơn anh Đặng Kim Dũng và chị Phạm Thị Hợp đã
nhiệt
tình chỉ bảo cho em những kiến thức mới và thực tế giúp em hồn thành bài viết khố
luận một cách tốt nhất.
Em đã cố gắng hồn thiện bài khóa luận với tất cả sự nỗ lực của bản thân. Tuy
nhiên, do cịn thiếu nhiều kinh nghiệm, chắc chắn khóa luận sẽ khơng tránh khỏi được

những thiếu sót. Vì vậy, em rất mong nhận được sự quan tâm, những ý kiến đóng góp
của thầy cơ và các bạn để bài khóa luận của em có thể hồn thiện hơn.
Em xin chân thành cảm ơn!

Nguyễn Quang Long

Nguyễn Quang Long - K18H∣I∣B

i


Khoá luận tốt nghiệp

Xây dựng kho dữ liệu phục vụ việc lập báo cáo
ngành Hải quan Việt Nam

LỜI CAM KẾT
Em xin cam đoan: Khóa luận tốt nghiệp với đề tài “Xây dựng kho dữ liệu phục vụ
việc lập báo cáo ngành Hải quan Việt Nam” là bài khóa luận của riêng cá nhân em,
không sao chép của bất cứ ai.
Em xin chịu mọi trách nhiệm về bài khóa luận của mình!
Hà Nội, ngày tháng 5 năm 2019
Người cam đoan

Nguyễn Quang Long

Nguyễn Quang Long - K18H∣I∣B

ii



Khoá luận tốt nghiệp

Xây dựng kho dữ liệu phục vụ việc lập báo cáo
ngành Hải quan Việt Nam

NHẬN XET (Của cơ quan thực tập)
về các mặt: Ý thức chấp hành nội quy, thái độ làm việc của sinh viên tại nơi thực
tập; Tiến độ, kết quả thực hiện công việc được giao; Tính thực tiễn và ứng dụng của đề
tài.

Hà Nội, ngày tháng năm 2019
Người nhận xét

(Ký tên, đóng dấu)

Nguyễn Quang Long - K18H∣I∣B

iii


Khoá luận tốt nghiệp

Xây dựng kho dữ liệu phục vụ việc lập báo cáo
ngành Hải quan Việt Nam

NHẬN XET (Của giáo viên hướng dẫn)
về các mặt: Mục đích của đề tài; Tính thời sự và ứng dụng của đề tài; Bố cục và
hình thức trình bầy đề tài; Ket quả thực hiện đề tài; Ý thức, thái độ của sinh viên trong
quá trình thực hiện đề tài.


Kết luận : ......................................................................................................................
Hà Nội, ngày tháng năm 2019
Giáo viên hướng dẫn
(Ký tên)

Nguyễn Quang Long - K18H∣I∣B

iv


Khố luận tơt nghiệp

Xây dựng kho dữ liệu phục vụ việc lập báo cáo
ngành Hải quan Việt Nam

Mục lục
DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT.....................................................vii
Danh mục bảng biểu..........................................................................................................viii
Danh mục hình vẽ................................................................................................................ix
Lời mở đầu..........................................................................................................................11
Kết cấu của đề tài................................................................................................................12
CHƯƠNG I: TỔNG QUAN VỀ KHO DỮ LIỆU..............................................................13
1.1.

Giới thiệu về kho dữ liệu....................................................................................... 13

1.1.1.

Định nghĩa......................................................................................................13


1.1.2.

Các đặc tính....................................................................................................13

1.1.3.

Các loại dữ liệu...............................................................................................14

1.1.4.

Lợi ích mang lại..............................................................................................14

1.1.5.

Hướng phát triển tương lai............................................................................. 15

1.2.

Thiết kế kho dữ liệu...............................................................................................15

1.2.1.

Mô hình kiến trúc tổng thể............................................................................. 15

1.2.2.

Các giai đoạn thiết kế kho dữ liệu..................................................................17

1.2.3.


Nguồn gốc dữliệu........................................................................................... 18

1.2.4.

Mơ hình kho dữ liệu....................................................................................... 18

1.3.

So sánh Database với kho Data Warehouse...........................................................20

1.4.

So sánh Data Warehouse và Data Mart..................................................................22

1.5.

Kết luận chương.....................................................................................................23

CHƯƠNG 2: CÁC NGHIỆP VỤ VÀ NHU CẦU CẦN XÂY DỰNG KHO DỮ LIỆU
PHỤC VỤ CHO VIỆC LẬP BÁO NGÀNH HẢI QUAN.......................................................24
2.1.

Cơ cấu tổ chức và các hệ thống nghiệp vụ ngành Hải quan..................................24

2.1.1.

Giới thiệu tổ chức..........................................................................................24

2.1.2.


Các nghiệp vụ................................................................................................ 25

2.2. Khảo sát nhu cầu xây dựng kho dữ liệu phục vụ cho việc lập báo cáo.................32
2.2.1........................................................................Lập danh sách đối tượng cần hỏi
32

Nguyễn Quang Long - K18H∣I∣B

v


Khoá luận tốt nghiệp

Xây dựng kho dữ liệu phục vụ việc lập báo cáo
ngành Hải quan Việt Nam

DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT bảng câu hỏi
2.2.2.................................................................................................Lập
33
2.3. Quá trình lập báo cáo của ngành Hải quan hiện nay.............................................37
2.3.1.............................................................................................................Quy trình
37
2.3.2..................................................................................................Các loại báo cáo
37
2.3.3.....................................................................Các hệ thống thơng tin lập báo cáo
38
2.4. Phân tích thực trạng...............................................................................................41
2.4.1......................................................................................Hiện trạng các hệ thống
41

2.4.2..........................................................................Hiện trạng công tác lập báo cáo
42
2.5. Kết luận chương.................................................................................................... 43
CHƯƠNG 3: XÂY DỰNG KHO DỮ LIỆU PHỤC VỤ CHO VIỆC LẬP BÁO CÁO
NGÀNH HẢI QUAN...............................................................................................................44
3.1.

Mơ tả bài tốn........................................................................................................44

3.2.

Xây dựng kho dữ liệu cho Hải quan......................................................................45

3.2.1.

Công cụ thực hiện..........................................................................................45

3.2.2.

Thiết kế kho dữ liệu.......................................................................................47

3.2.3.

Triển khai xây dựng kho dữ liệu....................................................................49

3.3. Cài đặt và thử nghiệm kho dữ liệu phục vụ báo cáo quản lý hàng hoá xuất nhập
khẩu tại kho bãi cảng...........................................................................................................53
3.3.1.......................................................................................Xây dựng tầng Staging
53
3.3.2.........................................................................Xây dựng tầng Data Warehouse

55
3.3.3......................................................Đẩy dữ liệu từ Data warehouse lên datamart
59
3.3.4...............................................................................Kết xuất dữ liệu lập báo cáo
59

Thuật

ST
T

Mô tả

ngữ/chữ viết
tắt
1
2

DWH

Data Warehouse

Nguyễn
- K18H
∣B tin
HTTTQuang LongHệ
thống∣Ithông

vi



3

CSDL

Cơ sở dữ liệu

4

KDL

Kho dữ liệu

5

GTT

Giá tính thuế

6

QLRR

Quản lý rủi ro

7

PTDL

Phân tích dữ liệu


8

CBHQ

Cán bộ Hải quan

9

CQTC

Cơ quan tổ chức

10

DN

Doanh nghiệp

11

QL

Quản lý

12

XNK

Xuất nhập khẩu


13

PTVT

Phương tiện vận tải

14

KTSTQ

Kiểm tra sau thông quan

15

GSQL

Giám sát quản lý


Nguyễn Quang Long - K18H∣I∣B

vii


Khố luận tơt nghiệp

Xây dựng kho dữ liệu phục vụ việc lập báo cáo
ngành Hải quan Việt Nam


Danh mục bảng biểu
Bảng 1: So sánh Database với Data Warehouse.....................................................22
Bảng 2: So sánh Data Warehouse với Data Mart....................................................23
Bảng 3: Danh sách đối tượng khảo sát...................................................................33
Bảng 4: Câu hỏi khảo sát........................................................................................36
Bảng 5: Các dạng báo cáo và hệ thống cung cấp thông tin....................................41

Nguyễn Quang Long - K18H∣I∣B

viii


Khố luận tơt nghiệp

Xây dựng kho dữ liệu phục vụ việc lập báo cáo
ngành Hải quan Việt Nam

Danh mục
• hình vẽ
Hình 1. 1: Mơ hình tổng thể DWH.........................................................................16
Hình 1. 2: Mơ hình hình sao...................................................................................19
Hình 1. 3: Mơ hình hình bơng tuyết.......................................................................20

Hình 2. 1: Tổ chức cục hải quan.............................................................................24
Hình 2. 2: HTTT thu thập và xử lý nghiệp vụ........................................................25
Hình 2. 3: HTTT eCargo........................................................................................26
Hình 2. 4: : HTTT VNACC-VCIS.........................................................................27
Hình 2. 5: HTTT kế tốn thuế................................................................................28
Hình 2. 6: HTTT giá tính thuế...............................................................................29
Hình 2. 7: HTTT MHS...........................................................................................29

Hình 2. 8: HTTT cơ chế một cửa với một quốc gia................................................30
Hình 2. 9: HTTT phục vụ sau thơng quan..............................................................31

Hình 3. 1: Biểu mẫu báo cáo quản lý hàng hố tại kho..........................................44
Hình 3. 2: Mơ hình kiến trúc hệ thống tích hợp.....................................................47
Hình 3. 3: Mơ hình dữ liệu.....................................................................................48
Hình 3. 4: Tầng lưu trữ dữ liệu Stag.......................................................................50
Hình 3. 5: Tâng dữ liệu Data Ware house...............................................................52
Hình 3. 6:Mơ hình đẩy dữ liệu lên tầng Staging.....................................................54
Hình 3. 7: : Map dữ liệu từ hệ thống nguồn lên tầng Staging.................................54
Hình 3. 8: Mơ hình trích lọc đẩy dữ liệu lên DWH................................................55
Hình 3. 9: Kéo dữ liệu từ tầng Staging lên tầng DWH...........................................56

Nguyễn Quang Long - K18H∣I∣B

ix


Khoá luận tốt nghiệp

Xây dựng kho dữ liệu phục vụ việc lập báo cáo
ngành Hải quan Việt Nam

Hình 3. 10: Sửa lại định dạng chuẩn cho các trường dữ liệu.................................56
Hình 3. 11: Trích lọc dữ liệu có điều kiện.............................................................57
Hình 3. 12: Ket nối các bảng với nhau..................................................................57
Hình 3. 13: Đẩy dữ liệu từ tầng DWH lên tầng Data Mart...................................59
Hình 3. 14: Kết quả thử nghiệm Load dữ liệu lên Data Mart................................60
Hình 3. 15: Kết quả thử nghiệm báo cáo...............................................................61


Hình 1: Database dữ liệu nguồn.............................................................................65
Hình 2: HTTT nguồn ECARGO............................................................................66
Hình 3:HTTT nguồn VNACCSS...........................................................................66
Hình 4: HTTT nguồn KTTXNK............................................................................67
Hình

5: Bảng QL kho ngoại quan......................................................................68

Hình

6: Bảng QL mã HS............................................................................ 69

Hình

7: Bảng QL hàng hố.......................................................................... 70

Hình

8:Bảng QL Container.......................................................................... 70

Hình

9: Bảng QL xuất nhập khẩu...................................................................... 71

Hình 10: Biểu mẫu báo cáo....................................................................................74

Nguyễn Quang Long - K18H∣I∣B

x



Khoá luận tốt nghiệp

Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo
ngành

Lời mở đầu
Ngày nay, nền kinh tế ngày càng phát triển, quản lý thông tin là yêu tố vô cùng quan
trọng
đối với mọi tổ chức nào. Quản lý và nắm bắt tốt thông tin sẽ giúp các tổ chức xây dựng được
nhiều chiến lược phát triển định hướng kinh doanh hiệu quả Như chúng ta đã biết, thông tin
là nguồn tài nguyên đặc biệt quan trọng đối với tổ chức và cần được khải thác triệt để. Các tổ
chức doanh nghiệp trên thế giới hiện nay có xu hướng phát triển hệ thống thơng tin để tạo ra
lợi thế cạnh tranh và đáp ứng được yêu cầu trong thị trường biến đổi liên tục. Từ đó, nhu cầu
có một hệ thống có thể lưu trữ được một khối dữ liệu khổng lồ từ nhiều nguồn khác nhau.
Đó
chính là lý do cần phải có một kho dữ liệu cho các tổ chức.
Các nước quốc tế, hệ thống Data Warehouse đã được xây dựng từ lâu và đem lại hiệu quả
lớn trong việc ra quyết định nâng cao hiệu quả kinh tế cho tổ chức.
Ở Việt Nam, Thực tế lại cho thấy để các HTTT đáp ứng được nhu cầu của tổ chức thì dữ
liệu cung cấp cho nó vơ cùng quan trọng. Hầu hết các doanh nghiệp ở Việt Nam hiện nay sử
dụng rất nhiều phần mềm để quản lý. Mỗi phần mềm giải quyết một hoặc một số nghiệp vụ
và tạo ra CSDL riêng, có những doanh nghiệp tồn tại đến gần 20 CSDL. Tuy nhiên nhu cầu
thông tin tổng hợp từ các CSDL để ra quyết định lại rất cần đối với các cấp lãnh đạo và
những
nguồn quyết định, nhưng các HTTT tạo trên lại chưa đáp ứng được
Xu hướng xây dựng kho dữ liệu cho các tổ chức cũng đã và đang diễn ra một cách rất
phổ

Nguyễn Quang Long - K18H∣I∣B


11


Khoá luận tốt nghiệp

Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành
Hải quan Việt Nam

Kết cấu của đề tài
Bố cục của đề tài được chia thành 3 chương như sau:

Chương 1: Tổng quan về kho dữ liệu
Trong chương này khố luận trình bày tổng quan về khái niệm kho dữ liệu, cách xây
dựng
kho dữ liệu và lợi ích của kho dữ liệu đem lại trong hiện tại và trong tương lai.

Chươg 2: Các nghiệp vụ và nhu cầu cần xây dựng kho dữ liệu phục vụ cho việc
lập báo ngành hải quan
Trong chương 2 khoá luận giới thiệu về cơ cấu tổ chức và các hệ thống thơng tin hiện tại
của ngành Hải quan, ngồi ra cịn có các câu hỏi khảo sát thực tế về khó khăn với mong
muốn của cán bộ Hải quan trong dự án sắp tới.

Chương 3: Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành hải quan
Trong chương cuối khố luận trình bày thực nghiệm lý thuyết của chương 1 và chương 2
đã nêu, áp dụng vào bài toán xây dựng kho dữ liệu hỗ trợ cán bộ Hải quan thực thi nghiệp
vụ.

Nguyễn Quang Long - K18H∣I∣B


12


Khoá luận tốt nghiệp

Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành
Hải quan Việt Nam

CHƯƠNG I: TỔNG QUAN VỀ KHO DỮ LIỆU
1.1.

Giới thiệu về kho dữ liệu

1.1.1.

Định nghĩa

Theo wikipedia, kho dữ liệu chính là cơ sở dữ liệu dùng cho việc quản lý, tạo báo cáo
tổng hợp và phân tích dữ liệu. Kho dữ liệu tập trung dữ liệu từ tất cả các nguồn khác nhau,
hỗ trợ truy vấn phức tạp để lọc ra được thông tin phân tích đầy đủ nhất. Theo đó, KDL là
một
tập hợp dữ liệu hướng chủ đề, toàn vẹn [1].
Kho dữ liệu cho phép người dùng quản lý đưa ra các quyết định phân tích, tương tác
với dữ liệu bằng hệ thống xử lý thơng tin phân tích trực tuyến (OLAP). KDL được dùng để
giúp người sử dụng đưa ra báo cáo (Report), Dashboard, data mining và phân tích thống kê
(BI) một cách dễ dàng và nhanh chóng. Data Warehouse có khả năng lưu trữ tới hàng nghìn
GB (TB). KDL xây dựng lên nhằm quản lý tốt và để tiện lợi cho việc truy cập theo nhiều
chiều, nhiều nguồn, nhiều kiểu dữ liệu sao cho hệ thống kết hợp được ứng dụng hiện đại của
hệ thống mới và tiếp nhận công nghệ từ những hệ thống có sẵn.


1.1.2.

Các đặc tính

Một kho dữ liệu thường có các đặc tính sau:
+ Tính hướng chủ đề: Kho dữ liệu chủ yếu phân tích các yêu cầu quản lý ở các cấp độ
trong quy trình ra quyết định. Yêu cầu phân tích thường rõ ràng, xoay quanh việc kinh doanh
của tổ chức.
+ Tính tồn vẹn: Giải quyết việc tích hợp dữ liệu từ các nguồn dữ liệu, giải quyết các
sai sót về trường dữ liệu, ý nghĩa bản ghi và các định dạng chuẩn.
+ Tính bất biến: Thống nhất dữ liệu theo thời gian, hạn chế thêm sửa xố dữ liệu. Từ quy
mơ dữ liệu sẽ tăng đáng kể so với hệ thống nghiệp vụ.
+ Giá trị lịch sử: Thu thập được các giá trị khác nhau từ một nguồn thông tin và thời
điểm
thay đổi. (VD: Thông tin email, số điện thoại thay đổi, nhưng khơng ảnh hưởng đến giá trị
báo cáo. Phân tích xảy ra trước khi có sự thay đổi).[2]
Nguyễn Quang Long - K18H∣I∣B

13


Khoá luận tốt nghiệp

Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo
ngành

1.1.3.

Các loại dữ liệu


1.1.3.1. Dữ liệu nghiệp vụ (Business data)
Dữ liệu nghiệp vụ là dữ liệu để vận hành quản lý một tổ chức doanh nghiệp lớn. Phản
ánh
được tình hình hoạt động của tổ chức và đối tượng cụ thể (Khách hàng, sản phẩm....). Dữ
liệu nghiệp vụ được hình thành để dùng trong hệ thống xử lý, hỗ trợ quyết định và kinh
doanh
thông minh.[8]

1.1.3.2. Siêu dữ liệu (Metadata)
Siêu dữ liệu là dữ liệu dạng miêu tả trong DWH, nó trả lời cho các nhà quản lý một vài
vấn đề như: khi nào, hỏi ai, như thế nào và cái gì về dữ liệu. Metadata sử dụng trong việc
duy
trì, quản lý và sử dụng DWH, đồng thời cũng là phương tiện quan trọng nhất của kho dữ
liệu.
Có 3 kiểu SDL chính:[12]
+ Siêu dữ liệu nghiệp vụ (Business Metadata)
+ Siêu dữ liệu kĩ thuật (Technical Metadata)
+ Siêu dữ liệu tác nghiệp (Operational Metadata)

1.1.4.

Lợi ích mang lại

Một KDL thường mang cho tổ chức lợi ích sau:
+ Giúp quản trị công việc tốt cho tổ chức doanh nghiệp
+ Giúp quản trị thông tin khách hàng chuyên nghiệp
+ Tạo ra những quyết định có ảnh hưởng lớn
+ Tái tạo lại mơ hình, tiến trình kinh doanh

Nguyễn Quang Long - K18H∣I∣B


14


Khoá luận tốt nghiệp

Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo
ngành

1.1.5.

Hướng phát triển tương lai

Hiện nay, kho dữ liệu đem lại nhiều lợi ích và sự tiện dụng cho người dùng. Nhờ KDL có
thể tổng hợp các thông tin và giúp người sử dụng truy vẫn nhanh, trả lời được các câu hỏi
phức tạp liên quan đến việc phải thu thập dữ liệu ở nhiều nơi. Theo sự phát triển của khoa
học và thời gian thì một KDL thường phải có đặc điểm:
+ Quản trị doanh nghiệp thống minh
+ Khai phá dữ liệu
+ Tích hợp dữ liệu khách hàng
+ Dữ liệu khơng có cấu trúc
+ Kho dữ liệu thời gian thực
+ Tìm kiếm, truy xuất dữ liệu dễ dàng
+ Kiến trúc hướng dịch vụ ...

1.2.

Thiết kế kho dữ liệu

Để thiết kế được KDL, trước hết cần tìm hiểu mơ hình kiến trúc tổng thể nói chung và

một
KDL nói riêng.

1.2.1.

Mơ hình kiến trúc tổng thể

Kiến trúc tổng thể của kho dữ liệu gồm có các thành phần chính sau: Dữ liệu nguồn
(Data
Source), xử lý dữ liệu trung gian, kho dữ liệu, tầng Data Mart và hỗ trợ ra quyết định.

Nguyễn Quang Long - K18H∣I∣B

15


Khoá luận tốt nghiệp

Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành
Hải quan Việt Nam

Hình 1. 1: Mơ hình tổng thể DWH

* Hệ thống nguồn bao gồm kế thừa từ HTTT kế thừa, dữ liệu từ HTTT tác nghiệp và
nguồn dữ liệu bên ngoài (OLTP Database,Enterprise applications, Tranditional thirdparty,
webapp...).
* Tầng staging là khu vực lưu trữ dữ liệu tạm thời khi dữ liệu được trích xuất từ hệ
thống
nguồn và tải lên các bảng phân tầng trong tầng này. Tầng Staging sẽ làm sạch và xử



dữ

liệu trước khi được đẩy lên tầng Data Warehouse
* Data Mart là tầng mà dữ liệu được chia theo từng nghiệp vụ quản lý, được chuyển đổi
phù hợp với từng nhóm người dùng. Từ DWH dữ liệu được chuyển cấu trúc dữ liệu
sang

dạng

mơ hình hình sao/bơng tuyết bao gồm các bảng Fact và Dimension. Dữ liệu được
thiết

kế

mức chi tiết cho mỗi nhu cầu thiết yếu trong Data Mart.[3]
* Dimension (DIM) là bảng chiều thông tin, mô tả dữ liệu của từng nghiệp vụ mà chúng
ta muốn lưu trữ. Sự phân cấp trong các thuộc tính của bảng Dim là điều quan trọng
Nguyễn Quang Long - K18H∣I∣B

16


Khoá luận tốt nghiệp

Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo ngành
Hải quan Việt Nam

1.2.2.


Các giai đoạn thiết kế kho dữ liệu

Để xây dựng được một KDL cho tổ chức, thông thường thực hiện các bước sau
B1: Phân tích và thiết kế KDL:
+ Xây dựng các nhu cầu nghiệp vụ cần tổng hợp, phân tích, báo cáo, dự đoán.
+ Xây dựng các bảng dimension.
+ Xây dựng các bảng fact.
+ Xây dựng Data Mart.
B2: Xây dựng ETL (Extract, Tranform, Load):
+ Extract: Thu thập dữ liệu từ các hệ thống khác (Xác định dữ liệu nguồn, xác định dữ
liệu yêu cầu cần thiết cho ĐW, thiết lập luật để trích xuất dữ liệu, trích xuất).
+ Transform: Chuẩn hóa dữ liệu từ định dạng nguồn cho phù hợp DWH (Chỉnh sửa
định
dạng, giải mã các nguồn, chuyển đổi ký tự, chuyển đổi thời gian, xoá bản ghi trùng

sai....).
+ Load dữ liệu đã chuẩn hóa vào DWH: Bước này bao gồm việc đẩy các dữ liệu đã xử
lý và dữ liệu cập nhật từ các hệ thống nghiệp vụ lên tầng ĐWH, để đảm bảo dữ liệu
luôn được cập nhật.
B3: Tổ chức dữ liệu trong DWH phục vụ cho phân tích, khai thác dữ liệu:
+ Xây dựng Data Mart
+ Xây dựng OLAP CUBE (Khối dữ liệu đa chiều)
B4: Báo cáo, phân tích, khai thác dữ liệu:
+ Báo cáo động, Dashboard: Nội dung thay đổi liên tục theo dữ liệu thay đổi theo
khoảng thời gian quy định (Sử dụng các công cụ BI).
+ Báo cáo tĩnh: Báo cáo dựa vào các câu lệnh truy vấn truyền thống.

Nguyễn Quang Long - K18H∣I∣B

17



Khoá luận tốt nghiệp

Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo
ngành

+ OLAP - Online Analytical Processsing (Tạo ra các khối dữ liệu đa chiều, trực quan,
các khung nhìn mới của dữ liệu, cung cấp khả năng truy xuất nhanh đến dữ liệu trong
DW do dữ liệu đã được tính tốn và sắp xếp trước).
+ Data Mining: Người sử dụng biện pháp phân tích dữ liệu tìm ra những quy luật và
quy tắc để đưa ra các quyết định kinh doanh. Data Mining không dùng những câu truy
vấn mà dùng những thuật toán đặc biệt để phân tích dữ liệu (Mơ hình thống kê, tốn
học...).

1.2.3.

Nguồn gốc dữ liệu

Nguồn dữ liệu gốc của DWH được thu thập từ nhiều nguồn khác nhau các nguồn có thể
là:
+ Hệ thống kế thừa.
+ Dữ liệu từ các hệ thống tác nghiệp.
+ Từ nguồn dữ liệu bên ngoài (OLTP Database,Enterprise applications, Tranditional
third-party data, webapp........).

1.2.4.

Mơ hình kho dữ liệu


1.2.4.1. Mơ hình hình sao
Trong sơ đồ hình sao, dữ liệu được xác định và phân loại theo 3 thành phần chính:
+ Các bảng sự kiện (FACT ).
+ Các bảng Dimenson sẽ mô tả các chiều dữ liệu.
+ Các đường kết nối bảng FACT và bảng DIM
Các bước thiết kế một lược đồ hình sao:
+ Xác định rõ nghiệp vụ để phần tích
+ Định nghĩa bảng sự kiện
+ Xây dựng các chiều cho bảng sự kiện (VD: chiều địa bàn, chiều hàng hoá, chiều
thời
gian, chiều vận tải..)
Nguyễn Quang Long - K18H∣I∣B

18


Khoá luận tốt nghiệp
Khoá luận tốt nghiệp

Xây dựng kho dữ liệu phục vụ cho việc lập báo cáo
Xây dựng
kho dữ liệu phục vụ cho việc lập báo cáo ngành
ngành
Hải quan Việt Nam

+ Định nghĩa bảng chiều
+ Xây dựng các cột cho mỗi bảng chiều (Tên vùng, tên kho, tên chi nhánh, tên người
thực hiện...)
+ Xác định mức tổng hợp từ thấp đến cao cho bảng sự kiện
--------♦


Bảng chiều(DIM)
Thuộc tính mơ tả
Thuộc tính phân cấp
Thuộc tính do lường

Hình 1. 2: Mơ hình hình sao

1.2.4.2. Mơ hình bơng tuyết
Mơ hình bơng tuyết được mở rộng và phát triển từ sơ đồ hình sao, mỗi cánh có nhiều
bảng
dimension. Một vài chiều được phân cấp để thể hiện dạng chuẩn của bảng chiều. Trong lược
đồ dưới đây, các bảng chiều đã được chuẩn hoá. Hiện tại, mơ hình này giúp việc truy xuất và
bảo trì dễ dàng hơn vì các bảng nhỏ hơn liên kết với nhau. Nhưng số lượng bảng tăng lên sẽ
làm việc truy xuất khó khăn hơn vì có q nhiều bảng phải liên kết với nhau.[2]
Lược đồ bơng tuyết có 4 thành phần chính
+ Bảng sự kiện: Thuộc tính và các khoá ngoại để liên kết với các bảng chiều
+ Bảng chiều: Thuộc tính tham chiếu, và các bảng đã chuẩn hoá
+ Đường liên kết các bảng chiều
+ Đường liên kết bảng chiều với bảng sự kiện
Nguyễn Quang Long - K18H∣I∣B

19


Data Warehouse
Khoá luận tốt nghiệp

Database
Xây dựng kho

dữ liệu phục vụ cho việc lập báo cáo
ngành

Database là cơ sở dữ liệu chứa thông tin được sắp xếp theo cột, hàng và bảng được
lập
chỉ mục định kỳ để giúp truy cập thông tin có liên quan dễ truy cập hơn.
Data Warehouse là một hệ thống tổ hợp dữ liệu từ nhiều nguồn khác nhau trong một
hệ thống để báo cáo và phân tích. Các báo cáo được hình thành từ các truy vấn phức tạp
trong
kho dữ liệu được sử dụng để đưa ra kế hoạch kinh doanh.
Do đó Database và Data Warehouse chỉ khác nhau về mặt khái niệm, một Database
Bảng chiều(DIM)
Thuộc tính mơ tả
Thuộc tính phân cấp
Thuộc tính do lường

Hình 1. 3: Mơ hình hình bơng tuyết

1.2.4.3. Mơ hình kết hợp
Là sự hợp nhất từ lược đồ hình sao và sơ đồ bông tuyết. Một vài OT sở dữ liệu và các
công
cụ truy vấn của người sử dụng đầu cuối nhất là các cơng cụ xử lý phân tích trực tuyến địi
hỏi
mơ hình dữ liệu phải là lược đồ hình sao vì nó là một mơ hình quan hệ nhưng lại được thiết
kế để hỗ trợ mơ hình dữ liệu đa chiều là điểm cốt lõi của OLAP.[2]

1.2.4.3. Mơ hình dữ liệu đa chiều
Bản chất đa chiều của các câu hỏi trong nghiệp vụ được phản ánh trong thực tế chẳng
hạn như những người quản lí thị trường khơng được thoả mãn với câu hỏi theo một chiều
đơn

giản, thay vào đó là những câu hỏi phức tạp. Để quan sát một mơ hình dữ liệu đa chiều,
chúng
ta liên tưởng đến khối rubic thay vì 4 chiều thay vào đó là n chiều khác nhau. Các thành
phần
chính:[2]
Nguyễn Quang Long - K18H∣I∣B

20


Người dùng

Cán bộ quản lý, phân

Nhân viên vận hành

Truy

Có kế hoạch trước, lặp đi

tích
Cách thức sử
dụng

bất

ngờ,

khơng


lặp

xác định trước

lại

Cấu trúc dữ
liệu

vấn

Thích hợp cho các giao dịch

Thích hợp cho các truy
vấn phức tạp trên lượng dữ nhỏ
liệu lớn

Cấu dữ liệu

Theo yêu cầu phân tích

Theo các yêu cầu nghiệp vụ

Dữ liệu

Lịch sử, ở mức tổng

Thời điểm hiện tại, ở mức

hợp


chi
tiết

Loại truy cập

Đọc, ghi

Đọc, ghi, sửa, xoá

Thời gian truy

Dài (phút hoặc giờ)

Ngắn

Tần suất truy

Tần suất từ thấp đến

Tần suất cao

cập

cập

trung bình



×