Tải bản đầy đủ (.pdf) (25 trang)

Nghiên cứu kho dữ liệu chuyên đề và ứng dụng trong việc trích rút thông tin quản lý án hình sự tại viện kiểm sát nhân dân tối cao (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.09 MB, 25 trang )

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
---------------------------------------

Nguyễn Thị Minh Huệ

ĐỀ TÀI : NGHIÊN CỨU KHO DỮ LIỆU CHUYÊN ĐỀ VÀ ỨNG
DỤNG TRONG VIỆC TRÍCH RÚT THƠNG TIN QUẢN LÝ ÁN
HÌNH SỰ TẠI VIỆN KIỂM SÁT NHÂN DÂN TỐI CAO
Chuyên ngành: Khoa học máy tính
MÃ Số: 60.48.01

TĨM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI – 2012


Luậnvănđượchồnthànhtại:
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG

Ngườihướngdẫnkhoahọc:

PGS.TS Đỗ Trung Tuấn

Phảnbiện 1: ……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………

Phảnbiện 2: …………………………………………………………………………..
……………………………………………………………………………
……………………………………………………………………………


LuậnvănsẽđượcbảovệtrướcHộiđồngchấmluậnvănthạcsĩtạiHọcviệnCơngnghệBưuchín
hViễnthơng
Vàolúc: .......giờ ....... ngày ....... tháng ....... .. năm ...............

Cóthểtìmhiểuluậnvăntại:

- ThưviệncủaHọcviệnCơngnghệBưuchínhViễnthơng


1

MỞ ĐẦU
u cầu có được thơng tin nhanh chóng, chính xác phục vụ cho cơng việc khơng dễ gì có được bởi
vì dữ liệu ngày một nhiều, lưu trữ phân tán ở nhiều nơi (phù hợp với tổ chức phân cấp của các đơn vị), ở
nhiều dạng khơng tương thích với nhau, thậm chí cịn ở những dạng phi cấu trúc. Nhiều hệ thống thông tin
đã được xây dựng không tương thích với nhau và khơng tương thích với những hệ thông tin mới được xây
dựng.
Đến nay, phương pháp xây dựng kho dữ liệu (Data Warehouse) đã phát triển cả về lý thuyết cũng
như thực tế. Bên cạnh đó các nhà cung cấp phần mềm cũng đưa ra các công cụ để xây dựng, duy trì phát
triển kho dữ liệu. Trong môi trường cạnh tranh ngày nay cùng với sự phát triển nhanh chóng của thế giới,
những nhà ra quyết định xác định rõ cần phải có một thế hệ các kỹ thuật và cơng cụ tính tốn mới nhằm hỗ
trợ họ trong việc trích xuất các thơng tin hữu ích được nhúng bên trong các dữ liệu thu thập và tích luỹ. Do
đó việc nghiên cứu về Kho dữ liệu chuyên đề và xem xét khả năng ứng dụng trong việc xử lý dữ liệu là cần
thiết.
Hệ thống cơ quan Viện kiểm sát hiện nay được tổ chức theo cấp hành chính do đó Viện kiểm sát
nhân dân các cấp cũng được trang bị hệ thống các ứng dụng nghiệp vụ trong toàn ngành. Việc tập hợp và
quản trị các dữ liệu trên phạm vi toàn ngành để cung cấp cho q trình “phân tích, đánh giá, kiểm tra, giám
sát, hỗ trợ ra quyết định” tình hình tội phạm trong từng giai đoạn là rất cần thiết. Đề tài này nghiên cứu về lý
thuyết, nắm chắc phương pháp luận và đưa ra phần thử nghiệm về trích rút thơng tin theo yêu cầu của bài
toán cụ thể.

Luận văn bao gồm ba phần:


Chương I, giới thiệu chung về kho dữ liệu.



Chương II, cấu trúc kho dữ liệu và mơ hình dữ liệu.



Chương III, ứng dụng trong việc trích rút thơng tin quản lý án hình sự tại Viện kiểm sát nhân
dân tối cao.


2

CHƯƠNG 1. GIỚI THIỆU CHUNG VỀ KHO DỮ LIỆU
Trong chương này, luận văn nêu một số khái niệm cơ bản về kho dữ liệu.

1.1. Về kho dữ liệu
Định nghĩa kho dữ liệu: Có nhiều đinh nghĩa kho dữ liệu, nhưng phổ biến nhất là định nghĩa kho dữ
liệu của Bill Inmon: "Kho dữ liệu là tập hợp dữ liệu hướng chủ đề, mang tính tích hợp, ít thay đổi, và mỗi
đơn vị dữ liệu đều gắn với một khoảng thời gian cụ thể. Kho dữ liệu được thiết kế để hỗ trợ quản trị hệ hỗ trợ
quyết định".

1.1.1. Mục đích của kho dữ liệu
Phải có khả năng đáp ứng mọi yêu cầu về thông tin của người sử dụng. Giúp cho tổ chức, xác định,
quản lý và điều hành các dự án, các nghiệp vụ một cách hiệu quả và chính xác.
Hỗ trợ để các nhân viên của tổ chức thực hiện tốt, hiệu quả cơng việc của mình như: có những quyết

định hợp lý, nhanh, hiệu quả, thu được lợi nhuận cao hơn…

1.1.2.. Các lợi ích của kho dữ liệu
Kho dữ liệu là một cơ sở dữ liệu được thiết kế đặc biệt cho các nhu cầu liên quan đến việc hỗ trợ ra
quyết định. Từ góc nhìn của người dùng, kho dữ liệu mang lại những lợi ích sau:


Dữ liệu lưu trữ tập trung tại một nơi.



Thông tin ln được cập nhật.



Truy xuất nhanh.



Khơng giới hạn kích thước.



Dễ hiểu



Rõ ràng và đồng nhất.




Dữ liệu chuẩn hoá.

1.1.3. Sử dụng kho dữ liệu
Kho dữ liệu được sử dụng theo ba cách chính:
1. Theo cách khai thác truyền thống, kho dữ liệu được sử dụng để khai thác các thông tin bằng các công
cụ vấn đáp và báo cáo.
2. Các kho dữ liệu được sử dụng để hỗ trợ cho phân tích trực tuyến (OLAP). Trong khi ngơn ngữ truy
vấn chuẩn SQL và các công cụ làm báo cáo truyền thống chỉ có thể miêu tả những gì có trong CSDL
thì phân tích trực tuyến có khả năng phân tích dữ liệu, xác định xem giả thuyết đúng hay sai.
3. Người ta đã đưa ra một phương pháp mới đáp ứng cả nhu cầu trong khoa học cũng như trong hoạt động
thực tiễn, đó chính là cơng nghệ khai phá dữ liệu (Data Mining). Đây chính là ứng dụng chính thứ ba của
kho dữ liệu.

1.2 Đặc điểm dữ liệu trong kho dữ liệu
Theo định nghĩa của Bill Inmon Kho dữ liệu có 4 đặc tính cơ bản gồm:


3

1.2.1. Hướng chủ thể
1.2.2. Tích hợp
1.2.3. Ít thay đổi
1.2.4. Tích thời gian cụ thể
1.2.5. Dữ liệu chi tiết và dữ liệu tổng hợp
1.3 Nguyên lý cơ bản
Kiến trúc chung của một kho dữ liệu thường gồm nhiều vùng chứa dữ liệu nhỏ. Những vùng chứa dữ
liệu này được phân loại dựa trên cấu trúc bao gồm :
Vùng xử lí: Là vùng chứa dữ liệu chuẩn bị cho việc biến đổi dữ liệu thu được từ nguồn trước khi
chuyển qua các vùng chứa dữ liệu khác trong kho dữ liệu. Trong các hình vẽ vùng này được viết tắt là

“STG”
Vùng chứa dữ liệu dạng chuẩn hoá: Là vùng chứa dữ liệu trung gian sau khi đã được biến đổi và tích
hợp từ nhiều nguồn khác nhau. Trong vùng này, dữ liệu được lưu trữ ở dạng chuẩn cao, thường là dạng
chuẩn 3. Dữ liệu trong vùng này đã sẵn sàng được nạp vào vùng kho dữ liệu đầu cuối mà không cần nhiều
biến đổi phức tạp. Trong các hình vẽ vùng này được viết tắt là “NDS”
Vùng chứa dữ liệu hoạt động: Là vùng chứa dữ liệu dạng lai giữa vùng dữ liệu chuẩn hoá và cơ sở
dữ liệu hoạt động. Mục đích của nó ngồi việc hỗ trợ cho việc nạp dữ liệu vào kho dữ liệu đầu cuối, còn
được dùng như là cơ sở dữ liệu hoạt động tập trung.
Kho dữ liệu đầu cuối, còn gọi là vùng dữ liệu đa chiều: Là vùng kho dữ liệu đầu cuối, phía người
dùng. Trong vùng này, dữ liệu được lưu trữ dưới dạng mơ hình hố đa chiều nhằm hỗ trợ các ứng dụng hay
truy vấn dạng phân tích đầu cuối.Trong các hình vẽ, vùng này được viết tắt là “DDS”, “DW” hay “DWH”.
Kho dữ liệu có rất nhiều loại kiến trúc. Từ đơn giản nhất, chỉ gồm một kho dữ liệu đầu cuối, đến rất
phức tạp, bao gồm nhiều kho dữ liệu trung gian, được sử dụng trong những hệ thống lớn. Tuy nhiên, hầu hết
các kiến trúc đều dựa trên 3 kiến trúc chung phổ biến sau:

1.3.1. Kiến trúc DDS đơn

Hình 3: Kiến trúc DSS đơn

Kiến trúc DDS đơn là một trong những dạng kiến trúc đơn giản nhất của kho dữ liệu. Kiến trúc này
có thành phần chính là một kho dữ liệu trung tâm.


4

1.3.2. Kiến trúc NDS và DDS
Đây là một kiến trúc khá phổ biến. Kiến trúc này tương tự như kiến trúc DDS đơn, nhưng có thêm
một vùng chứa dữ liệu trung gian là vùng chứa dữ liệu chuẩn hố NDS.

Hình 4: Kiến trúc NDS và DDS


1.3.3. Kiến trúc ODS và DDS
Kiến trúc này có nhiều điểm tương đồng với kiến trúc NDS và DDS. Vùng dữ liệu hoạt động này
cũng là một cơ sở dữ liệu dạng chuẩn hoá cao. Tuy nhiên, nó khơng lưu dữ liệu lịch sử. Vùng dữ liệu hoạt
động có cấu trúc nghiêng về dạng cơ sở dữ liệu phục vụ giao tác (OLTP) nhiều hơn. Nó đóng vai trị như là
một cơ sở dữ liệu tập trung mà ở đó, ứng dụng đầu cuối cho phép khai thác trên nó.

Hình 5: Kiến trúc ODS và DDS

1.3.3 Vùng xử lí
Thơng thường, trong tất cả các kiến trúc kho dữ liệu, ln có một vùng chứa dữ liệu gọi là vùng xử
lí. Dữ liệu được chuyển từ nhiều nguồn vào vùng xử lí mà khơng thơng qua (hoặc rất ít) cơng đoạn xử lí nào.
Người ta có thể nạp trực tiếp dữ liệu từ nguồn vào kho dữ liệu đầu cuối.


5

Hình 6 : Vùng xử lý

1.3.4. Cơ sở dữ liệu chuẩn hố

Hình 7: Mơ hình dữ liệu được chuẩn hóa

Đối với kiến trúc NDS và DDS, vùng chứa dữ liệu dạng chuẩn hố, cịn được gọi là cơ sở dữ liệu
chuẩn hố đóng vai trị là một cơ sở dữ liệu tập trung.

1.3.5. Kho dữ liệu đầu cuối

Hình 8: Kho dữ liệu đầu cuối


Đây là kiểu cấu trúc dựa trên mơ hình khối đa chiều. Mỗi khối đa chiều là bao gồm một bảng dữ
kiện và các bảng chiều. Dữ kiện là các độ đo, các số liệu được tính tốn từ các chiều. Cấu trúc dữ liệu này có
đặc trưng là phi chuẩn hoá. Đây là một đặc trưng quan trọng của kho dữ liệu mơ hình hố đa chiều.

1.4. Kho dữ liệu chuyên đề
Kho dữ liệu chuyên đề (DM) là CSDL có những đặc điểm giống với Kho dữ liệu nhưng với quy mô


6

nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một chuyên ngành. Datamart là kho dữ liệu hướng chủ đề. Có
thể chia ra làm 2 loại: DM độc lập và DM phụ thuộc
1. Datamart phụ thuộc
2.

Datamart độc lập.

1.5. Hệ hỗ trợ quyết định
1.5.1.Khái niệm
Hệ hỗ trợ quyết định là một hệ thống thuộc Hệ thống thông tin quản lý (MIS), có nhiệm vụ cung cấp
các thơng tin hỗ trợ cho việc đề ra quyết định ở cấp chiến lược và chiến thuật trở nên dễ dàng, thuận tiện
hơn.

1.5.2. Các thành phần của một hệ thống hỗ trợ ra quyết định

Hình 9: Các thành phần của một hệ thống hỗ trợ ra quyết định

1. Dữ liệu: được trích lọc từ TPS hay MIS để diễn tả cho những sự kiện liên quan đến những vấn đề đang
cần giải quyết.
2. Mơ hình: là một dạng dữ liệu đặc biệt dùng để mô tả khái quát các đặc trưng quan trọng nhất của các sự

kiện, vấn đề mà không cần phải diễn tả lại toàn bộ chi tiết. Giá trị của mơ hình là để giảm bớt chi phí
nghiên cứu hoặc mô tả chi tiết cho các vấn đề. Tương tự như database, modelbase lưu trữ các mơ hình
thống kê, tài chính, tốn học mà DSS sử dụng để thực hiện tự động nhiều phân tích khác nhau trên vấn
đề để tìm lời giải.
3. Các phân hệ dựa vào kiến thức: Là bộ máy suy diễn dựa trên các quy tắc và sự kiện đã biết (từ dữ liệu,
mơ hình và cơ sở kiến thức tổ chức). Máy tri thức trợ giúp thu thập lưu trữ và sử dụng tri thức để hổ trợ
tự động hố việc phân tích, suy diễn, tổng hợp các sự kiện hướng đến giải pháp cho vấn đề.
4. Giao diện người dùng: DSS được sử dụng theo phương thức tương tác người – máy ở mức độ cao vì giải
pháp cho các bài tốn bán cấu trúc cần được tinh chỉnh từng bước từ phía người sử dụng. Sự giao tiếp
người - máy càng thuận tiện bao nhiêu thì hiệu quả của DSS càng cao bấy nhiêu.
5. Người sử dụng: Người sử dụng của DSS đóng vai trò cung cấp kiến thức, hoặc ra các quyết định cho hệ
thống (tinh chỉnh giải pháp, chọn cách giải quyết) trong suốt quá trình tìm kiếm giải pháp.

1.5.3. Phân loại các hệ trợ giúp quyết định
Hệ xử lý tác vụ: mục đích chính của các Hệ xử lý tác vụ là giữ cho việc ghi nhận các giao tác được
chính xác. Hệ thống này được xây dựng chỉ có thể làm ra những quyết định đơn giản trong việc xác định dữ


7

liệu được ghi nhận là có hợp lệ hay khơng. Hệ xử lý tác vụ làm công việc hợp lệ hóa trước khi ghi nhận giao
tác để CSDL được làm sạch hơn.

Hình 10: Phân loại các Hệ thơng tin quản lý

Hệ trợ giúp quyết định: bao gồm những hệ thống được thiết kế để trợ giúp các nhà quản lý ra quyết
định. Khác với hệ xử lý tác vụ phục vụ cho những hoạt động hàng ngày, DSS phục vụ cho những mục tiêu
dài hạn hơn và có thể cần đến một vài ý kiến, phán đốn đóng góp từ các chuyên gia. Hiện nay DSS có thể
được chia thành hai hướng cơ bản. Hướng đầu tiên dựa vào mô hình theo xu hướng của các Hệ trợ giúp
quyết định cũ.

Loại Hệ trợ giúp quyết định thứ hai là loại Hệ trợ giúp quyết định dựa vào dữ liệu. DSS trong cơ chế
vận hành của MIS:
 Điều khiển theo chu kỳ đóng, dựa trên các quy tắc quản lý do tổ chức thiết lập. Quản lý dựa trên các kênh
thông tin nội bộ.
 Điều khiển theo chu kỳ mở, dựa trên các tiêu chuẩn độc lập với tổ chức. Môi trường có tham gia vào hoạt
động quản lý.

1.5.4. Năng lực của hệ hỗ trợ ra quyết định
 Phù hợp cho các cấp quản lý khác nhau từ cao đến thấp
 Phù hợp cho cá nhân lẫn nhóm.
 Hỗ trợ cho các quyết định tuần tự, liên thuộc, được đưa ra một lần, vài lần hoặc lặp lại.
 Hỗ trợ cho các giai đoạn của quá trình ra quyết định như tìm hiểu, thiết kế và chọn lựa.
 Phù hợp cho một số các phong cách và quá trình ra quyết định. Dễ dùng và thân thiện với người dùng.
 Có thể tiến hóa theo thời gian.
 Nhằm vào nâng cao tính hiệu dụng (chính xác, thời gian tính, chất lượng) của quyết định thay vì tính hiệu
quả (giá phí của việc ra quyết định).
 Người ra quyết định kiểm soát tồn bộ các bước của q trình ra quyết định, DSS chỉ trợ giúp, không thay
thế người ra quyết định.

1.6 Các yêu cầu chức năng kho dữ liệu
1. Khả năng cân bằng.
2. Khả năng quản trị


8

3. Khả năng sẵn sàng
4. Khả năng mở rộng
5. Khả năng mềm dẻo
6. Khả năng tích hợp

7. Khả năng truy cập sử dụng được
8. Khả năng tin cậy

1.7. Kết luận
Chương trên trình bày một số khái niệm liên quan đến hệ thống trợ giúp quyết định và kho dữ liệu,
chuẩn bị cho xem xét chi tiết ở chương sau.


9

CHƯƠNG 2. CẤU TRÚC KHO DỮ LIỆU VÀ MƠ HÌNH DỮ LIỆU
Chương này sẽ trình bày về cấu trúc và các cách lựa chọn để tiến hành xây dựng kho dữ liệu. Mặc dù
không phải lúc nào cũng như vậy, nhưng nên lựa chọn cấu trúc cho kho dữ liệu trước khi bắt đầu tiến hành.
Cấu trúc có thể được quyết định hoặc sửa đổi sau khi bắt đầu tiến hành.

2.1 Các lựa chọn về cấu trúc
2.1.1. Cấu trúc kho dữ liệu tổng thể
Cấu trúc dữ liệu tổng thể được trình bầy ở dưới đây là một cấu trúc hỗ trợ cho tất cả, hoặc một phần
lớn của một đơn vị có nhu cầu về một kho dữ liệu tích hợp đầy đủ với mức độ truy nhập cao và được sử dụng
xuyên suốt các ban ngành hoặc ngành nghề kinh doanh.

2.1.2. Cấu trúc kho dữ liệu chuyên đề độc lập

Hình 13: Cấu trúc kho dữ liệu chuyên đề độc lập

Cấu trúc kho dữ liệu chuyên đề độc lập có nghĩa là các kho dữ liệu chuyên đề đứng độc lập một
mình được điều khiển bởi một nhóm, phịng ban, hoặc ngành kinh doanh cụ thể và được xây dựng duy nhất
để đáp ứng các nhu cầu.

2.1.3. Cấu trúc Kho dữ liệu chuyên đề phụ thuộc

Một cấu trúc kho dữ liệu chuyên đề phụ thuộc là hệ thống các kho dữ liệu chun đề có trao đổi
thơng tin chặt chẽ. Mặc dù các kho dữ liệu chuyên đề riêng biệt được thực hiện trong các nhóm làm việc, ban
ngành hoặc ngành nghề kinh doanh cụ thể, nhưng chúng cũng có thể được tích hợp, liên kết với nhau để tạo
ra dữ liệu có phạm vi rộng lớn hơn trong tồn doanh nghiệp hoặc tồn cơng ty.

2.2 Các lựa chọn thực hiện
2.2.1. Thực hiện từ trên xuống.
Thực hiện từ trên xuống địi hỏi phải lập kế hoạch và cơng việc thiết kế hoàn thành trước khi bắt đầu
dự án.
Việc thực hiện từ trên xuống có thể tạo ra những xác định về dữ liệu thích hợp và việc thực hiện các
quy tắc kinh doanh xuyên xuốt đơn vị ngay từ khi bắt đầu. Tuy nhiên, chi phí cho việc lập kế hoạch và thiết
kế ban đầu là tương đối đáng kể. Nó là một q trình địi hỏi tiêu tốn nhiều thời gian và có thể làm trì hỗn
các hoạt động thực tế, lợi nhuận, và đầu tư có lợi tức. Phương thức quản lý từ trên xuống có thể làm việc tốt
kho có một tổ chức IS tập trung chịu trách nhiệm cho tất cả các hệ thống phần cứng.


10

2.2.2. Thực hiện từ dưới lên
Thực hiện từ dưới lên liên quan tới việc lập kế hoạch và thiết kế các kho dữ liệu chuyên đề mà
không cần chờ cho đến khi có một hạ tầng tổng thể hơn. Điều này khơng có nghĩa là sẽ khơng triển khai một
hạ tầng tổng thể hơn; mà sẽ xây dựng dần theo kiều mở rộng các kho dữ liệu chuyên đề ban đầu.
Phương thức thực hiện từ dưới lên đã trở thành sự chọn lựa của nhiều đơn vị, đặc biệt là các đơn vị
quản lý kinh doanh, bởi vì quá trình hồn vốn sẽ diễn ra nhanh hơn. Nó có thể đem lại kết quả nhanh hơn vì
các kho dữ liệu chun đề có phần thiết kế ít phức tạp hơn so với kho dữ liệu tổng thể. Thêm vào đó, việc
thực hiện ban đầu thường ít tốn kém hơn về phần cứng và các nguồn lực khác so với việc triển khai một kho
dữ liệu tổng thể.

2.2.3. Phương thức kết hợp
Như chúng ta vừa xem xét, có cả hai mặt tích cực và tiêu cực cần phải cân nhắc khi thực hiện

phương thức từ trên xuống hoặc từ dưới lên. Trong nhiều trường hợp phương thức tốt nhất là kết hợp cả hai.
Điều này có thể khá phức tạp, nhưng với một người quản lý dự án tốt thì có thể làm được. Một trong những
chìa khóa của phương thức này là quyết định mức độ kế hoạch và thiết kế cần thiết cho phương thức tổng thể
để hỗ trợ cho việc tích hợp khi kho dữ liệu chuyên đề được xây dựng với phương thức từ dưới lên. Việc phát
triển một cơ sở hạ tầng ở mức cơ bản cho kho dữ liệu tổng thể, ngay từ ban đầu nên thận trọng ở mức kinh
doanh.

2.3. Mơ hình dữ liệu cho kho dữ liệu
Trong phần này chúng ta xét tới hai kỹ thuật xây dựng mơ hình dữ liệu cơ bản: xây dựng mơ hình
ER và xây dựng mơ hình theo chiều. Trong môi trường OLTP, kỹ thuật xây dựng mơ hình ER là sự lựa chọn
đã qua thử thách. Vói sự ra đời của kho dữ liệu, xuất hiện yêu cầu cần có một loại kx thuật để hỗ trọ cho mơi
trường phân tích dữ liệu. Mặc dù các mơ hình ER có thể sử dụng để hỗ trợ môi trường kho dữ liệu, hiện nay
sự quan tâm về cách xây dựng mơ hình theo chiều nhằm đáp ứng nhiệm vụ này cũng đã gia tăng.

2.3.1. Tại sao việc xây dựng mơ hình dữ liệu là quan trọng
Theo cách truyền thống, người ta xây dựng mơ hình dữ liệu phải sử dụng sơ đồ ER, được phát triển
như một phần của quy trình xây dựng mơ hình dữ liệu, như một phương tiện thông tin liên lạc với nhà kinh
doanh - người sử dụng. Đồ thị ER là một cơng cụ có thể giúp phân tích các u cầu kinh doanh và thiết kế
cấu trúc dữ liệu sau này.
Các bước tiếp cận khác nhau của mơ hình dữ liệu: việc xây dựng mơ hình ER mơ hình chiều, mặc dù
có liên quan nhưng lại khác nhau.

2.3.2. Các kỹ thuật xây dựng mơ hình dữ liệu
Có hai loại kỹ thuật xây dựng mơ hình dữ liệu thích hợp trong mơi trường kho dữ liệu là xây dựng
mơ hình ER và xây dựng mơ hình chiều.
1. Việc xây dựng mơ hình ER tạo ra một mơ hình dữ liệu về một lĩnh vực quan tâm nhất định sử
dụng hai khái niệm cơ bản: các thực thể và các mối quan hệ giữa các thực thể đó. Các mơ hình ER chi tiết
cũng bao gồm các thuộc tính, thuộc tính này có thể hoặc là đặc tính của thực thể hoặc là đặc tính của mối
quan hệ.



11

2. Việc xây dựng mơ hình theo chiều sử dụng 3 khái niệm cơ bản: cho phép đo, thực tế và chiều. Cả
hai loại xây dựng mơ hình ER và chiều đều có thể được sử dụng để tạo một mơ hình trừu tượng của một chủ
đề. Mỗi loại đều có những hạn chế của mình về các khái niệm xây dựng mơ hình và các quy ước ký hiệu..

2.3.3. Xây dựng mơ hình ER
Các khái niệm cơ bản : Mơ hình ER được thể hiện bằng sơ đồ ER sử dụng 3 biểu tượng đồ họa cơ
bản để hình thành khái niệm dữ liệu: thực thể, mối quan hệ và thuộc tính.

Hình 17: Ví dụ về các thực thể trong sơ đồ ER

Trong xây dựng mơ hình ER, đặt tên cho các thực thể là rất quan trọng để hiểu và thông tin liên lạc
dễ dàng và rõ. Trong mơ hình ER chi tiết, nhiệm vụ quan trọng nhất là xác định từ định danh duy nhất của
thực thể. Từ này được gọi là từ khóa gốc. Bổ sung cho các khái niệm xây dựng mơ hình ER cơ bản, có 2
khái niệm khác cũng rất quan trọng: (i) Loại cha và con; và (ii) Thơng báo ràng buộc

Hình 18 : Mơ hình thực thể loại cha và con (supertype & subtype)

2.3.4 Xây dựng mơ hình theo chiều
Về phương diện nào đó, việc xây dựng mơ hình theo chiều đơn giản hơn có ý nghĩa hơn và dễ hiểu
hơn so với xây dựng mơ hình ER. Các khái niệm cơ bản : Xây dựng mơ hình theo chiều là một kỹ thuật để
tạo khái niệm và hình dung các mơ hình dữ liệu như một bộ tiêu chuẩn được mô tả bằng các lĩnh vực kinh
doanh chung. Xây dựng mơ hình theo chiều có một số khái niệm cơ bản:
 Sự kiện


12


 Chiều
 Tiêu chuẩn đánh giá (các biến số)
Sự kiện : Sự kiện là thu thập các hạng mục dữ liệu liên quan, bao gồm cả các tiêu chuẩn đánh giá và
nội dung dữ liệu.
Chiều: Chiều là sự thu thập của các thành viên hoặc các đơn vị cùng loại để xem xét.
Những thao tác cơ bản cho OLAP : Xây dựng mơ hình theo chiều chủ yếu hỗ trợ cho OLAP và đưa
ra quyết định.
Có 4 thao tác được sử dụng trong OLAP để phân tích dữ liệu. Khi chúng ta xét tới các mức chi tiết
khác nhau, chúng ta có thể thực hiện thao tác drill down và roll up. Để duyệt cùng các chiều chúng ta sử
dụng thao tác lát mỏng và kẻ ô vuông (slice và dice)
1. Drill down và Roll up : Drill down và Roll up là các thao tác dịch chuyển cách nhìn xuống hoặc lên khi
xem các mức phân cấp theo chiều.
2. Lát cắt và kẻ ô vuông : Lát cắt và kể ơ vng là những thao tác để trình duyệt dữ liệu qua khối lập
phương. Lát cắt cắt khối lập phương sao cho người sử dụng khối lập phương tới một việc cảnh khác sao
cho việc phân tích báo cáo sản xuất của một tháng nhất định theo nhà máy và theo sản phẩm,
3. Mơ hình sao và mơ hình bơng tuyết : Có hai loại mơ hình cơ bản có thể được sử dụng trong xây dựng mơ
hình theo chiều (i) Mơ hình sao; (ii) Mơ hình bơng tuyết
Mơ hình sao : Giản đồ mơ hình sao đã trở thành một thuật ngữ thông dụng được sử dụng bao hàm
nghĩa mơ hình chiều.
Mơ hình bơng tuyết : Việc xây dựng mơ hình theo chiều điển hình bắt đầu bằng việc xác định các sự
kiện và chiều, sau khi các u cầu kinh doanh đã được thu thập.
Mơ hình bơng tuyết là kết quả của việc phân ly một hoặc nhiều chiều, những cái đơi khi tự nó cũng
có phân thành các cấp..

2.4. Kế hoạch xây dựng kho dữ liệu
Việc thiết kế kho dữ liệu nên khởi đầu bằng một kiến trúc sơ bộ xác định phạm vi của dự án. Các
quá trình nghiệp vụ hoặc những đối tượng được chú ý phát triển cũng nên được xác định. Một cách tiếp cận
không khôn ngoan khi cố gắng phát triển đáp ứng " tất cả", do vậy phải mất nhiều năm mới có thể hồn
thành. Thực tế cho thấy đây là lý do chính làm cho việc tạo dựng kho dữ liệu bị thất bại.
Việc xác định các quá trình nghiệp vụ nào sẽ được đưa vào kho dữ liệu sẽ mang lại hiệu quả và

chúng chỉ ra khả năng truy cập sử dụng dữ liệu ở các mức, mục tiêu được thực hiện trong thời gian thích
hợp.

2.5. Luồng dữ liệu qua kho dữ liệu
Dữ liệu được trích chọn từ nhiều nguồn dữ liệu, được chuyển đổi-nếu cần thiết, và được chuyển tải
tới vị trí thích hợp trong kho lưu trữ dữ liệu.
Các công cụ truy cập giúp sử dụng dữ liệu của kho dữ liệu phục vụ công việc phân tích, hỗ trợ ra
quyết định và các câu hỏi truy vấn dữ liệu, tạo báo cáo…


13

2.6 Các giai đoạn thiết kế kho dữ liệu
2.6.1. Xác định mơ hình nghiệp vụ
2.6.2. Xác định mơ hình logic
2.6.3. Xác định mơ hình chiều
2.6.4. Xác định mơ hình vật lý
2.7. Kết luận
Chương này trình bày về một số mơ hình dữ liệu sử dụng trong tổ chức kho dữ liệu và một số đánh
giá đối sánh. Chương sau sẽ ứng dụng các phân tích trong chương trên để xây dựng ứng dụng kho dữ liệu và
phân tích dữ liệu.


14

CHƯƠNG 3. TRÍCH RÚT THƠNG TIN ÁN HÌNH SỰ
Chương này thể hiện ứng dụng của các vấn đề nêu tong các chương trên, tại Viện kiểm sát nhân dân
tối cao. Ứng dụng đề cập là trích rút dữ liệu về quản lí án hình sự.
Viện Kiểm sát Nhân dân Tối cao là cơ quan trực thuộc Quốc hội Việt Nam, có chức năng kiểm sát
hoạt động tư pháp và thực hành quyền công tố Nhà nước. Hệ thống Viện kiểm sát được tổ chức theo ba cấp

là cấp huyện, cấp tỉnh thành phố, cấp trung ương và các viện kiểm sát quân sự.

Hình 23: Trang web của Viện

3.1 Nhu cầu về xử lý dữ liệu tại Viện kiểm sát nhân dân tối cao
Ngoài việc thực hiện các báo cáo định kỳ theo tháng, 6 tháng, năm, Viện kiểm sát tối cao cịn
thực hiện việc quản lý án hình sự qua t ừ n g gia i đ oạ n nhằm nâng cao hiệu quả quản lý, xử lý các vụ
án hình sự, nắm chắc tình hình khởi tố, truy tố, đình chỉ, tạm đình chỉ, xét xử sơ thẩm, phúc thẩm, giám
đốc thẩm, thi hành án,... Công tác quản lý án hình sự được thực hiện một cách đầy đủ, chi tiết theo yêu
cầu quản lý, chỉ đạo điều hành, giải quyết án hình sự của Viện kiểm sát nhân dân các cấp.
Dữ liệu quản lý án hình sự của ngành Kiểm sát nhân dân phục vụ cho các hoạt động nghiệp vụ
hàng ngày của các đơn vị giải quyết về án hình sự trong ngành, cho phép lãnh đạo các đơn vị phân công,
giao việc cũng như theo dõi được tình hình, tiến độ thụ lý giải quyết các vụ án hình sự của đơn vị mình.
Thơng qua hệ thống quản lý án hình sự có thể trao đổi và tra cứu thơng tin tội phạm để trích xuất
các thơng tin án hình sự từ các ngành Cơng an (thông tin về kết quả điều tra, thông tin thi hành án,..) và
các ngành Tịa án nhân dân (thơng tin kết quả xét xử), kế thừa các thông tin này mà không phải nhập vào
hệ thống.
Kho dữ liệu tổng hợp về án hình sự của tồn ngành phục vụ việc cung cấp dữ liệu chi tiết, đầy đủ
về án hình sự như số vụ án, bị can qua các giai đoạn kiểm sát điều tra, kiểm sát xét xử sơ thẩm, phúc
thẩm, giám đốc thẩm….kết hợp với các hệ thống thơng tin khác trong tồn ngành phục vụ việc trao đổi
thơng tin với các ngành Cơng an, Tịa án và kết xuất báo cáo chi tiết, báo cáo tổng hợp toàn ngành Kiểm
sát nhân dân.
Thực tế nhu cầu về xử lý dữ liệu tại Viện kiểm sát nhân dân tối cao là rất lớn vì với cơ sở dữ
liệu lớn, nhiều chỉ tiêu báo cáo và yêu cầu giải quyết trong một thời gian ngắn để đáp ứng yêu cầu của
công việc luôn được đặt hàng đầu.


15

3.2 Hiện trạng về các cơ sở dữ liệu của Viện

Trong những năm qua ngành Kiểm sát nhân dân đã từng bước xây dựng và triển khai thực hiện
các phần mềm ứng dụng vào các lĩnh vực công tác, như: Tổng hợp báo cáo thống kê, quản lý danh sách
các chỉ tiêu, quản lý án hình sự, quản lý cơng văn đi đến, quản lý đơn khiếu tố, quản lý tài chính kế tốn, hệ
thống thư điện tử,... Phần mềm tổng hợp số liệu thống kê, quản lý danh sách các chỉ tiêu đã được triển
khai trên diện rộng toàn quốc, từ cấp trung ương đến cấp tỉnh và cấp huyện từ năm 2000, đã thay thế việc
thu thập, tổng hợp số liệu, xây dựng và gửi báo cáo thống kê theo phương pháp thủ cơng, góp phần nâng
cao độ chính xác, tính kịp thời của các báo cáo thống kê.
Thực hiện việc quản lý án hình sự trên mạng máy tính nhằm nâng cao hiệu quả quản lý, xử lý
các vụ án hình sự, nắm chắc tình hình khởi tố, truy tố, đình chỉ, tạm đình chỉ, xét xử sơ thẩm, phúc
thẩm, thi hành án,… Công tác quản lý án hình sự được thực hiện một cách đầy đủ, chi tiết nhằm đáp ứng
nhu cầu trao đổi thông tin, tổng hợp, báo cáo, phân tích, dự báo và hỗ trợ ra quyết định phục vụ công tác
chỉ đạo, điều hành của lãnh đạo Viện kiểm sát nhân dân các cấp.
Kho dữ liệu quản lý án hình sự của ngành kiểm sát nhân dân gồm Dữ liệu quản trị, Dữ liệu vụ
án, Dữ liệu đối tượng (bị can, bị cáo), Dữ liệu tạm giam, tạm giữ, dữ liệu tội danh, dữ liệu khác…được
xây dựng trên hệ cơ sở dữ liệu Oracle Database 11g Release 1.

3.3 Nhu cầu tích hợp dữ liệu của Viện và trợ giúp quyết định
Hệ thống thông tin quản lý án hình sự là một hệ thống hết sức quan trong của ngành Kiểm sát
nhân dân dân. Hệ thống không chỉ phục vụ công tác nghiệp vụ hàng ngày của các kiểm sát viên mà còn
phục vụ công tác quản lý giám sát điều hành cũng như khai thác tra cứu thông tin của lãnh đạo Viện
kiểm sát nhân dân các cấp.
Dữ liệu nguồn của hệ thống quản lý án hình sự được lấy từ kho dữ liệu của Viện kiểm sát nhân dân
tối cao bao gồm từ nhiều nguồn như: Dữ liệu quản trị, Dữ liệu vụ án, Dữ liệu đối tượng (bị can, bị cáo),
Dữ liệu tạm giam, tạm giữ, dữ liệu tội danh, dữ liệu khác…
Dữ liệu án hình sự đã hình thành một kho dữ liệu án dùng chung cho tất cả các cấp. Có chế độ
bảo mật, phân quyền chặt chẽ để đảm bảo an toàn dữ liệu.
Để đáp ứng được yêu cầu của lãnh đạo báo cáo nhanh, chính xác, liên tục, đảm bảo tính sẵn sàng
cao, đáp ứng yêu cầu nghiệp vụ quản lý và thống kê án hình sự tại 3 cấp địi hỏi việc đồng bộ hóa dữ
liệu được thực hiện một cách tự động hoặc theo schedule, số liệu dùng cho hệ thống báo cáo (OLAP)
được kết xuất từ hệ thống cơ sở dữ liệu trực tuyến (OLAP) bao gồm thông tin vụ án, bị can, các quyết

định liên quan, …
Từ đó giúp cho lãnh đạo đơn vị theo dõi, kiểm sốt được tình hình, tiến độ thụ lý, giải quyết các
vụ án hình sự. Đáp ứng được các nhu cầu về trao đổi dữ liệu với các cơ quan tố tụng như Bộ cơng an,
Tịa án nhân dân các cấp.
Đưa ra các dự báo về công tác phịng chống tội phạm, phân tích về tình hình tội phạm và đánh
giá hoạt động nghiệp vụ của các cơ quan tiến hành tố tụng,
Thực hiện việc kiểm tra, theo dõi giám sát tiến độ thực hiện các vụ án.


16

3.4 Đề xuất giải pháp theo tiếp cận kho dữ liệu
Dữ liệu nguồn của hệ thống quản lý án hình sự được lấy từ kho dữ liệu của Viện kiểm sát nhân dân
tối cao bao gồm từ nhiều nguồn như: Dữ liệu quản trị, Dữ liệu vụ án, Dữ liệu đối tượng (bị can, bị cáo),
Dữ liệu tạm giam, tạm giữ, dữ liệu tội danh, dữ liệu khác…Dữ liệu án hình sự đã hình thành một kho dữ
liệu án dùng chung cho tất cả các cấp.
Phần ứng dụng của bài toán yêu cầu đưa ra báo cáo danh sách về các vụ qua tại qua các giai
đoạn của vụ án, trong khoảng thời yêu cầu cụ thể. Cơ sở dữ liệu được sử dụng là Oracle. Sử dụng công
cụ Data Stage cho q trình ETL. Dùng cơng cụ BI xử lý dữ liệu và đưa ra các báo cáo
Mơ hình dưới đây mô tả kiến trúc data warehouse của Viện kiểm sát nhân dân tối cao.

Data Repositories
Phân tích
Database

Data Mart
Data
Warehouse

Database


BI

ETL
Data Mart

Báo cáo

Hình 26: Kiến trúc Data warehouse của hệ thống quản lý hình sự

Quá trình tạo các DM :
1. Định nghĩa các nguồn dữ liệu. Các bảng quan hệ và các file ngoài
2. Định nghĩa các đối tượng của kho dữ liệu theo mơ hình bơng tuyết, sử dụng cơng cụ Oracle
BI thiết kế các Dimension table
3. Làm sạch, chuẩn hóa dữ liệu (q trình ETL) bằng cơng cụ Data Stage
4. Tạo các Data model
5. Định nghĩa các Data model
6. Tạo report chọn các data model thích hợp để đưa ra báo cáo

3.5 Thử nghiệm và đánh giá kết quả
Luận văn đã thử nghiệm một số khía cạnh :


Thử nghiệm tại cơ sở dữ liệu tại Viện kiểm sát nhân dân tối cao.



Dữ liệu nguồn được lấy từ các bảng thực thể : SPP_REGISTER, LST_SPP, LST_LAW,
SPP_DECISION, …




Cơ sở dữ liệu được sử dụng là Oracle. Sử dụng công cụ Data Stage cho q trình ETL.
Dùng cơng cụ BI xử lý dữ liệu và đưa ra các báo cáo


17

Hình 27: Mơ hình qua hệ thực thể của DM quản lý án hình sự

Hình 28: Mơ hình bơng tuyết


18

Hình 29: Mơ tả q trình ETL

Q trình tạo một job lấy dữ liệu từ hệ thống nguồn
1. Login vào hệ thống DataStage
2. Tạo một job lấy dữ liệu từ hệ thống nguồn
a. Từ File bạn chọn New
b. Chọn Server job
c. Nhấn OK

Hình 30: Tạo một job lấy dữ liệu từ hệ thống nguồn

3. Từ Palete bạn chọn các biểu tượng sau


19


a.

Database. ODBC

b. Tranformer. Sau đó nối chúng lại với nhau.

Hình 31: Chọn các biểu tượng kết nối

4. Kết nối ODBC nguồn với hệ thống nguồn cần lấy dữ liệu, kết nối ODBC đích với hệ thống đặt
dữ liệu đích

Hình 32: Kết nối tới hệ thống nguồn


20

Hình 33: Kết nối tới hệ thống đích

5. Lấy dữ liệu từ hệ thống nguồn (Trường hợp này ta lấy dữ liệu bảng SPP_DECISION)

Hình 34 : Lấy dữ liệu từ hệ thống nguồn


21

6. Đẩy dữ liệu vào hệ thống đích

Hình 36 : Đẩy dữ liệu vào hệ thống đích


7. Q trình đẩy dữ liệu từ hệ thống nguồn về đích thơng qua một Transformer (Có thể lọc dữ liệu
thơng qua Transformer)

Hình 37: Q trình đẩy hệ thống nguồn về đích

8. Sau khi tạo xong job thì dùng phải Compile để có thể chạy được job
9. Sau khi Compile job thì thực hiện Run job
Quá trình tạo báo cáo
1. Tạo các data model theo tiêu chí báo cáo
2. Định nghĩa các data model
3. Tạo các báo cáo từ data model


22

Hình 46: Quá trình kéo báo cáo trên BI

Hình 49 : Kết quả hiển thị báo cáo các vụ án qua các giai đoạn

Cơng cụ cũng có khả năng kết xuất dữ liệu ra word, excel,… để đáp ứng khả năng khai thác đầu ra
được linh hoạt.


23

Kết luận
Đề tài đã thực hiện được việc trích rút dữ liệu các vụ án trải qua các giai đoạn từ kho dữ liệu quản lý
án hình sự của Viện kiểm sát nhân dân tối cao, tuy nhiên để đáp ứng đuợc q trình khai thác dữ liệu phục vụ
cơng tác phòng chống chống tội phạm, quản lý chỉ đạo, điều hành của lãnh đaọ Viện kiểm sát nhân dân các
cấp được nhanh chóng, chính xác, hiệu quả cần có những phân tích mang tính chuyên sâu hơn cho người

dùng. Trong khi, các báo cáo thường xuyên vẫn chưa đáp ứng được các u cầu phân tích đó. Do vậy việc
khai phá dữ liệu để tìm kiếm tri thức, dự đoán xu hướng và hỗ trợ ra quyết định đã trở thành một nhu cầu rất
cần thiết trong việc phân tích dữ liệu. Khóa luận cần được phát triển thêm để có thể trích rút nhiều thơng tin
cần thiết phục vụ cho công tác của ngành kiểm sát nhân dân.


×