Tải bản đầy đủ (.pdf) (67 trang)

Tổ chức khai thác dữ liệu giao thông vận tải

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.76 MB, 67 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ DIỄM HÀ

TỔ CHỨC KHAI THÁC DỮ LIỆU
GIAO THÔNG VẬN TẢI




Ngành: Công nghệ Thông tin
Chuyên ngành: Hệ thống Thông tin
Mã số: 60 48 05


LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN




NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS Đỗ Trung Tuấn


Hà Nội – 2012
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ DIỄM HÀ

TỔ CHỨC KHAI THÁC DỮ LIỆU


GIAO THÔNG VẬN TẢI




Ngành: Công nghệ Thông tin
Chuyên ngành: Hệ thống Thông tin
Mã số: 60 48 05


LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN




NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS Đỗ Trung Tuấn


Hà Nội – 2012

- 2-

Mục lục
Lời cảm ơn 1
Mục lục 2
Danh mục các từ viết tắt 4
Danh mục hình vẽ 5
Mở đầu 6
Chương 1.
Thực trạng giao thông Việt Nam và nhu cầu tổ chức dữ liệu giao thông vận tải 8

1.1. Thực trạng giao thông ở Việt Nam nói chung và thành phố Hải Phòng nói riêng8
1.2. Nhu cầu quản lý dữ liệu các cung đường trên địa bàn Hải Phòng 10
1.3. Kết luận chương 10
Chương 2.
Về cơ sở dữ liệu phân tán 11
2.1. So sánh cơ sở dữ liệu phân tán và cơ sở dữ liệu tập trung 11
2.2. Sự cần thiết của cơ sở dữ liệu phân tán 14
2.2.1. Sự phát triển của các cơ cấu tổ chức 14
2.2.2. Giảm chi phí truyền thông 14
2.2.3. Hiệu quả công việc 14
2.2.4. Độ tin cậy và tính sẵn sàng 15
2.3. Kiến trúc cơ bản của CSDL phân tán 15
2.4. Hệ quản trị cơ sở dữ liệu phân tán 18
2.4.1. Phân loại hệ quản trị CSDL phân tán 18
2.4.2. Mô hình kiến trúc hệ quản trị CSDL phân tán 20
2.5. Thiết kế cơ sở dữ liệu phân tán 21
2.5.1. Thiết kế quan niệm 22
2.5.2. Phân mảnh dữ liệu 23
2.5.3. Cấp phát 31
2.6. Kiểm soát dữ liệu ngữ nghĩa 35
2.6.1. Quản lý khung nhìn 35
2.6.2. An toàn dữ liệu 37
2.6.3. Kiểm soát tính toàn vẹn ngữ nghĩa 39
2.7. Kết luận chương 40

- 3-

Chương 3.
Thiết kế, xây dựng cơ sở dữ liệu các cung đường trên địa bàn Hải Phòng 41
3.1. Đảm bảo dữ liệu cho bài toán 41

3.2. Hạ tầng công nghệ thông tin sử dụng trong bài toán 42
3.2.1. Hệ quản trị Cơ sở dữ liệu SQL Server 42
3.2.2. Visual Studio và Ngôn ngữ lập trình C sharp 44
3.2.3. Kết nối Visual Studio 2008 với CSDL SQL Server 2005 50
3.3. Phân tích, thiết kế cơ sở dữ liệu cung đường 51
3.3.1. Lược đồ quan niệm của CSDL 53
3.3.2. Phân đoạn dữ liệu 57
3.3.3. Định vị dữ liệu 57
3.4. Các chức năng cơ bản của chương trình cài đặt 57
3.4.1. Tìm kiếm 57
3.4.2. Quản lý người dùng 60
3.4.3. Quản lý dữ liệu đường 62
3.5. Kết luận chương 64
Kết luận 65
Kết quả đạt được 65
Hướng nghiên cứu tiếp 65
Tài liệu tham khảo 66


- 4-

Danh mục các từ viết tắt

ANSI
American National Standards Institute
CLR
RCS
Server Common Language Runtime
Revision Control System
CNTT

Công nghệ Thông tin
CSDL
Cơ sở dữ liệu
CSDLPT
Cơ sở dữ liệu phân tán
DB
Database
DC
Data Communication
DD
Data Dictionary
DDB
Distributed DataBase
DDBMS
Distributed Data Base Management System
GTVT
Giao thông vận tải
HDM
Highway Development and Management System
IDE
Integrated Development Environment
ISO
International Organization for Standardization
LINQ
Language-Integrated Query
RCS
Revision Control System
SQL
Structured Query Language
TNGT

Tai nạn giao thông
WPF
Windows Presentation Foundation
XML
eXtensible Markup Language

- 5-

Danh mục hình vẽ

Hình 1.1. Tai nạn giao thông 8
Hình 1.2 . Giao thông Hải Phòng 9
Hình 2.1. Mô hình CSDL phân tán 11
Hình 2.2. Cơ sở dữ liệu phân tán 12
Hình 2.3. Kiến trúc cơ bản của CSDL phân tán 16
Hình 2.4. Các phân mảnh và mô hình vật lý cho một quan hệ toàn cục 17
Hình 3.1. Khuôn dạng dữ liệu đầu vào 42
Hình 3.2 . Giải pháp Data Warehouse 43
Bảng 3.1. Các từ khóa của ngôn ngữ C# 49
Hình 3.3. Màn hình hệ thống 51
Hình 3.4. Cài đặt hệ thống 51
Hình 3.5. Bảng Quan 53
Hình 3.6. Bảng Duong 54
Hình 3.7. Bảng LoaiMatDuong 54
Hình 3.8. Bảng KieuDuong 55
Hình 3.9. Bảng LoaiGiaoCat 55
Hình 3.10. Bảng ToChucGiaoThong 55
Hình 3.11. Bảng MucDoHuHong 56
Hình 3.12. Lược đồ E-R 56
Hình 3.13. Lược đồ quan hệ 57

Hình 3.14. Chức năng Tìm kiếm 58
Hình 3.15. Quản lý người dùng 60
Hình 3.16. Quản lý đường 62

- 6-


Mở đầu

Hiện nay, cùng với xu hướng phát triển chung, nhu cầu về dữ liệu ngày
càng tăng, đối với mọi ngành kinh tế quốc dân nói chung, và ngành giao thông
vận tải nói riêng. Hệ thống đường xá liên tỉnh, liên huyện, liên xã cần được quản
lý một cách khoa học. Việc sử dụng công nghệ thông tin ngày càng quen thuộc
trong ngành Giao thông vận tải. Theo phương pháp quản lý trong ngành hiện
nay, các đơn vị quản lý giao thông tại các cung đường thường xuyên có báo cáo
về các Sở giao thông như: lưu lượng tham gia giao thông, số vụ tai nạn xảy ra,
chất lượng các cung đường, công tác bảo dưỡng duy tu, giám sát cung đường,
Với cách tổ chức đó sẽ tốn thời gian và dữ liệu có thể không đồng bộ.
Do vậy, việc ứng dụng các kiến thức về cơ sở dữ liệu phân tán để tổ chức
dữ liệu về giao thông là cần thiết và có vai trò quan trọng trong công tác quản lý
giao thông vận tải của chúng ta hiện nay.
Luận văn chọn đề tài “Tổ chức, khai thác dữ liệu giao thông vận tải ” với
mục đích tìm hiểu về tổ chức dữ liệu trên địa bàn phân tán; trên cơ sở đó phân
tích, thiết kế cơ sở dữ liệu các cung đường nhằm nâng cao công tác quản lý
trong ngành giao thông. Do vấn đề tổ chức, khai thác dữ liệu của ngành giao
thông vận tải nói chung, của Hải Phòng nói riêng yêu cầu nhiều khối lượng công
việc, trong khuôn khổ luận văn này, hạn chế chỉ với dữ liệu về cung đường bộ
trên địa bàn Hải Phòng.
Trong phạm vi thực hiện của đề tài sẽ phân tích, thiết kế cơ sở dữ liệu các
cung đường trên địa bàn thành phố Hải Phòng.

Luận văn chia thành các chương:
1. Thực trạng giao thông Việt Nam và nhu cầu tổ chức dữ liệu các cung
đường trên địa bàn thành phố Hải Phòng;
2. Về Cơ sở dữ liệu phân tán;
3. Thiết kế, xây dựng hệ thống Cơ sở dữ liệu phân tán với Visual Studio
2008, hệ quản trị Cơ sở dữ liệu SQL server.
Cuối luận văn là phần kết luận và tài liệu tham khảo.

- 7-

Việc tham gia ứng dụng công nghệ thông tin vào ngành giao thông vận tải
đòi hỏi nhiều cố gắng. Nỗ lực sử dụng công nghệ để thu thập tình hình về giao
thông vận tải nói chung, về dữ liệu các cung đường trên địa bàn thành phố nói
riêng là cần thiết. Học viên làm việc tại cơ sở đào tạo thuộc ngành giao thông
vận tải, được khuyến khích thực hiện đề tài này, dù những kết quả mới chỉ là
bước đầu. Những kết quả của học viên nhằm mục đích thử nghiệm, phục vụ trực
tiếp công tác đào tạo trong trường.

- 8-

Chương 1.
Thực trạng giao thông Việt Nam và nhu cầu tổ chức
dữ liệu giao thông vận tải
1.1. Thực trạng giao thông ở Việt Nam nói chung và thành phố Hải Phòng
nói riêng
Việt nam là một đất nước có hệ thống chính trị ổn định trong khu vực và
trên thế giới, là một nước chỉ có duy nhất một Đảng Chính trị lãnh đạo, tình
trạng khủng bố hầu như không có. Thế nhưng, tình trạng thiệt mạng do tai nạn
giao thông thì lại quá nhiều, bình quân mỗi năm có 09 ngàn đến 13 ngàn người
thiệt mạng do TNGT, thiệt hại kinh tế ước tính đến cả tỷ USD/năm bằng cả trị

giá xuất khẩu lúa gạo (Việt nam có sản lượng xuất khẩu lúa gạo đứng thứ hai
trên thế giới). Theo báo cáo của bộ Giao thông vận tải, tai nạn giao thông trong
10 năm qua tăng liên tục, đặc biệt từ năm 2001 tăng đột biến. Năm 2002 tai nạn
đã làm chết 10.866 người, bị thương 29.449 người. [07].

Hình 1.1. Tai nạn giao thông
Hệ thống đường bộ của chúng ta hầu như chưa đạt tiêu chuẩn kỹ thuật :
- Độ nghiêng, độ bám dính mặt đường, độ phẵng, tầm nhìn chưa đảm bảo
cũng là nguyên nhân gây ra tai nạn giao thông.
- Hệ thống đèn tín hiệu cảnh báo chỉ dẫn được thiết kế thi công chưa đồng bộ
cũng là nguyên nhân làm ùn tắc giao thông ở các chổ đường giao nhau và
gây ra tai nạn giao thông.
Hải Phòng là thành phố lớn thứ ba của Việt Nam và lớn thứ hai ở miền

- 9-

Bắc, và là một trong năm thành phố trực thuộc Trung ương, đô thị loại một trung
tâm cấp quốc gia. Đến ngày 01/04/2009, dân số Hải Phòng là 1.837.302 người,
trong đó dân cư thành thị chiếm 46,1% và dân cư nông thôn chiếm 53,9%.
Thành phố Hải Phòng có khoảng 600 tuyến đường, nằm trong 07 quận nội
thành. Các con phố của Hải Phòng thường nhỏ hẹp, thường xảy ra tình trạng tắc
đường vào giờ cao điểm, tuy nhiên chưa tới mức trầm trọng như thủ đô Hà Nội
và thành phố Hồ Chí Minh [08].

Hình 1.2 . Giao thông Hải Phòng
Theo thống kê của Ban An toàn giao thông - Sở giao thông vận tải Hải
Phòng, hiện nay thành phố có 38 điểm hay xảy ra ùn tắc giao thông và gần 20
điểm “nóng” về tai nạn giao thông…
Hạ tầng giao thông chưa xứng tầm: Hải Phòng có 50 tuyến phố chính nội
đô, tổng chiều dài hơn 60 km cùng các tuyến Quốc lộ 5, Quốc lộ10, Quốc lộ 37

dài hơn 100 km; hệ thống tỉnh lộ dài 176 km, đường liên thôn, huyện dài gần
1000 km… Nhưng từ năm 1955 đến nay, sau 56 năm giải phóng Hải Phòng,
những tuyến đường này vẫn chưa được mở rộng. Trong khi dân số thời điểm đó
là 20 vạn người, còn số dân hiện nay lên tới xấp xỉ 02 triệu người, nên ùn tắc
giao thông thường xuyên xảy ra [08].
Với đặc thù là thành phố Cảng biển cửa ngõ của Miền Bắc, nhu cầu vận
chuyển hàng hóa thông qua cảng biển Hải Phòng bằng đường bộ chiếm tỉ trọng
lớn, đường và các nút giao thông khu vực cảng chật hẹp, thiếu các bãi đỗ xe chờ
giao nhận hàng dẫn đến hiệu quả khai thác kém. Năng lực vận tải bằng đường
bộ năm 2011 là 44 triệu tấn hàng hoá và không có xu hướng giảm xuống. Sự gia
tăng quá nhanh của phương tiện vận tải trong khi cơ sở hạ tầng giao thông
đường bộ chưa đáp ứng kịp, xuất hiện nhiều vấn đề cần được giải quyết như ùn

- 10-

tắc giao thông, mất an toàn giao thông, trật tự vệ sinh đô thị… [08].
Với tình hình chung ở nước ta hiện nay, công tác bảo trì giao thông đường
bộ được thực hiện chủ yếu dựa trên việc đánh giá chủ quan về điều kiện hiện
trạng của đường, trong khi đó mô hình HDM-4 (Mô hình quản lý và phát triển
đường bộ được xây dựng và phát triển bởi Ngân hàng Thế giới và các tổ chức
quốc tế khác, nhằm kết hợp yếu tố kỹ thuật, kinh tế và môi trường trong phân
tích đánh giá hiệu quả đầu tư của dự án và phân tích chiến lược quản lý và phát
triển bền vững mạng lưới đường bộ; được khuyến cáo sử dụng năm 1999) cần
một lượng dữ liệu định lượng rất đồ sộ về giao thông như đặc điểm hình học
đường và sự hư hỏng của mặt đường để phân tích tìm chiến lược và kế hoạch
duy tu tối ưu cả về khía cạnh kỹ thuật và kinh tế trong các trường hợp khác nhau
về nguồn vốn. Do vậy cần có các kế hoạch để thu thập, quản lý và lưu trữ số liệu
để ngoài việc phục vụ cho các phân tích chiến lược duy tu, còn giúp cho việc
hiệu chỉnh, kiểm chứng, và cập nhập mô hình HDM-4 cho phù hợp với điều kiện
của Việt Nam.

Mặt khác, một trong những yếu tố góp phần đảm bảo giao thông đô thị là
việc quản lý tình trạng các cung đường. Việc thống kê đầy đủ tình trạng về các
cung đường sẽ giúp cho những người quản lý thấy rõ được chất lượng qua số
liệu cụ thể, chính xác, khách quan và khoa học. Từ đó đưa ra những thông báo
và quyết định phù hợp.
1.2. Nhu cầu quản lý dữ liệu các cung đường trên địa bàn Hải Phòng
Hiện nay, thành phố Hải Phòng có khoảng 600 tuyến đường, thuộc địa bàn
07 quận nội thành. Tổ chức, khai thác thông tin về các cung đường nhằm quản
lý và xử lý kịp thời tình trạng giao thông. Mặt khác, góp phần xây dựng Ngân
hàng lưu trữ dữ liệu đường bộ theo mô hình HDM, phục vụ cho công tác quản lý
và bảo trì mạng lưới đường bộ kịp thời, có hệ thống và hiệu quả hơn theo chiến
lược xây dựng và phát triển hệ thống giao thông Việt Nam. Để phù hợp với yêu
cầu trên, có thể xây dựng hệ cơ sở dữ liệu theo mô hình Hệ thống phân tán. Dữ
liệu tổ chức và lưu trữ ở vị trí khác nhau, cụ thể là tại các quận và được tích hợp
lại với nhau thông qua mạng máy tính, chương trình ứng dụng làm việc trên cơ
sở truy cập dữ liệu ở những điểm khác nhau đó.
1.3. Kết luận chương
Với tình hình thực tế về giao thông hiện nay, cần thiết xây dựng một hệ
thống cơ sở dữ liệu thống nhất, đồng bộ về các cung đường. Để phù hợp với yêu
cầu trên, có thể xây dựng hệ cơ sở dữ liệu theo mô hình Hệ thống phân tán.

- 11-

Chương 2.
Về cơ sở dữ liệu phân tán

Một CSDL phân tán là một tập hợp nhiều CSDL có liên đới logic và được
phân bố trên một mạng máy tính.
- Tính chất phân tán: Toàn bộ dữ liệu của CSDL phân tán không được cư
trú ở một nơi mà cư trú trên nhiều trạm thuộc mạng máy tính, điều này giúp

chúng ta phân biệt CSDL phân tán với CSDL tập trung đơn lẻ.
- Tương quan logic: Toàn bộ dữ liệu của CSDL phân tán có một số các
thuộc tính ràng buộc chúng với nhau, điều này giúp chúng ta có thể phân biệt
một CSDL phân tán với một tập hợp CSDL cục bộ hoặc các tệp cư trú tại các vị
trí khác nhau trong một mạng máy tính [03].









Hình 2.1. Mô hình CSDL phân tán
Trong hệ thống cơ sở dữ liệu phân tán gồm nhiều trạm, mỗi trạm có thể
khai thác các giao tác truy nhập dữ liệu trên nhiều trạm khác.
2.1. So sánh cơ sở dữ liệu phân tán và cơ sở dữ liệu tập trung
Cơ sở dữ liệu tập trung cùng với cơ sở dữ liệu không qua thiết kế hình
thành trước khi có cơ sở dữ liệu phân tán. Hai hình thức này phát triển trên cơ sở
tự phát và hệ thống tập trung. Như vậy hai hình thức này không đáp ứng được
yêu cầu tổ chức và công việc trên phạm vi lớn.
Cơ sở dữ liệu phân tán được thiết kế khác cơ sở dữ liệu tập trung. Do đó
cần đối sánh các đặc trưng của cơ sở dữ liêu phân tán với cơ sở dữ liệu tập trung
để thấy được lợi ích của cơ sở dữ liệu phân tán. Đặc trưng mô tả cơ sở dữ liệu

- 12-

tập trung là điều khiển tập trung, độc lập dữ liệu, giảm bớt dư thừa, cơ cấu vật lý
phức tạp đối với khả năng truy cập, toàn vẹn, hồi phục, điều khiển tương tranh,

biệt lập và an toàn dữ liệu [01].

Hình 2.2. Cơ sở dữ liệu phân tán
Điều khiển tập trung: Điều khiển tập trung các nguồn thông tin của công
việc hay tổ chức. Có người quản trị đảm bảo an toàn dữ liệu.
Trong cơ sở dữ liệu phân tán: không đề cập đến vấn đề điều khiển tập
trung. Người quản trị cơ sở dữ liệu chung phân quyền cho người quản trị cơ sở
dữ liệu địa phương [03].
Độc lập dữ liệu: là một trong những nhân tố tác động đến cấu trúc cơ sở dữ
liệu để tổ chức dữ liệu chuyển cho chương trình ứng dụng. Tiện lợi chính của
độc lập dữ liệu là các chương trình ứng dụng không bị ảnh hưởng khi thay đổi
cấu trúc vật lý của dữ liệu. Trong cơ sở dữ liệu phân tán, độc lập dữ liệu có tầm
quan trọng cũng như trong cơ sở dữ liệu truyền thống. Khái niệm cơ sở dữ liệu
trong suốt mô tả hoạt động chương trình trên cơ sở dữ liệu phân tán được viết
như làm việc trên cơ sở dữ liệu tập trung. Hay nói cách khác tính đúng đắn của
chương trình không bị ảnh hưởng bởi việc di chuyển dữ liệu từ nơi này sang nơi
khác trong mạng máy tính. Tuy nhiên tốc độ làm việc bị ảnh hưởng do có thời
gian di chuyển dữ liệu [03].
Giảm dư thừa dữ liệu: Trong cơ sở dữ liệu tập trung, tính dư thừa hạn chế
được càng nhiều càng tốt vì:
 Dữ liệu không đồng nhất khi có vài bản sao của cùng cơ sở dữ liệu
logic; để tránh được nhược điểm này giải pháp là chỉ có một bản sao
duy nhất.
 Giảm không gian lưu trữ. Giảm dư thừa có nghĩa là cho phép nhiều
ứng dụng cùng truy cập đến một cơ sở dữ liệu mà không cần đến
nhiều bản sao ở những nơi chương trình ứng dụng cần.

- 13-

 Trong cơ sở dữ liệu truyền thống tính dư thừa dữ liệu cũng cần quan

tâm vì:
- Tính cục bộ của chương trình ứng dụng sẽ tăng nếu dữ liệu đặt ở mọi
nơi mà chương trình ứng dụng cần.
- Khả năng sẵn sàng của hệ thống cao bởi vì khi có lỗi ở một nơi nào
đó trong hệ thống thì không cản trở hoạt động của chương trình ứng
dụng.
Nói chung, nguyên nhân đối lập với tính dư thừa đưa ra trong môi trường
truyền thống vẫn còn đúng cho hệ thống phân tán và vì vậy công việc định giá
mức độ tốt của tính dư thừa đòi hỏi định giá lại công việc lựa chọn mức độ dư
thừa dữ liệu.
Cơ sở dữ liệu phân tán khắc phục được hai nhược điểm này vì dữ liệu được
chia ra thành nhiều phần nhỏ và chỉ có một bản sao logic tổng thể duy nhất để
tiện cho việc truy cập dữ liệu.
Cấu trúc vật lý và khả năng truy cập: người sử dụng truy cập đến cơ sở dữ
liệu tập trung phải thông qua cấu trúc truy cập phức tạp: định vị cơ sở dữ liệu,
thiết lập đường truyền
Trong cơ sở dữ liệu phân tán, cấu trúc truy cập phức tạp không phải là công
cụ chính để truy cập hiệu quả đến cơ sở dữ liệu. Hiệu quả có nghĩa là thời gian
tìm kiếm và chuyển dữ liệu nhỏ nhất, chi phí truyền thông thấp nhất.
Mỗi cách thức truy cập cơ sở dữ liệu phân tán viết bởi người lập trình hoặc
tạo ra bởi một bộ tối ưu. Công việc viết ra một cách thức truy cập cơ sở dữ liệu
phân tán cũng giống như viết chương trình duyệt trong cơ sở dữ liệu tập trung.
Công việc mà chương trình duyệt này làm là xác định xem có thể truy cập đến
được bao nhiêu cơ sở dữ liệu.
Tính toàn vẹn, hồi phục và điều khiển tương tranh: Mặc dù trong cơ sở dữ
liệu, tính toàn vẹn, hồi phục và điều khiển đồng thời liên quan nhiều vấn đề liên
quan lẫn nhau. Mở rộng hơn vấn đề này là việc cung cấp các giao tác. Giao tác
là đơn vị cơ bản của việc thực hiện: giao tác cụ thể là bó công việc được thực
hiện toàn bộ hoặc không được thực hiện [03].
Trong cơ sở dữ liệu phân tán, vấn đề điều khiển giao tác tự trị có ý nghĩa

quan trọng: hệ thống điều phối phải chuyển đổi các quỹ thời gian cho các giao
tác liên tiếp. Như vậy giao tác tự trị là phương tiện đạt được sự toàn vẹn trong
cơ sở dữ liệu. Có hai mối nguy hiểm của giao tác tự trị là lỗi và tương tranh.

- 14-

Thứ nhất, trong cơ sở dữ liệu phân tán với cấp độ tự trị cao ở mỗi điểm,
người có dữ liệu địa phương sẽ cảm thấy an toàn hơn vì họ có thể tự bảo vệ dữ
liệu của mình thay vì phụ thuộc vào người quản trị hệ thống tập trung.
Thứ hai, vấn đề an toàn thực chất với hệ thống phân tán không giống như
các hệ thống thông thường khác mà còn liên quan đến mạng truyền thông.
Như vậy trong cơ sở dữ liệu phân tán vấn đề an toàn cơ sở dữ liệu phức tạp
hơn.
Tính biệt lập và an toàn: trong cơ sở dữ liệu truyền thống, người quản trị hệ
thống có quyền điều khiển tập trung, người sử dụng có chắc chắn được phân
quyền mới truy cập vào được dữ liệu. Điểm quan trọng là trong cách tiếp cận cơ
sở dữ liệu tập trung, không cần thủ tục điều khiển chuyên biệt.
Trong cơ sở dữ liệu phân tán, những người quản trị địa phương cũng phải
giải quyết vấn đề tương tự như người quản trị cơ sở dữ liệu truyền thống.
2.2. Sự cần thiết của cơ sở dữ liệu phân tán
2.2.1. Sự phát triển của các cơ cấu tổ chức
Cùng với sự phát triển của xã hội, nhiều cơ quan, xí nghiệp có cơ cấu tổ
chức không tập trung, hoạt động phân tán trên phạm vi rộng. Vì vậy thiết kế và
cài đặt cơ sở dữ liệu phân tán là phù hợp, đáp ứng mọi nhu cầu truy xuất và khai
thác dữ liệu. Cùng với sự phát triển của công nghệ viễn thông, tin học, động cơ
thúc đẩy kinh tế, việc tổ chức các trung tâm máy tính lớn và tập trung trở thành
vấn đề cần nghiên cứu.
Cơ cấu tổ chức và vấn đề kinh tế là một trong những nguyên nhân quan
trọng nhất của sự phát triển cơ sở dữ liệu phân tán.
2.2.2. Giảm chi phí truyền thông

Trong thực tế, sử dụng một số ứng dụng mang tính địa phương sẽ làm giảm
chi phí truyền thông. Bởi vậy, việc tối ưu hoá tính địa phương của các ứng dụng
là một trong những mục tiêu chính của việc thiết kế và cài đặt một CSDLPT.
2.2.3. Hiệu quả công việc
Sự tồn tại một số hệ thống xử lý điạ phương đạt được thông quan việc xử lý
song song. Vấn đề này có thể thích hợp với mọi hệ đa xử lý. CSDLPT có thuận
lợi trong phân tích dữ liệu phản ánh điều kiện phụ thuộc của các ứng dụng, cực
đại hoá tính địa phương của ứng dụng. Theo cách này tác động qua lại giữa các
bộ xử lý được làm cực tiểu. Công việc được phân chia giữa các bộ xử lý khác
nhau và tránh được các tắc nghẽn thông tin trên mạng truyền thông hoặc các

- 15-

dịch vụ chung của toàn hệ thống. Sự phân tán dữ liệu phản ánh hiệu quả làm
tăng tính địa phương của các ứng dụng [04].
2.2.4. Độ tin cậy và tính sẵn sàng
Cách tiếp cận CSDLPT, cho phép truy nhập độ tin cậy và tính sẵn sàng cao
hơn. Tuy nhiên, để đạt được mục đích đó là vấn đề không đơn giản đòi hỏi kỹ
thuật phức tạp. Những lỗi xuất hiện trong một CSDLPT có thể xảy ra nhiều hơn
vì số các thành phần cấu thành lớn hơn, nhưng ảnh hưởng của lỗi chỉ ảnh hưởng
tới các ứng dụng sử dụng các trạm lỗi. Sự hỏng hóc của toàn hệ thống hiếm khi
xảy ra.
CSDLPT là sự tập hợp các dữ liệu thuộc cùng một hệ thống về mặt logic
nhưng phân bố trên các trạm của mạng máy tính. Công nghệ CSDLPT là sự kết
hợp giữa hai vấn đề phân tán và hợp nhất:
 Phân tán : phân tán dữ liệu trên các trạm của mạng;
 Hợp nhất : hợp nhất về mặt logic các dữ liệu phân tán sao cho chúng xuất
hiện với người sử dụng giống như với CSDL đơn lẻ duy nhất.
Công nghệ CSDL phân tán mới thực sự phát triển trong những năm gần
đây nhờ sự phát triển của kỹ thuật tính toán, kỹ thuật truyền thông và mạng máy

tính. Những ứng dụng được xây dựng trên CSDL phân tán đã xuất hiện nhiều
trên thị trường và từng bước chứng minh tính ưu việt của nó so với CSDL tập
trung.
Tuy nhiên, hệ cơ sở dữ liệu phân tán cũng có những hạn chế như:
 Phần mềm phức tạp và kinh phí tốn kém;
 Phải xử lý các thay đổi thông báo trong mọi địa điểm;
 Khó kiểm soát tính toàn vẹn dữ liệu với nhiều bản sao dữ liệu được phân
bố khắp mọi nơi;
Nói chung, kỹ thuật thiết kế cơ sở dữ liệu phân tán phức tạp nhưng hệ cơ sở
dữ liệu phân tán cũng cần thiết cho xu hướng phát triển kinh tế hiện nay.
2.3. Kiến trúc cơ bản của CSDL phân tán
Đây không là kiến trúc tường minh cho tất cả các CSDL phân tán, tuy vậy
kiến trúc này thể hiện tổ chức của bất kỳ một CSDL phân tán nào.



- 16-














Hình 2.3. Kiến trúc cơ bản của CSDL phân tán

Theo Phạm Thế Quế[02]:
(1) Lược đồ toàn cục
Lược đồ toàn cục định nghĩa tất cả dữ liệu được chứa trong cơ sở dữ liệu
phân tán như trong cơ sở dữ liệu tập trung. Vì vậy, lược đồ toàn cục được định
nghĩa chính xác như định nghĩa lược đồ cơ sở dữ liệu tập trung. Tuy nhiên, mô
hình dữ liệu lược đồ toàn cục cần phải tương thích với việc định nghĩa các ánh
xạ tới các mức của cơ sở dữ liệu phân tán. Vì vậy mô hình dữ liệu quan hệ sẽ
được sử dụng trong kiến trúc mô hình tham chiếu cơ sở dữ liệu phân tán, định
nghĩa một tập các quan hệ toàn cục.
(2) Lược đồ phân mảnh
Mỗi quan hệ toàn cục có thể chia thành nhiều phần không chồng lặp lên
nhau được gọi là phân mảnh. Ánh xạ giữa các quan hệ toàn cục và phân mảnh
được định nghĩa là lược đồ phân mảnh. Ánh xạ này là mối quan hệ một-nhiều.
Ví dụ, nhiều phân mảnh tương ứng với một quan hệ toàn cục, nhưng chỉ một
quan hệ toàn cục tương ứng với một phân mảnh. Các phân mảnh được chỉ ra
bằng tên của quan hệ toàn cục với một chỉ số (chỉ số phân mảnh). Ví dụ, Ri chỉ
đến phân mảnh thứ i trong quan hệ toàn cục R.
Sơ đồ tổng thể
Sơ đồ phân đoạn
Sơ đồ định vị
Sơ đồ ánh xạ địa phương 2
Sơ đồ ánh xạ địa phương
1
DBMS của vị trí 1
CSDL địa phương tại vị trí 1
Các vị trí khác…
DBMS của vị trí 2
CSDL địa phương tại vị trí 2



- 17-

Các kiểu phân mảnh dữ liệu bao gồm phân mảnh ngang và phân mảnh dọc
và một kiểu phân mảnh phức tạp hơn là sự hết hợp của 2 loại trên. Trong tất cả
các kiểu phân mảnh, một phân mảnh có thể được định nghĩa bằng một biểu thức
ngôn ngữ quan hệ cho các quan hệ toàn cục như là các toán hạng và kết quả đầu
ra là các phân mảnh.
(3) Lược đồ cấp phát
Các phân mảnh là những phần logic của các quan hệ toàn cục được chứa ở
một hay nhiều trạm trong mạng. Lược đồ cấp phát xác định các phân mảnh được
chứa ở những trạm nào. Tất cả các phân mảnh tương ứng với cùng một quan hệ
R và được lưu ở dùng một trạm j tạo thành một mô hình vật lý của quan hệ toàn
cục lên trạm j. Do đó, có một ánh xạ một-một giữa một mô hình vật lý và một
cặp là một quan hệ toàn cục được định danh và một chỉ số trạm tương ứng với
một mô hình vật lý. Ký hiệu Rji tương ứng với mô hình vật lý mảnh thứ i của
quan hệ R trên trạm j.
Có thể định nghĩa một bản sao của một phân mảnh tại một trạm cho trước
và kí hiệu bằng tên quan hệ toàn cục R và hai chỉ số. Ví dụ R32 để chỉ bản sao
của phân mảnh R2 được chứa ở trạm 3. Hai mô hình vật lý có thể giống nhau, ví
là bản sao của nhau.
Lược đồ các trạm phụ thuộc: gồm lược đồ ánh xạ cục bộ, DBMS của các
trạm cục bộ, cơ sở dữ liệu ở trạm đó.



Hình 2.4. Các phân mảnh và mô hình vật lý cho một quan hệ toàn cục

Quan hệ toàn cục

Phân mảnh
Mô hình vật lý
R
1
trạm 1
R
2
trạm 2
R
3
trạm 3

- 18-

(4) Lược đồ ánh xạ cục bộ
Do ba mức đầu các trạm độc lập, nên chúng không phụ thuộc vào mô hình
dữ liệu của DBMS cục bộ. Ở mức thấp hơn, nó cần phải ánh xạ mô hình vật lý
thành các đối tượng được thao tác bởi các DBMS cục bộ. Ánh xạ này được gọi
là lược đồ ánh xạ cục bộ và phụ thuộc vào kiểu của DBMS cục bộ. Trong hệ
thống không đồng nhất có các kiểu khác nhau của ánh xạ cục bộ tại các trạm
khác nhau. Yếu tố quan trọng nhất để thiết kế kiến trúc này là:
- Phân mảnh và cấp phát dữ liệu;
- Quản lí dư thừa dữ liệu;
- Sự độc lập của các DBMS cục bộ;
(5) DBMS ở các trạm cục bộ độc lập
Tính năng trong suốt trong ánh xạ cục bộ cho phép xây dựng một hệ thống
cơ sở dữ liệu phân tán đồng nhất hoặc không đồng nhất. Trong hệ thống đồng
nhất, các lược đồ độc lập của một trạm được định nghĩa sử dụng cùng một mô
hình như DBMS cục bộ nhưng trong hệ thống không đồng nhất thì các lược đồ
ánh xạ cục bộ dùng để phối hợp các kiểu khác nhau của DBMS…

2.4. Hệ quản trị cơ sở dữ liệu phân tán
Theo Phạm Thế Quế[02]:
Trong hệ quản trị CSDL phân tán, sự phân tán dữ liệu là trong suốt đối với
người sử dụng. Việc quản lý các dữ liệu phân tán đòi hỏi mỗi trạm cài đặt các
thành phần hệ thống sau:
 Phần quản lý cơ sở dữ liệu (DB);
 Phần truyền thông dữ liệu (DC);
 Từ điển dữ liệu(DD) được mở rộng để thể hiện thông tin về phân tán dữ
liệu trong mạng máy tính;
 Phần cơ sở dữ liệu phân tán (DDB).
Các hệ QTCSDL phân tán thường hỗ trợ về điều khiển tương tranh và khôi
phục các tiến trình phân tán. Khả năng truy cập từ xa có thể thực hiện được bằng
hai cách: Truy cập từ xa trực tiếp và gián tiếp.
2.4.1. Phân loại hệ quản trị CSDL phân tán
(1) Hệ quản trị CSDL phân tán thuần nhất:
CSDLPT có được bằng cách chia một CSDL thành một tập các CSDL cục

- 19-

bộ và được quản lý bởi cùng một hệ QTCSDL.
CSDLPT có thuần nhất hay không được phụ thuộc bởi các yêu tố phần
cứng, hệ điều hành và các hệ quản trị CSDL cục bộ. Tuy nhiên, hạn chế quan
trọng tại hệ QTCSDL cục bộ, bởi vì nó phụ thuộc vào sự quản lý hệ điều hành
mạng truyền thông.











Hình 2.5. Kiến trúc mô hình hệ QTCSDLPT thuần nhất
(2) Hệ quản trị CSDL phân tán không thuần nhất:
CSDLPT không thuần nhất được tích hợp bởi một tập các CSDL cục bộ
được quản lý bởi các hệ QTCSDL khác nhau. Hệ QTCSDLPT không thuần nhất
thêm việc chuyển đổi các mô hình dữ liệu của các hệ QTCSDL khác nhau để
thống nhất việc quản lý.





















Hệ quản trị CSDL1


Hệ quản trị
CSDL2

Hệ quản trị
CSDL3





















Hình 2.6. Kiến trúc mô hình hệ QTCSDLPT không thuần nhất

Hệ quản trị CSDL phân tán
Hệ QTCSDL
Hệ QTCSDL
Hệ QTCSDL
Database
Database
Database
Database
Database
Database

- 20-

Nếu việc phát triển CSDL phân tán theo mô hình Top-down, không phụ
thuộc vào hệ thống trước đó (hệ thống các CSDL cục bộ), thì việc phát triển một
hệ thuần nhất là tốt nhất. Tuy nhiên, trong một số trường hợp cần xây dựng
CSDL phân tán từ các CSDL đã có thì đòi hỏi phải phát triển một hệ không
thuần nhất. Phương pháp tốt nhất là tiếp cận từ dưới lên (Bottum-up). Trình
quản lý dữ liệu phân tán phải cung cấp các giao diện trao đổi giữa các hệ
QTCSDL. Vấn đề quản trị CSDL phân tán không thuần nhất rất khó khăn.
2.4.2. Mô hình kiến trúc hệ quản trị CSDL phân tán
(1) Các hệ Client/Server:
Các hệ quản trị CSDL Client/Server cung cấp kiến trúc hai lớp chức năng
Server và chức năng Client, nhằm tạo ra sự dễ dàng trong việc quản lý tính phức
tạp của các hệ quản trị CSDL hiện đại và tính phức tạp của việc phân tán dữ
liệu.
Server thực hiện hầu hết các công việc quản lý dữ liệu. Nghĩa là tất cả mọi
xử lý và tối ưu hoá truy vấn, quản lý giao dịch và quản lý lưu trữ đều được thực
hiện trên Server. Client, ngoài ứng dụng và giao diện người sử dụng, có một
module hệ quản trị CSDL Client trách nhiệm quản lý dữ liệu và khóa giao dịch

được gửi đến Client. Client và Server trao đổi với nhau bởi các câu lệnh SQL.
Loại kiến trúc Client/Server đơn giản chỉ có một Server được truy nhập bởi
nhiều Client, gọi là đa Client-một Server. Việc quản lý dữ liệu không khác so
với CSDL tập trung. CSDL được lưu chỉ trên Server và có phần mềm quản lý
nó. Tuy nhiên, sự khác biệt quan trọng so với các hệ thống tập trung là cách thực
thi giao dịch và quản lý bộ nhớ Cache.
Loại kiến trúc có nhiều Server trong hệ thống, được gọi là đa Client-đa
Server. Có hai chiến lược quản lý: hoặc Client quản lý kết nối của nó tới Server
hoặc Client chỉ biết Server chủ của nó và liên lạc với các Server khác qua Server
chủ khi có yêu cầu.
Mô hình CSDL logic Client/Server là duy nhất. Mô hình mức vật lý của nó
có thể phân tán. Vì vậy phân biệt giữa Client/Server và ngang hàng không phải ở
mức độ trong suốt được cung cấp cho người sử dụng và cho ứng dụng mà ở mô
hình kiến trúc được dùng để nhận ra mức độ trong suốt.
(1) Các hệ phân tán ngang hàng( Peer to Peer):
Mô hình Client/Server phân biệt Client (nơi yêu cầu dịch vụ) và server (nơi
phục vụ các yêu cầu). Nhưng mô hình xử lý ngang hàng, các hệ thống tham gia
có vai trò như nhau. Chúng có thể yêu cầu vừa dịch vụ từ một hệ thống khác

- 21-

hoặc vừa trở thành nơi cung cấp dịch vụ. Một cách lý tưởng, mô hình tính toán
ngang hàng cung cấp cho xử lý hợp tác giữa các ứng dụng có thể nằm trên các
phần cứng hoặc hệ điều hành khác nhau. Mục đích của môi trường xử lý ngang
hàng là để hỗ trợ các CSDL được nối mạng. Như vậy người sử dụng DBMS sẽ
có thể truy cập tới nhiều CSDL không đồng nhất.
2.5. Thiết kế cơ sở dữ liệu phân tán
Các chiến lược thiết kế:
(1) Quá trình thiết kế từ trên xuống (top-down)



Hình 2.11. Quá trình thiết kế từ trên
 Phân tích yêu cầu: nhằm định nghĩa môi trường hệ thống và thu thập
các nhu cầu về dữ liệu và nhu cầu xử lý của tất cả mọi người có sử
dụng CSDL.
 Thiết kế khung nhìn: định nghĩa các giao diện cho người sử dụng
cuối (end-user).

- 22-

 Thiết kế khái niệm: xem xét tổng thể đơn vị nhằm xác định các loại
thực thể và mối liên hệ giữa các thực thể.
 Thiết kế phân tán: chia các quan hệ thành nhiều quan hệ nhỏ hơn gọi
là phân mảnh và cấp phát chúng cho các vị trí.
 Thiết kế vật lý: ánh xạ lược đồ khái niệm cục bộ sang các thiết bị lưu
trữ vật lý có sẵn tại các vị trí tương ứng [04].
(2) Quá trình thiết kế từ dưới lên (Bottom-up)
Thiết kế từ trên xuống thích hợp với những CSDL được thiết kế từ đầu.
Tuy nhiên chúng ta cũng hay gặp trong thực tế là đã có sẵn một số CSDL, nhiệm
vụ thiết kế là phải tích hợp chúng thành một CSDL. Tiếp cận từ dưới lên sẽ
thích hợp cho tình huống này. Khởi điểm của thiết kế từ dưới lên là các lược đồ
khái niệm cục bộ. Quá trình này sẽ bao gồm việc tích hợp các lược đồ cục bộ thành
khái niệm lược đồ toàn cục [04].
Thiết kế CSDL phân tán gồm có các công việc sau:
Thiết kế quan niệm: mô tả cơ sở dữ liệu đã hợp nhất (mọi dữ liệu được sử
dụng bởi ứng dụng cơ sở dữ liệu);
Thiết kế phân đoạn: xác định cách thức phân chia những quan hệ toàn bộ
thành những đoạn dữ liệu theo chiều dọc, chiều ngang và kiểu hỗn hợp.
Thiết kế cấp phát đoạn dữ liệu: xác định cách thức đoạn dữ liệu tham khảo
đến ảnh vật lý nào và cũng xác định các bản sao của đoạn dữ liệu.

2.5.1. Thiết kế quan niệm
Thiết kế CSDL mức quan niệm: biến đổi đầu vào thành một cấu trúc CSDL quan
niệm chất lượng hơn, dựa trên một số tiêu chuẩn thiết kế.








Hình 2.12. Quá trình thiết kế quan niệm


Thiết kế CSDL
mức quan niệm


- 23-

Các mục tiêu thiết kế quan niệm:
Hai tiêu chuẩn quan trọng cần đạt được trong quá trình thiết kế cơ sở dữ liệu
mức quan niệm:
- Cấu trúc CSDL kết quả (đầu ra của giai đoạn thiết kế quan niệm) cần đạt dạng
chuẩn cao nhất;
- Cấu trúc CSDL kết quả phải tương đương với cấu trúc ban đầu;
Tiêu chuẩn về dạng chuẩn:
- Giảm tối đa sự trùng lặp thông tin, từ đó tránh được một số bất tiện khi cập
nhật CSDL;
- Các phụ thuộc dữ liệu được kiểm tra dễ dàng nhất, đơn giản và tương đối ít tốn

kém nhất;
Tiêu chuẩn tương đương: đảm bảo các thông tin trong quan hệ phổ quát sẽ được
tìm thấy đầy đủ trong CSDL của cấu trúc kết quả.
Một CSDL thỏa mãn tiêu chuẩn về dạng chuẩn và tính tương đương đảm bảo cho
việc khai thác nó được thuận lợi trên cả ba phương diện:
- Truy vấn: Tiêu chuẩn tương đương đảm bảo các thông tin được truy xuất từ
CSDL là những thông tin đã được phân tích;
- Cập nhật: Tiêu chuẩn dạng chuẩn giảm bớt các tình huống thông tin mâu thuẫn
sau khi cập nhật;
- Kiểm tra ràng buộc toàn vẹn: Cả hai tiêu chuẩn đều hướng đến mục tiêu là
kiểm tra RBTV dạng phụ thuộc dữ liệu được thuận lợi[05].
Các dạng chuẩn:
- 1NF (First Nomal Form)
- 2NF (Second Nomal Form)
- 3NF (Third Nomal Form)
- BCNF (Boyce-Codd Nomal Form)
Từ những công việc phân tích dữ liệu đó, đưa ra lược đồ quan niệm (mô hình
thực thể - liên kết) [01].
2.5.2. Phân mảnh dữ liệu
2.5.2.1. Lý do phân mảnh
Trong thiết kế CSDL phân tán, cần thiết phải thực hiện phân mảnh dữ liệu

- 24-

vì những lý do sau đây:
Trong các hệ quản trị CSDL, các quan hệ được lưu trữ dưới dạng các bảng
hai chiều. Các thao tác đối với CSDL được thực hiện trên các bảng. Tuy nhiên
trong thực tế, các ứng dụng chỉ yêu cầu thao tác trên các tập con của các quan
hệ, là khung nhìn dữ liệu của người sử dụng. Vì vậy việc xem tập con của quan
hệ là đơn vị truy xuất thông tin để phân tán dữ liệu là hợp lý.

Việc phân rã một quan hệ thành nhiều mảnh, mỗi mảnh được xử lý như
một đơn vị dữ liệu, sẽ cho phép thực hiện nhiều giao dịch đồng thời. Đồng thời
việc phân mảnh các quan hệ cũng cho phép thực hiện song song một câu vấn tin
bằng cách chia nó thành một tập các câu vấn tin con hoạt tác trên các mảnh. Vì
thế việc phân mảnh sẽ làm tăng mức độ hoạt động đồng thời và tăng lưu lượng
hoạt động của hệ thống.
Tuy nhiên không phải việc phân mảnh chỉ có ưu điểm hoàn toàn, mà nó
cũng thể hiện những hạn chế nhất định như:
1. Nếu ứng dụng có những yêu cầu “xung đột” ngăn cản phân rã thành các
mảnh được sử dụng độc quyền;
2. Những ứng dụng có các khung nhìn được định nghĩa trên nhiều mảnh
khác nhau sẽ làm giảm hiệu suất hoạt động của hệ thống, làm tăng chi
phí truy xuất dữ liệu đến các mảnh và tăng chi phí kết nối các mảnh;
3. Việc kiểm soát ngữ nghĩa, đặc biệt là vấn đề kiểm tra tính toàn vẹn sẽ
khó khăn hơn.
2.5.2.2. Phân mảnh ngang
Theo Phạm Thế Quế[02]:
(1) Yêu cầu thông tin về phân mảnh ngang
a) Thông tin về CSDL có liên quan tới lược đồ khái niệm toàn cục. Trong
mô hình quan hệ, các mối quan hệ giữa các thực thể được mô tả như là những
quan hệ. Trong mô hình quan hệ thực thể (ER), các mối liên hệ giữa các đối
tượng CSDL được mô tả rõ ràng. Nhìn chung mối quan hệ giữa các đối tượng
trong CSDL thường mô tả bằng các mối quan hệ một - một, một - nhiều và mối
quan hệ nhiều - nhiều. Với mục đích cho thiết kế, đường nối có hướng giữa các
quan hệ được sử dụng cho việc biểu diễn bởi thao tác nối bằng.
Quan hệ tại điểm cuối của đường nối được gọi là quan hệ chủ (quan hệ
đích) và các quan hệ tại điểm đầu được gọi là các quan hệ thành viên (quan hệ
nguồn). Ánh xạ Owner và Member từ tập đường nối tới tập quan hệ. Khi cho

×