Tải bản đầy đủ (.doc) (76 trang)

Xây dựng CSDL phân tán cho Công ty Cổ phần Phát triển và Ứng dụng Công nghệ AIT

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.23 MB, 76 trang )

Khóa luận tốt nghiệp Đại Học Thương mại
LỜI CẢM ƠN
Em xin gửi lời cảm ơn chân thành và sâu sắc tới cô giáo Nguyễn Thị Thu Thủy,
người đã tận tình chỉ bảo, hướng dẫn, giúp đỡ và định hướng cho em trong việc lựa chọn
đề tài, đưa ra những nhận xét quý báu và trực tiếp hướng dẫn em trong suốt quá trình
nghiên cứu và hoàn thành khóa luận tốt nghiệp.
Em cũng xin bày tỏ lòng biết ơn sâu sắc tới thầy cô, bạn bè cùng khóa đã dìu dắt,
giúp đỡ em tiến bộ trong suốt những năm học qua. Xin cảm ơn gia đình, người thân và
bạn bè đã khuyến khích và giúp đỡ tôi trong hoàn cảnh khó khăn. Em xin được gửi lời
cảm ơn sâu sắc tới Ban Giám Đốc và toàn bộ nhân viên trong Công Ty Cổ Phần Phát
Triển Và Ứng Dụng Công Nghệ AIT đã tận tình chỉ bảo, tạo điều kiện thuận lợi cho em
trong suốt quá trình thực hiện bài khóa luận này.
Mặc dù đã có nhiều cố gắng, nhưng do trình độ và thời gian có hạn nên bài khóa
luận của em còn nhiều thiết sót. Em rất mong được những ý kiến đóng góp của quý thầy
cô và các bạn để bài khóa luận của em được hoàn thiện hơn nữa.
Xin chân thành cảm ơn!
Hà Nội, ngày 30 tháng 04 năm 2013
Cù Thị Tuyền
Sinh viên: Cù Thị Tuyền i GVHD: Nguyễn Thị Thu Thủy
Khóa luận tốt nghiệp Đại Học Thương mại
MỤC LỤC
LỜI CẢM ƠN i
MỤC LỤC ii
DANH MỤC BẢNG BIỂU, SƠ ĐỒ, HÌNH VẼ iv
DANH MỤC TỪ VIẾT TẮT iv
PHẦN I: TỔNG QUAN NGHIÊN CỨU ĐỀ TÀI 1
1.1.Tầm quan trọng và ý nghĩa của việc xây dựng Cơ sở dữ liệu 1
1.2.Tổng quan về vấn đề nghiên cứu 2
1.3.Mục tiêu nghiên cứu đề tài 3
1.4. Đối tượng và phạm vi nghiên cứu 3
1.5.Phương pháp nghiên cứu và thực hiện đề tài 4


1.5.1.Phương pháp thu thập số liệu 4
1.5.2.Phương pháp phân tích và xử lý dữ liệu 4
1.5.2.1. Phương pháp định lượng 4
1.5.2.2. Phương pháp định tính 5
1.5.3.Công cụ sử dụng để thực hiện đề tài 5
1.6.Kế cấu khóa luận tốt nghiệp 6
PHẦN II: CƠ SỞ LÝ LUẬN CƠ SỞ DỮ LIỆU PHÂN TÁN VÀ THỰC TRẠNG CƠ
SỞ DỮ LIỆU CỦA CÔNG TY CỔ PHẦN PHÁT TRIỂN VÀ ỨNG DỤNG CÔNG
NGHỆ AIT 7
2.1. Cơ sở lý luận 7
2.1.1. Một số định nghĩa, khái niệm cơ bản 7
2.1.1.1. Dữ liệu, kho dữ liệu cục bộ 7
2.1.2. Cơ sở dữ liệu tập trung 8
2.1.3. Cơ sở dữ liệu phân tán 9
2.1.3.1. CSDL phân tán 9
2.1.3.2. Kiến trúc cơ bản của CSDL phân tán 10
2.1.3.5. Ưu điểm của CSDL phân tán 15
Sinh viên: Cù Thị Tuyền ii GVHD: Nguyễn Thị Thu Thủy
Khóa luận tốt nghiệp Đại Học Thương mại
2.1.3.6. Nhược điểm của CSDL phân tán 17
2.1.3.7. Hệ quản trị CSDL phân tán(Distributed DBMS) 18
2.2. Tổng quan về công ty cổ phần phát triển và ứng dụng công nghệ AIT 24
2.2.1. Giới thiệu về AIT 24
2.2.2. Thực trạng tình hình ứng dụng công nghệ thông tin tại Công ty Cổ phần Phát
triển và Ứng dụng Công nghệ AIT 24
Phần cứng 25
Phần mềm 25
Mạng truyền thông và an toàn bảo mật trên mạng 26
2.2.3. Đánh giá tình hình ứng dụng Hệ thống thông tin 27
2.3. Thực trạng CSDL của Công ty Cổ phần Phát triển và Ứng dụng Công nghệ AIT 33

2.3.1. Những thành công mang lại cho AIT khi ứng dụng CSDL tập trung 33
2.3.2. Những mặt hạn chế trong việc ứng dụng CSDL tập trung AIT 34
PHẦN III: ĐỀ XUẤT CÁC GIẢI PHÁP CHO VIỆC QUẢN LÝ CSDL CỦA CÔNG
TY CỔ PHẦN PHÁT TRIỂN VÀ ỨNG DỤNG CÔNG NGHỆ AIT 36
3.1. Đặt bài toán. 36
3.2. Xây dựng CSDL phân tán 38
3.2.1. Lựa chọn mô hình kiến trúc của hệ quản trị CSDL phân tán 38
3.2. 2. Lựa chọn phương pháp phân tán 38
3.2.3. Xây dựng mô hình CSDL phân tán cho Công ty Cổ phần Phát triển và Ứng
dụng Công nghệ AIT 39
3.2.3.1. Phân tích chức năng quản trị kho dữ liệu phục vụ quản lý dự án 40
PHẦN IV: KẾT LUẬN VÀ KIẾN NGHỊ 56
4.1. Kết luận chung 56
4.2. Kiến nghị 57
4.3. Hướng phát triển 59
TÀI LIỆU THAM KHẢO 60
Sinh viên: Cù Thị Tuyền iii GVHD: Nguyễn Thị Thu Thủy
Khóa luận tốt nghiệp Đại Học Thương mại
PHỤ LỤC: CODE CÁC CÂU LỆNH PROCEDURE TRONG SQL 61
DANH MỤC BẢNG BIỂU, SƠ ĐỒ, HÌNH VẼ
DANH MỤC TỪ VIẾT TẮT
CSDL Cơ sở dữ liệu
KT-XH Kinh tế- Xã hội
CNTT Công nghệ thông tin
DW Kho dữ liệu
DBMS Distributed Database Management System
Data Mart - DM Kho dữ liệu cục bộ
Sinh viên: Cù Thị Tuyền iv GVHD: Nguyễn Thị Thu Thủy
Khóa luận tốt nghiệp Đại Học Thương mại
PHẦN I: TỔNG QUAN NGHIÊN CỨU ĐỀ TÀI

1.1. Tầm quan trọng và ý nghĩa của việc xây dựng Cơ sở dữ liệu
Trong thời đại của xã hội thông tin và nền kinh tế trí thức, mọi hoạt động của các
tổ chức muốn đạt hiệu quả cao, giành được thắng lợi trong thế cạnh tranh gay gắt thì nhất
thiết phải có những phương pháp để có được những thông tin, tri thức cần thiết một cách
nhanh và chính xác. Ngày nay, để tồn tại và phát triển đòi hỏi các công ty không ngừng
đổi mới và nâng cao trình độ quản lý, trong đó đổi mới và hoàn thiện công tác xây dựng
hệ thống thông tin quản lý CSDL là một vấn đề vô cùng quan trọng trong bất kỳ một
công ty nào dù lớn hay nhỏ. Tuy nhiên, để xây dựng một hệ CSDL quản lý phù hợp cho
cơ cấu tổ chức, quy mô hoạt động của công ty là công việc không dễ dàng thực hiện.
Hiện nay, các công ty đã và đang có cho mình một hệ CSDL để quản lý nhưng chưa thật
sự tối ưu. Vấn đề đặt ra là làm thế nào để công ty là phải xây dựng Hệ CSDL tốt hơn, vừa
dễ dàng quản lý vừa có thể khai thác được những khối lượng dữ liệu khổng lồ, lưu trữ
nhiều nơi, ở nhiều dạng dữ liệu khác nhau đó một cách hiệu quả trong các hệ thống thông
tin lớn.
Công ty Cổ phần Phát triển và Ứng dụng Công nghệ AIT là công ty cung cấp các
sản phẩm dịch vụ phần mềm tin học, cung cấp các thiết bị tin học, điện tử, viễn thông; tư
vấn và chuyển giao các giải pháp về công nghệ, dịch vụ khoa học kĩ thuật, kinh doanh dự
án; tư vấn đầu tư phát triển. Công ty có một số chi nhánh phân bổ trên địa bàn thành phố
Hà Nội. Hiện tại công ty đang sử dụng hệ CSDL tập trung để quản lý dữ liệu của công ty,
Tổng Giám đốc là người quản lý tất cả các dữ liệu (Server tổng) và phân quyền cho nhân
viên được quyền với CSDL nào, điều hành mọi hoạt động của công ty tất cả dữ liệu điều
tập trung hết vào Server tổng này. Qua thời gian thực tập tại Công ty Cổ phần Phát triển
và Ứng dụng Công nghệ AIT, với những kết quả điều tra sơ bộ và tổng hợp phiếu điều
tra, em nhận thấy vấn đề mà công ty cần giải quyết đó là cần thiết thay đổi việc thu thập,
xử lý, lưu trữ và truyền các thông tin liên quan đến việc quản lý CSDL. Hệ CSDL tập
trung mà công ty sử dụng còn nhiều khuyết điểm không đáp ứng được yêu cầu đổi mới
phát triển của công ty và từ yêu cầu xây dựng một hệ CSDL phù hợp với hoạt động của
Sinh viên: Cù Thị Tuyền 1 GVHD: Nguyễn Thị Thu Thủy
Khóa luận tốt nghiệp Đại Học Thương mại
công ty đó là hệ CSDL phân tán, nên tôi đã chọn đề tài “Xây dựng CSDL phân tán cho

Công ty Cổ phần Phát triển và Ứng dụng Công nghệ AIT ”
1.2. Tổng quan về vấn đề nghiên cứu
Trước những cấp thiết đã nêu trên, đã có rất nhiều công trình nghiên cứu của các
giáo sư, tiến sĩ, đề tài luận văn của các sinh viên trong và ngoài nước về cơ sở dữ liệu
nhằm nâng cao hiệu quả hoạt động kinh doanh cho các doanh nghiệp.
Về vấn đề này cũng đã có nhiều đề tài nghiên cứu và đã triển khai như:
- Đồ án tốt nghiệp “ Mô hình cơ sở dữ liệu phân tán và ứng dụng” tác giả Trần Minh
Tuấn – ĐH Bách Khoa Hà Nội với mục đích của đề tài Hệ thống CSDL quốc gia về
Kinh tế - Xã hội được xây dựng với mục đích lưu trữ các thông tin/dữ liệu về tình hình
phát triển kinh tế xã hội quốc gia qua các năm. Ưu điểm của đề tài là đưa ra giải pháp
thực hiện cơ chế nhân bản dữ liệu ứng dụng vào hệ CSDL quốc gia về KT-XH giúp
tăng cường khả năng trao đối, cập nhập thông tin. Nhược điểm của đề tài là do CSDL
quốc gia về KT-XH vẫn còn đang trong quá trình thiết kế và phát triển, có nhiều vấn
đề còn chưa được quyết định, nhiều công việc chưa hoàn thành nên chương trình ứng
dụng vẫn còn đơn giản, chủ yếu mang tính minh họa chứ chưa hoàn thành một hệ
thống hoàn chỉnh. Có nhiều vấn đề trong quản trị và khai thác CSDL phân tán mà phải
sau một thời gian triển khai mới bộc lộ ra được, đòi hỏi phải có kinh nghiệm thực tế,
có quá trình theo dõi để đưa ra các phương án bảo mật, toàn vẹn dữ liệu, nâng cao
hiệu năng tốt hơn.
- Công trình nghiên cứu “Xây dựng mô hình Cơ sở dữ liệu phân tán cho Hệ thống thông
tin đất đai cấp tỉnh và giải pháp đồng bộ hóa Cơ sở dữ liệu trên Oracle” tác giả Bùi
Văn Dũng – Trung tâm Công nghệ thông tin, Sở Tài nguyên và Môi trường Đồng Nai.
Ưu điểm việc ứng dụng mô hình CSDL phân tán cho hệ thống thông tin đất đai cấp
tỉnh sẽ đem lại hiệu quả thực cho công tác quản lý nhà nước về đất đai, đặc biệt là
đồng bộ dữ liệu quản lý các cấp. Nhược điểm của mô hình CSDL phân tán này chỉ áp
dụng được các cấp có Công nghệ thông tin tiên tiến và người quản lý đòi hỏi phải có
nhiều kinh nghiệm mới có thể quản lý tốt mà hiện nay các cấp tỉnh việc ứng dụng
công nghệ thông tin rất kém việc ứng dụng nên việc triển khai mô hình rộng rãi cho
toàn cả nước là việc kém khả thi và cần nguồn ngân sách đầu tư rất lớn.
Sinh viên: Cù Thị Tuyền 2 GVHD: Nguyễn Thị Thu Thủy

Khóa luận tốt nghiệp Đại Học Thương mại
Hiện nay, ở nước ta có rất ít công ty sử dụng mô hình quản lý này vì trình độ kĩ
thuật còn hạn chế, không đủ kinh phí, ngại thay đổi,… Công ty Cổ phần Phát triển và
Ứng dụng Công nghệ AIT có chủ trương đầu tư mở rộng thêm công ty yêu cầu hệ quản trị
CSDL hiệu quả giúp việc khai thác CSDL nhanh và hiệu quả phục vụ yêu cầu công việc
của công ty. Công ty AIT là công ty chuyên thực hiện các dự án lập trình phần mềm, xây
dựng và nâng cấp website nên việc quản lý dự án là vô cùng quan trọng và cần thiết. Nên
trong bài khóa luận em xây dựng CSDL phân tán trong việc quản lý các dự án của công ty
AIT còn các phần quản lý nhân sự, quản lý tiền lương vẫn sử dụng CSDL tập trung vì vấn
đề này chưa thật sự cần thiết đối với hoạt động công ty. Sau khi xây dựng và triển khai
thành công mô hình CSDL phân tán cho việc quản lý dự án của công ty sẽ triển khai áp
dụng triển khai quản lý nhân sự và quản ly tiền lương,… của công ty giúp công ty quản lý
và sử dụng tài nguyên dữ liệu hiểu quả mang lại hiệu quả làm việc tốt nhất.
1.3. Mục tiêu nghiên cứu đề tài
Trong thời đại ngày nay thông tin kinh tế là vấn đề sống còn với các đơn vị kinh
doanh. Đơn vị nào làm chủ được thông tin sẽ có ưu thế tuyệt đối trong hoạt động kinh
doanh. Hơn nữa chỉ thu nhập thông tin tốt thì vẫn chưa đủ, mà phải biết bảo quản giữ gìn
thông tin về hoạt động kinh doanh của đơn vị một cách chặt chẽ. Do đó hệ thống mới phải
có cơ chế kiểm soát chặt chẽ, bảo đảm an toàn, bảo mật cơ sở dữ liệu.
Mục tiêu cuối cùng của đề tài là:
- Hệ thống hoá những vấn đề lý luận về CSDL phân tán và mô tả một cách có hệ
thống nhằm đánh giá khái lược và nhận diện các vấn đề tồn tại trong công tác quản lý
CSDL của Công ty Cổ phần Phát triển và Ứng dụng Công nghệ AIT.
- Dựa trên cơ cấu quản lý CSDL của Công ty Cổ phần Phát triển và Ứng dụng
Công nghệ AIT để xây dựng hệ CSDL phân tán cho Công ty nhằm nâng cao hiệu quả
công tác quản lý và khai thác dữ liệu của công ty
1.4. Đối tượng và phạm vi nghiên cứu
Về chủ thể nghiên cứu: Công ty Cổ phần Phát triển và Ứng dụng Công nghệ AIT.
Về đối tượng nghiên cứu: CSDL tại Công ty Cổ phần Phát triển và Ứng dụng Công
nghệ AIT.

Sinh viên: Cù Thị Tuyền 3 GVHD: Nguyễn Thị Thu Thủy
Khóa luận tốt nghiệp Đại Học Thương mại
Về nội dung: Nghiên cứu thực trạng quản lý CSDL tập chung tại công ty từ đó nắm
rõ quy trình làm việc giữa các phòng ban để đưa khắc phục những bất cập của quản lý
CSDL tập chung nhằm nâng cao hiệu quả kinh doanh cho công ty.
Phạm vi nghiên cứu: Nhằm giới hạn phạm vi nghiên cứu theo các mục tiêu đã đề
ra, khóa luận tập trung xem xét các CSDL tại công ty bao gồm việc khai thác và quản lý
CSDL.
1.5. Phương pháp nghiên cứu và thực hiện đề tài
1.5.1. Phương pháp thu thập số liệu
Thu thập thông tin là công đoạn đầu tiên trong quá trình phân tích hệ thống. Mục
tiêu của công đoạn này đó là có được các thông tin liên quan đến mục tiêu đã đề ra với độ
tin cậy và chính xác cao. Phương pháp thu thập thông tin trong giai đoạn này bao gồm:
nghiên cứu tài liệu, phỏng vấn, phiếu điều tra và quan sát trực tiếp.
- Nghiên cứu tài liệu: tài liệu thu thập được trong quá trình thực tập, các tài liệu liên
quan về CSDL phân tán.
- Phỏng vấn những người có tương tác với hệ thống đó là trưởng phòng kĩ thuật, các
nhân viên phòng kĩ thuật, nhân viên hành chính và Giám đốc điều hành để thu được
những thông tin xác thực nhất về vấn đề đang nghiên cứu.
- Phương pháp quan sát giúp các phân tích và thu thập được những thông tin không có
trong tài liệu và không thu thập được qua quá trình phỏng vấn, có được một bức
tranh khái quát về tổ chức và cách quản lý các hoạt động của tổ chức.
- Các dữ liệu thứ cấp bao gồm CSDL tại các phòng ban và một số nguồn tài liệu từ
Internet.
1.5.2. Phương pháp phân tích và xử lý dữ liệu
1.5.2.1. Phương pháp định lượng
Dữ liệu sau khi thu thập sẽ được đưa ra phân tích thông qua việc sử dụng phần
mềm Excel để xử lý thông tin sơ cấp thông qua bảng câu hỏi được thiết kế sẵn, đánh giá
các dữ liệu thu thập được, có thể rút ra một số đánh giá về thực trạng CSDL và hệ CSDL
của công ty.

Sinh viên: Cù Thị Tuyền 4 GVHD: Nguyễn Thị Thu Thủy
Khóa luận tốt nghiệp Đại Học Thương mại
1.5.2.2. Phương pháp định tính
Tiến hành chọn lọc, phân tích, tổng hợp các dữ liệu thu thập được thông qua các
câu hỏi phỏng vấn chuyên sâu và các dữ liệu, thông tin được thu thập từ các nguồn khác
(như Internet ) nhằm chọn được thông tin phù hợp với mục đích sử dụng và nội dung
nghiên cứu.
1.5.3. Công cụ sử dụng để thực hiện đề tài
Hiện tại công ty AIT đang sử dụng Hệ quản trị Oracle quản lý và khai thác CSDL
của công ty. Qua quá trình tìm hiểu MS SQL Server em thấy những ưu điểm của phần
mềm là:
- Nền tảng cho các nhiệm vụ then chốt: MS SQL Server cho phép các tổ chức chạy
hầu hết các ứng dụng phức tạp trên một nền tảng an toàn, tin cậy và có khả năng
mở rộng, bên cạnh đó còn giảm được sự phức tập trong việc quản lý cơ sở hạ tầng
dữ liệu.
- Sự phát triển động: MS SQL Server cùng với .NET Frame work đã giảm được sự
phức tạp trong việc phát triển các ứng dụng mới. ADO.NET Entity Frame work
cho phép các chuyên gia phát triển có thể nâng cao năng suất làm việc với các thực
thể dữ liệu logic đáp ứng được các yêu cầu của doanh nghiệp thay vì lập trình trực
tiếp với các bảng và cột.
- Dữ liệu quan hệ mở rộng: MS SQL Server cho phép các chuyên gia phát triển, khai
thác triệt để và quản lý bất kì kiểu dữ liệu nào từ các kiểu dữ liệu truyền thống đến
dữ liệu không gian địa lý mới.
- Thông tin trong toàn bộ doanh nghiệp: MS SQL Server cung cấp một cơ sở hạ tầng
có thể mở rộng, cho phép quản lý các báo cáo, phân tích với bất kỳ kích thước và
sự phức tạp nào, bên cạnh đó cho phép người dung dễ dàng hơn trong việc truy cập
thông tin thông qua sự tích hợp sâu với Microsoft Ofice.
Dựa trên những ưu điểm của Hệ quản trị MS SQL Server và cách quản lý lưu trữ
dữ liệu của hiện tại của công ty lưu trữ dưới dạng database và các kho dữ liệu, cũng như
mong muốn convert dữ liệu từ hệ thống cũ sang hệ thống mới sao cho nhanh và có hiệu

quả nhất em sử dụng Hệ quản trị MS SQL Server để xây dựng CSDL cho công ty AIT.
Sinh viên: Cù Thị Tuyền 5 GVHD: Nguyễn Thị Thu Thủy
Khóa luận tốt nghiệp Đại Học Thương mại
1.6. Kế cấu khóa luận tốt nghiệp
Đề tài nghiên cứu được chia làm 3 phần:
Phần I: Tổng quan nghiên cứu về quản lý CSDL tại Công ty Cổ phần Phát triển
và Ứng dụng Công nghệ AIT. Nêu tầm quan trọng của vấn đề cần nghiên cứu, nếu tổng
quan vấn đề, đối tượng, mục tiêu cần nghiên cứu và phương pháp sử dụng trong quá trình
thu thập, phân tích hoàn thành bài khóa luận.
Phần II: Cơ sở lý luận CSDL phân tán và thực trạng CSDL của Công ty Cổ phần
Phát triển và Ứng dụng Công nghệ AIT. Phân tích những nhược điểm của CSDL tập
trung trong công tác quản lý trong công ty AIT, cũng như trong nhiều ngành khác nữa.
Bài nghiên cứu xây dựng CSDL phân tán áp dụng cho công ty AIT khắc phục các nhược
điểm của hệ CSDL mà công ty đang sử dụng, rộng hơn nữa là từ việc áp dụng thành công
cho công ty AIT chúng ta có thể ứng dụng cho các công ty hoặc các doanh nghiệp khác
cũng như trong bộ máy nhà nước
Phần III: Đề xuất các giải pháp cho việc quản lý CSDL của Công ty Cổ phần
Phát triển và Ứng dụng Công nghệ AIT. Từ kết quả phân tích, đánh giá ở Phần II đưa ra
giải pháp nâng cao CSDL của công ty AIT, xây dựng CSDL phân tán cho Công ty Cổ
phần Phát triển và Ứng dụng Công nghệ AIT.
Phần IV: Kết Luận và kiến nghị. Đưa ra các kết luận cho cho việc xây dựng CSDL
cho Công ty Cổ phần Phát triển và Ứng dụng Công nghệ AIT nói riêng và Các kết luận
chung và kiến nghị.
Sinh viên: Cù Thị Tuyền 6 GVHD: Nguyễn Thị Thu Thủy
Khóa luận tốt nghiệp Đại Học Thương mại
PHẦN II: CƠ SỞ LÝ LUẬN CƠ SỞ DỮ LIỆU PHÂN TÁN VÀ THỰC TRẠNG CƠ
SỞ DỮ LIỆU CỦA CÔNG TY CỔ PHẦN PHÁT TRIỂN VÀ ỨNG DỤNG CÔNG
NGHỆ AIT
2.1. Cơ sở lý luận
2.1.1. Một số định nghĩa, khái niệm cơ bản

2.1.1.1. Dữ liệu, kho dữ liệu cục bộ
Kho dữ liệu là tuyển tập các CSDL tích hợp, hướng chủ đề, được thiết kế để hỗ trợ
cho chức năng trợ giúp quyết định. Kho dữ liệu thường rất lớn tới hàng trăm GB hay thậm
chí hàng Terabyte. Kho dữ liệu được xây dựng để tiện lợi cho việc truy cập theo nhiều
nguồn, nhiều kiểu dữ liệu khác nhau sao cho có thể kết hợp được cả những ứng dụng của
các công nghệ hiện đại và kế thừa được từ những hệ thống đã có sẵn từ trước.
Mục tiêu chính của kho dữ liệu là nhằm đáp ứng các tiêu chuẩn cơ bản sau:
• Phải có khả năng đáp ứng mọi yêu cầu về thông tin của người sử dụng.
• Hỗ trợ để các nhân viên của tổ chức thực hiện tốt, hiệu quả công việc của mình,
như có những quyết định hợp lý, nhanh và bán được nhiều hàng hơn, năng suất cao
hơn, thu được lợi nhuận cao hơn, v.v.
• Giúp cho tổ chức, xác định, quản lý và điều hành các dự án, các nghiệp vụ một
cách hiệu quả và chính xác.
• Tích hợp dữ liệu và các siêu dữ liệu từ nhiều nguồn khác nhau.
Những đặc điểm cơ bản của Kho dữ liệu (DW) là một tập hợp dữ liệu có tính chất sau:
Tính tích hợp (Integration), Dữ liệu gắn thời gian và có tính lịch sử, Dữ liệu có tính ổn
định (nonvolatility), Dữ liệu không biến động, Dữ liệu tổng hợp.
Kho dữ liệu cục bộ (Data Mart - DM) là CSDL có những đặc điểm giống với kho
dữ liệu nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một chuyên ngành.
Datamart là kho dữ liệu hướng chủ đề. Các DM có thể được hình thành từ một tập con dữ
liệu của kho dữ liệu hoặc cũng có thể được xây dựng độc lập và sau khi xây dựng xong,
các DM có thể được kết nối tích hợp lại với nhau tạo thành kho dữ liệu. Vì vậy có thể xây
dựng kho dữ liệu bắt đầu bằng việc xây dựng các DM hay ngược lại xây dựng kho dữ liệu
trước sau đó tạo ra các DM.
Sinh viên: Cù Thị Tuyền 7 GVHD: Nguyễn Thị Thu Thủy
Khóa luận tốt nghiệp Đại Học Thương mại
- Data mart phụ thuộc (Dependent Data Mart): Chứa những dữ liệu được lấy từ DW
và những dữ liệu này sẽ được trích lọc và tinh chế, tích hợp lại ở mức cao hơn để
phục vụ một chủ đề nhất định của Datamart.
- Data mart độc lập (Independent Data Marts): Không giống như Data mart phụ

thuộc, Data mart độc lập được xây dựng trước DW và dữ liệu được trực tiếp lấy từ
các nguồn khác nhau.
2.1.1.2. Cơ sở dữ liệu (CSDL)
Về cơ bản CSDL (Database) là tập hợp dữ liệu được lưu trữ một cách có tổ chức
để phục vụ cho công việc sử dụng thuận tiện nhất. Dữ liệu là số liệu, hình ảnh cần được
lưu trữ dưới dạng file, record tiện lợi cho người dùng đối với việc tham khảo, xử lý
Mỗi CSDL cần có chương trình quản lý, xắp xếp, duy trì dữ liệu gọi là hệ quản
trị CSDL (DBMS - Database Management System). Hệ quản trị CSDL được coi là bộ
diễn dịch ngôn ngữ bậc cao để dịch các công việc người sử dụng thao tác trên dữ liệu mà
người dùng không cần quan tâm đến thuật toán.
Về mặt kiến trúc, CSDL được phân chia thành các mức khác nhau. Một CSDL cơ
bản có ba phần chính là mức vật lý, mức khái niệm và mức thể hiện. Tuy nhiên với CSDL
cấp cao thì có thể có nhiều mức phân hoá hơn.
- Mức vật lý: là mức thấp nhất của kiến trúc hệ cơ sở dữ liệu, ở mức này dữ liệu
được tổ chức dưới nhiều cấp khác nhau như bản ghi, file
- Mức khái niệm: là sự biểu diễn trừu tượng của CSDL vật lý và có thể nói mức vật
lý là sự cài đặt cụ thể của CSDL ở mức khái niệm.
- Mức thể hiện: Khi CSDL được thiết kế, những gì thể hiện (giao diện, chương trình
quản lý, bảng ) gần gũi với người sử dụng với CSDL ở mức khái niệm gọi là
khung nhìn. Như vậy sự khác nhau giữa khung nhìn và mức khái niệm không lớn.
2.1.2. Cơ sở dữ liệu tập trung
Toàn bộ dữ liệu được lưu trữ tại một máy hoặc nhiều máy, người dùng từ xa có thể
truy cập vào CSDL thông qua các phương tiện truyền thông dữ liệu. Với một hệ CSDL
tập trung, tất cả các dữ liệu được định vị tại một trạm đơn lẻ. Những người sử dụng tại
các trạm từ xa nói chung có thể truy nhập CSDL thông qua các công cụ truyền thông dữ
liệu.
Sinh viên: Cù Thị Tuyền 8 GVHD: Nguyễn Thị Thu Thủy
Khóa luận tốt nghiệp Đại Học Thương mại
Hệ CSDL cá nhân: Các hệ CSDL cá nhân thường một người sử dụng đơn lẻ mà họ
vừa thiết kế và tạo lập cơ sở dữ liệu, vừa cập nhật CSDL và bảo trì cơ sở dữ liệu. Nói

cách khác, họ là vừa người quản trị CSDL đồng thời là người viết chương trình, đồng thời
cũng là người sử dụng cuối của hệ.
Hệ CSDL sở dữ liệu trung tâm: Trong các tổ chức lớn, dữ liệu mà hầu hết các ứng
dụng có thể truy nhập được lưu trữ trên một máy tính trung tâm. Trong nhiều hệ thống,
những người sử dụng từ xa có thể truy nhập CSDL này thông qua các thiết bị đầu cuối và
các móc nối truyền dữ liệu. Tuỳ thuộc vào qui mô tổ chức, máy tính trung tâm này thường
là một dàn hay một máy vi tính. Các hệ CSDL trung tâm thường lưu trữ các CSDL tích
hợp rất lớn và được nhiều người sử dụng truy nhập. Các ứng dụng điển hình như hệ thống
bán vé máy bay, hệ thống tàu hoả
Hệ CSDL khách/chủ : Một kiến trúc khách/chủ được thiết kế với sự phân tải công
việc trên một mạng máy tính trong đó các máy khách có thể chia sẽ các dịch vụ của một
máy chủ đơn lẻ. Một máy chủ là một ứng dụng phần mềm cung cấp các dịch vụ quản lý
tệp hay cơ sở dữ liệu, quản lý truyền thông đối với các máy khách đang yêu cầu. Một
máy khách là một ứng dụng phần mềm yêu cầu các dịch vụ từ một hay nhiều máy chủ.
Thông thường, ứng dụng máy chủ (máy chủ CSDL) được định vị trên một máy tính riêng
trong mạng cục bộ.
2.1.3. Cơ sở dữ liệu phân tán
2.1.3.1. CSDL phân tán
Một CSDL Phân tán là sự tập hợp dữ liệu phân tán về mặt luận lý chúng cùng một
hệ thống nhưng được trải rộng ở nhiều nơi (site) của một mạng máy tính.
Một CSDL phân tán là một tập hợp nhiều CSDL có liên đới logic và được phân bố
trên một mạng máy tính
- Tính chất phân tán: Toàn bộ dữ liệu của CSDL phân tán không được cư trú ở một
nơi mà cư trú ra trên nhiều trạm thuộc mạng máy tính, điều này giúp chúng ta phân
biệt CSDL phân tán với CSDL tập trung đơn lẻ.
- Tương quan logic: Toàn bộ dữ liệu của CSDL phân tán có một số các thuộc tính
ràng buộc chúng với nhau, điều này giúp chúng ta có thể phân biệt một CSDL
Sinh viên: Cù Thị Tuyền 9 GVHD: Nguyễn Thị Thu Thủy
Khóa luận tốt nghiệp Đại Học Thương mại
phân tán với một tập hợp CSDL cục bộ hoặc các tệp cư trú tại các vị trí khác nhau

trong một mạng máy tính.
Hình 2. 1: Môi trường Hệ CSDL phân tán
Trong hệ thống CSDL phân tán gồm nhiều trạm, mỗi trạm có thể khai thác các
giao tác truy nhập dữ liệu trên nhiều trạm khác. Đặc điểm chính của CSDL phân tán là
chia sẻ tài nguyên, tính mở, khả năng song song, khả năng mở rộng, khả năng thứ lỗi, tính
trong suốt, đảm bảo tin cậy và nhất quán.
2.1.3.2. Kiến trúc cơ bản của CSDL phân tán
Đây không là kiến trúc tường minh cho tất cả các CSDL phân tán, tuy vậy kiến
trúc này thể hiện tổ chức của bất kỳ một CSDL phân tán nào.
- Sơ đồ tổng thể: Định nghĩa tất cả các dữ liệu sẽ được lưu trữ trong CSDL phân tán.
Trong mô hình quan hệ, sơ đồ tổng thể bao gồm định nghĩa của các tập quan hệ
tổng thể.
- Sơ đồ phân đoạn: Mỗi quan hệ tổng thể có thể chia thành một vài phần không gối
lên nhau được gọi là đoạn (fragments). Có nhiều cách khác nhau để thực hiện việc
phân chia này. Ánh xạ (một - nhiều) giữa sơ đồ tổng thể và các đoạn được định
nghĩa trong sơ đồ phân đoạn.
- Sơ đồ định vị: Các đoạn là các phần logic của quan hệ tổng thể được định vị vật lý
trên một hoặc nhiều vị trí trên mạng. Sơ đồ định vị định nghĩa đoạn nào định vị tại
Sinh viên: Cù Thị Tuyền 10 GVHD: Nguyễn Thị Thu
Thủy
Trạm 1
Trạm 2
Trạm 3Trạm 4
Trạm 5
Mạng truyền dữ liệu
Khóa luận tốt nghiệp Đại Học Thương mại
các vị trí nào. Lưu ý rằng kiểu ánh xạ được định nghĩa trong sơ đồ định vị quyết
định CSDL phân tán là dư thừa hay không.
- Sơ đồ ánh xạ địa phương: Ánh xạ các ảnh vật lý và các đối tượng được lưu trữ tại
một trạm (tất cả các đoạn của một quan hệ tổng thể trên cùng một vị trí tạo ra một

ảnh vật lý).
Hình 2. 2: Kiến trúc cơ bản của CSDL phân tán
2.1.3.3. Các đặc điểm chính của cơ sở dữ liệu phân tán
(1) Chia sẻ tài nguyên
Việc chia sẻ tài nguyên của hệ phân tán được thực hiện thông qua mạng truyền
thông. Để chia sẻ tài nguyên một cách có hiệu quả thì mỗi tài nguyên cần được quản lý
bởi một chương trình có giao diện truyền thông, các tài nguyên có thể được truy cập, cập
nhật một cách tin cậy và nhất quán. Quản lý tài nguyên ở đây là lập kế hoạch dự phòng,
đặt tên cho các lớp tài nguyên, cho phép tài nguyên được truy cập từ nơi này đến nơi
khác, ánh xạ lên tài nguyên vào địa chỉ truyền thông,
(2) Tính mở
Tính mở của hệ thống máy tính là dễ dàng mở rộng phần cứng (thêm các thiết bị
ngoại vi, bộ nhớ, các giao diện truyền thông ) và các phần mềm (các mô hình hệ điều
hành, các giao thức truyền tin, các dịch vụ chung tài nguyên, ). Một hệ phân tán có tính
mở là hệ có thể được tạo từ nhiều loại phần cứng và phần mềm của nhiều nhà cung cấp
khác nhau với điều kiện là các thành phần này phải theo một tiêu chuẩn chung.
Sinh viên: Cù Thị Tuyền 11 GVHD: Nguyễn Thị Thu
Thủy
Khóa luận tốt nghiệp Đại Học Thương mại
Tính mở của hệ phân tán được xem xét thao mức độ bổ sung vào các dịch vụ dùng
chung tài nguyên mà không phá hỏng hay nhân đôi các dịch vụ đang tồn tại. Tính mở
được hoàn thiện bằng cách xác định hay phân định rõ các giao diện chính của một hệ và
làm cho nó tương thích với các nhà phát triển phần mềm. Tính mở của hệ phân tán dựa
trên việc cung cấp cơ chế truyền thông giữa các tiến trình và công khai các giao diện dùng
để truy cập các tài nguyên chung.
(3) Khả năng song song
Hệ phân tán hoạt động trên một mạng truyền thông có nhiều máy tính, mỗi máy có
thể có một hay nhiều CPU. Trong cùng một thời điểm nếu có N tiến trình cùng tồn tại, ta
nói chúng thực hiện đồng thời. Việc thực hiện tiến trình theo cơ chế phân chia thời gian
(một CPU) hay song song (nhiều CPU).

Khả năng làm việc song song trong hệ phân tán được thực hiện do hai tình huống sau:
- Nhiều người sử dụng đồng thời ra các lệnh hay các tương tác với các chương trình ứng
dụng
- Nhiều tiến trình Server chạy đồng thời, mỗi tiến trình đáp ứng các yêu cầu từ các tiến
trình Client khác.
(4) Khả năng mở rộng
Hệ phân tán có khả năng hoạt động tốt và hiệu quả ở nhiều mức khác nhau. Một hệ
phân tán nhỏ nhất có thể hoạt động chỉ cần hai trạm làm việc và một File Server. Các hệ
lớn hơn tới hàng nghìn máy tính. Khả năng mở rộng được đặc trưng bởi tính không thay
đổi phần mềm hệ thống và phần mềm ứng dụng khi hệ được mở rộng. Điều này chỉ đạt
được mức độ nào đó với hệ phân tán hiện tại. Yêu cầu việc mở rộng không chỉ là sự mở
rộng về phần cứng, về mạng mà nó trải trên các khía cạnh khi thiết kế hệ phân tán.
(5) Khả năng thứ lỗi
Việc thiết kế khả năng thứ lỗi của các hệ thống máy tính dựa trên hai giải pháp:
- Dùng khả năng thay thế để đảm bảo sự hoạt động liên tục và hiệu quả.
- Dùng các chương trình hồi phục khi xảy ra sự cố.
Xây dựng một hệ thống có thể khắc phục sự cố theo cách thứ nhất thì người ta nối
hai máy tính với nhau để thực hiện cùng một chương trình, một trong hai máy chạy ở chế
Sinh viên: Cù Thị Tuyền 12 GVHD: Nguyễn Thị Thu
Thủy
Khóa luận tốt nghiệp Đại Học Thương mại
độ Standby (không tải hay chờ). Giải pháp này tốn kém vì phải nhân đôi phần cứng của
hệ thống. Một giải pháp để giảm phí tổn là các Server riêng lẻ được cung cấp các ứng
dụng quan trọng để có thể thay thế nhau khi có sự cố xuất hiện. Khi không có các sự cố
các Server hoạt động bình thường, khi có sự cố trên một Server nào đó, các ứng dụng
Client tự chuyển hướng sang các Server còn lại. Cách hai thì các phần mềm hồi phục
được thiết kế sao cho trạng thái dữ liệu hiện thời (trạng thái trước khi xảy ra sự cố) có thể
được khôi phục khi lỗi được phát hiện. Các hệ phân tán cung cấp khả năng sẵn sàng cao để
đối phó với các sai hỏng phần cứng.
(6) Tính trong suốt

Tính trong suốt của một hệ phân tán được hiểu như là việc che khuất đi các thành
phần riêng biệt của hệ đối với người sử dụng và những người lập trình ứng dụng.
Tính trong suốt về vị trí: Người sử dụng không cần biết vị trí vật lý của dữ liệu.
Người sử dụng có quyền truy cập tới đến cơ sở dữ liệu nằm bất kỳ tại vị trí nào. Các thao
tác lấy, cập nhật dữ liệu tại một điểm dữ liệu ở xa được tự động thực hiện bởi hệ thống tại
điểm đưa ra yêu cầu, người sử dụng không cần biết đến sự phân tán của cơ sở dữ liệu trên
mạng.
Tính trong suốt trong việc sử dụng: Việc chuyển đổi của một phần hay toàn bộ cơ
sở dữ liệu do thay đổi về tổ chức hay quản lý, không ảnh hưởng tới thao tác người sử
dụng.
Tính trong suốt của việc phân chia: Nếu dữ liệu được phân chia do tăng tải, nó
không được ảnh hưởng tới người sử dụng.
Tính trong suốt của sự trùng lặp: Nếu dữ liệu trùng lặp để giảm chi phí truyền
thông với cơ sở dữ liệu hoặc nâng cao độ tin cậy, người sử dụng không cần biết đến điều
đó.
(7) Đảm bảo tin cậy và nhất quán
Hệ thống yêu cầu độ tin cậy cao: Sự bí mật của dữ liệu phải được bảo vệ, các chức
năng khôi phục hư hỏng phải được đảm bảo. Ngoài ra yêu cầu của hệ thống về tính nhất
quán cũng rất quan trọng trong thể hiện: Không được có mâu thuẫn trong nội dung dữ liệu.
Khi các thuộc tính dữ liệu là khác nhau thì các thao tác vẫn phải nhất quán.
Sinh viên: Cù Thị Tuyền 13 GVHD: Nguyễn Thị Thu
Thủy
Khóa luận tốt nghiệp Đại Học Thương mại
2.1.3.4. Mục đích của việc sử dụng CSDL phân tán
Xuất phát từ yêu cầu thực tế về tổ chức và kinh tế: Trong thực tế nhiều tổ chức là
không tập trung, dữ liệu ngày càng lớn và phục vụ cho đa người dùng nằm phân tán, vì
vậy CSDL phân tán là con đường thích hợp với cấu trúc tự nhiên của các tổ chức đó. Đây
là một trong những yếu tố quan trọng thúc đẩy việc phát triển CSDL phân tán.
Sự liên kết các CSDL địa phương đang tồn tại: CSDL phân tán là giải pháp tự
nhiên khi có các CSDL đang tồn tại và sự cần thiết xây dựng một ứng dụng toàn cục.

Trong trường hợp này CSDL phân tán được tạo từ dưới lên dựa trên nền tảng CSDL đang
tồn tại. Tiến trình này đòi hỏi cấu trúc lại các CSDL cục bộ ở một mức nhất định. Dù sao,
những sửa đổi này vẫn là nhỏ hơn rất nhiều so với việc tạo lập một cở sở dữ liệu tập trung
hoàn toàn mới.
Làm giảm tổng chi phí tìm kiếm: Việc phân tán dữ liệu cho phép các nhóm làm
việc cục bộ có thể kiểm soát được toàn bộ dữ liệu của họ. Tuy vậy, tại cùng thời điểm
người sử dụng có thể truy cập đến dữ liệu ở xa nếu cần thiết. Tại các vị trí cục bộ, thiết bị
phần cứng có thể chọn sao cho phù hợp với công việc xử lý dữ liệu cục bộ tại điểm đó.
Sự phát triển mở rộng: Các tổ chức có thể phát triển mở rộng bằng cách thêm các
đơn vị mới, vừa có tính tự trị, vừa có quan hệ tương đối với các đơn vị tổ chức khác. Khi
đó giải pháp CSDL phân tán hỗ trợ một sự mở rộng uyển chuyển với một mức độ ảnh
hưởng tối thiểu tới các đơn vị đang tồn tại.
Trả lời truy vấn nhanh: Hầu hết các yêu cầu truy vấn dữ liệu từ người sử dụng tại
bất kỳ vị trí cục bộ nào đều thoả mãn dữ liệu ngay tại thời điểm đó.
Độ tin cậy và khả năng sử dụng nâng cao: Nếu có một thành phần nào đó của hệ
thống bị hỏng, hệ thống vẫn có thể duy trì hoạt động.
Khả năng phục hồi nhanh chóng: Việc truy nhập dữ liệu không phụ thuộc vào một
máy hay một đường nối trên mạng. Nếu có bất kỳ một lỗi nào hệ thống có thể tự động
chọn đường lại qua các đường nối khác.
Sinh viên: Cù Thị Tuyền 14 GVHD: Nguyễn Thị Thu
Thủy
Khóa luận tốt nghiệp Đại Học Thương mại
2.1.3.5. Ưu điểm của CSDL phân tán
CSDL tập trung cùng với CSDL không qua thiết kế hình thành trước khi có CSDL
phân tán. Hai hình thức này phát triển trên cơ sở tự phát và hệ thống tập trung. Như vậy
hai hình thức này không đáp ứng được yêu cầu tổ chức và công việc trên phạm vi lớn.
CSDL phân tán được thiết kế khác CSDL tập trung. Do đó các đặc trưng của cơ sở dữ liệu
phân tán ta thấy được lợi ích của CSDL phân tán.
• Đầu tư cho từng bộ phận là nhỏ, có thể vừa vận hành vừa đầu tư thêm dần.
• Các bộ phận chỉ ảnh hưởng nhau một cách hạn chế, nếu một bộ phận gặp vấn đề thì

chỉ ảnh hưởng một cụm xung quanh nó, còn các nơi khác vẫn tiếp tục hoạt động
bình thường.
• Xử lí công việc đơn giản, không đòi hỏi nhiều năng lực ( trình độ đầu óc, cơ sở hạ
tầng).
• Lợi điểm về tổ chức và tính kinh tế: Tổ chức phân tán nhiều chi nhánh và dùng cơ
sở dữ liệu phân tán phù hợp với các tổ chức kiểu này. Với vai trò là động lực thúc
đẩy kinh tế thương mại phát triển rộng hơn, thì việc phát triển các trung tâm máy
tính phân tán ở nhiều vị trí trở thành nhu cầu cần thiết.
• Tận dụng những cơ sở dữ liệu sẵn có: Hình thành cơ sở dữ liệu phân tán từ các cơ
sở dữ liệu tập trung có sẵn ở các vị trí địa phương.
• Thuận lợi cho nhu cầu phát triển: Xu hướng dùng cơ sở dữ liệu phân tán sẽ cung
cấp khả năng phát triển thuận lợi hơn và giảm được xung đột về chức năng giữa
các đơn vị đã tồn tại và giảm được xung đột giữa các chương trình ứng dụng khi
truy cập đến cơ sở dữ liệu. Với hướng tập trung hoá, nhu cầu phát triển trong
tương lai sẽ gặp khó khăn.
• Giảm chi phí truyền thông: Trong cơ sở dữ liệu phân tán chương trình ứng dụng đặt
ở địa phương có thể giảm bớt được chi phí truyền thông khi thực hiện bằng cách
khai thác cơ sở dữ liệu tại chỗ.
• Tăng số công việc thực hiện: Hệ cơ sở dữ liệu phân tán có thể tăng số lượng công
việc thực hiện qua áp dụng nguyên lý xử lý song song với hệ thống xử lý đa
nhiệm. Tuy nhiên cơ sở dữ liệu phân tán cũng có tiện lợi trong việc phân tán dữ
liệu như tạo ra các chương trình ứng dụng phụ thuộc vào tiêu chuẩn mở rộng vị trí
làm cho các nơi xử lý có thể hỗ trợ lẫn nhau. Do đó tránh được hiện tượng tắc
Sinh viên: Cù Thị Tuyền 15 GVHD: Nguyễn Thị Thu
Thủy
Khóa luận tốt nghiệp Đại Học Thương mại
nghẽn cổ chai trong mạng truyền thông hoặc trong các dịch vụ thông thường của
toàn bộ hệ thống.
• Tính dễ hiểu và sẵn sàng: Hướng phát triển cơ sở dữ liệu phân tán cũng nhằm đạt
được tính dễ hiểu và tính sẵn sàng cao hơn. Tuy nhiên để đạt được mục tiêu này

không phải là dễ làm và đòi hỏi sử dụng kỹ thuật phức tạp. Khả năng xử lý tự trị
của các điểm làm việc khác nhau không đảm bảo tính dễ sử dụng.
• Dữ liệu có tính tin cậy cao vì khi một nút gặp sự cố, có thể khôi phục được dữ liệu
tại đây do bản sao của nó có thể được lưu trữ tại một trạm khác nữa.
• Cho phép mở rộng các tổ chức một cách linh hoạt. Có thể thêm nút mới vào mạng
máy tính mà không ảnh hưởng tới hoạt động của các nút sẵn có.
• Giảm dư thừa dữ liệu: Trong CSDL tập trung, tính dư thừa hạn chế được càng
nhiều càng tốt vì:
- Dữ liệu không đồng nhất khi có vài bản sao của cùng CSDL logic; để tránh
được nhược điểm này giải pháp là chỉ có một bản sao duy nhất.
- Giảm không gian lưu trữ. Giảm dư thừa có nghĩa là cho phép nhiều ứng dụng
cùng truy cập đến một CSDL mà không cần đến nhiều bản sao ở những nơi
chương trình ứng dụng cần .
Trong CSDL truyền thống tính dư thừa dữ liệu cũng cần quan tâm vì:
- Tính cục bộ của chương trình ứng dụng sẽ tăng nếu dữ liệu đặt ở mọi nơi mà
chương trình ứng dụng cần.
- Khả năng sẵn sàng của hệ thống cao bởi vì khi có lỗi ở một nơi nào đó trong hệ
thống thì không cản trở hoạt động của chương trình ứng dụng. Nói chung,
nguyên nhân đối lập với tính dư thừa đưa ra trong môi trường truyền thống vẫn
còn đúng cho hệ thống phân tán và vì vậy công việc định giá mức độ tốt của
tính dư thừa đòi hỏi định giá lại công việc lựa chọn mức độ dư thừa dữ liệu.
CSDL phân tán khắc phục được hai nhược điểm này vì dữ liệu được chia ra
thành nhiều phần nhỏ và chỉ có một bản sao logic tổng thể duy nhất để tiện cho
việc truy cập dữ liệu.
• Cấu trúc vật lý và khả năng truy cập: Người sử dụng truy cập đến CSDL tập trung
phải thông qua cấu trúc truy cập phức tạp: định vị cơ sở dữ liệu, thiết lập đường
Sinh viên: Cù Thị Tuyền 16 GVHD: Nguyễn Thị Thu
Thủy
Khóa luận tốt nghiệp Đại Học Thương mại
truyền Trong CSDL phân tán, cấu trúc truy cập phức tạp không phải là công cụ

chính để truy cập hiệu quả đến cơ sở dữ liệu. Hiệu quả có nghĩa là thời gian tìm
kiếm và chuyển dữ liệu nhỏ nhất, chi phí truyền thông thấp nhất. Mỗi cách thức
truy cập CSDL phân tán viết bởi người lập trình hoặc tạo ra bởi một bộ tối ưu.
Công việc viết ra một cách thức truy cập CSDL phân tán cũng giống như viết
chương trình duyệt trong CSDL tập trung. Công việc mà chương trình duyệt này
làm là xác định xem có thể truy cập đến được bao nhiêu cơ sở dữ liệu.
Hai nguyên nhân về mặt kỹ thuật đáp ứng cho sự phát triển hệ cơ sở dữ liệu phân tán:
- Công nghệ tạo ra máy tính nhỏ và nền tảng phần cứng có khả năng phục vụ xây
dựng hệ thống thông tin phân tán.
- Kỹ thuật thiết kế hệ cơ sở dữ liệu phân tán được phát triển vững chắc dựa trên hai
kỹ thuật thiết kế chính là Top-down và Bottom-up từ những năm thập kỷ 60.
- Kỹ thuật thiết kế cơ sở dữ liệu phân tán phức tạp nhưng hệ cơ sở dữ liệu phân tán
cũng cần thiết cho xu hướng phát triển kinh tế hiện nay.
Công ty tận dụng được mọi ưu thế của công ty, phát triển của công ty một cách toàn diện,
từ tổng công ty đến các chi nhánh. Công ty có thể đáp ứng được tất cả các hợp đồng của
khách hàng trên tất cả các vùng miền mà không sợ quá tải, doanh thu của công ty ngày
càng tăng. Công ty phát triển rộng trên các vùng miền, công ty có thể mở thêm các chi
nhánh trên các vùng, miền khác nhau để thực hiện các hợp đồng một cách nhanh và tốt
nhất. Mà sự điều hành của tổng công ty với các chi nhánh gần như là một cách độc lập,
làm cho việc thực hiện ngày càng có hiệu quả hơn.
2.1.3.6. Nhược điểm của CSDL phân tán
• Chỉ áp dụng cho những công ty có nhiều chi nhánh và chuỗi các nhà hàng.
• Việc thiết kế CSDL phân tán phức tạp hơn việc thiết kế CSDL tập trung.
• Mô hình phân tán tiềm tàng các mô thuẫn nội bộ: Có khi thông tin từ các bộ phận
không khớp nhau hoặc nhiều bộ phận cùng làm một việc và bị thừa, trùng lặp.
• Tính biệt lập và an toàn: trong CSDL truyền thống, người quản trị hệ thống có
quyền điều khiển tập trung, người sử dụng có chắc chắn được phân quyền mới truy
cập vào được dữ liệu. Điểm quan trọng là trong cách tiếp cận CSDL tập trung,
Sinh viên: Cù Thị Tuyền 17 GVHD: Nguyễn Thị Thu
Thủy

Khóa luận tốt nghiệp Đại Học Thương mại
không cần thủ tục điều khiển chuyên biệt. Trong CSDL phân tán, những người quản
trị địa phương cũng phải giải quyết vấn đề tương tự như người quản trị CSDL truyền
thống.
Tuy nhiên, hai vấn đề đặc biệt sau đây của CSDL phân tán có ý nghĩa quan trọng khi
đề cập đến:
- Thứ nhất trong CSDL phân tán với cấp độ tự trị cao ở mỗi điểm, người có dữ liệu
địa phương sẽ cảm thấy an toàn hơn vì họ có thể tự bảo vệ dữ liệu của mình thay
vì phụ thuộc vào người quản trị hệ thống tập trung.
- Thứ hai, vấn đề an toàn thực chất với hệ thống phân tán không giống như các hệ
thống thông thường khác mà còn liên quan đến mạng truyền thông.
Như vậy trong CSDL phân tán vấn đề an toàn CSDL phức tạp hơn và đòi hỏi nhiều
kỹ thuật bảo vệ. Nguyên nhân gây ra là hệ thống này có tính mở và nhiều người
dùng trong cùng hệ thống sử dụng nhiều cơ sở dữ liệu.
• Tính toàn vẹn, hồi phục và điều khiển tương tranh: Mặc dù trong cơ sở dữ liệu, tính
toàn vẹn, hồi phục và điều khiển đồng thời liên quan nhiều vấn đề liên quan lẫn
nhau. Mở rộng hơn vấn đề này là việc cung cấp các giao tác. Giao tác là đơn vị cơ
bản của việc thực hiện: giao tác cụ thể là bó công việc được thực hiện toàn bộ hoặc
không được thực hiện.
• Trong CSDL phân tán, vấn đề điều khiển giao tác tự trị có ý nghĩa quan trọng: hệ
thống điều phối phải chuyển đổi các quỹ thời gian cho các giao tác liên tiếp. Như
vậy giao tác tự trị là phương tiện đạt được sự toàn vẹn trong CSDL Có hai mối nguy
hiểm của giao tác tự trị là lỗi và tương tranh.
 Từ kết quả nghiên cứu về thực trạng quản trị CSDL tập trung của Công ty Cổ phần
Phát triển và Ứng dụng Công nghệ AIT, để khắc phục những hạn chế của hệ quản trị
CSDL tập trung, ta có thể chuyển đổi sang hệ quản trị CSDL phân tán, tối ưu nhất là sử
dụng mô hình kiến trúc của hệ phân tán khách/đại lý.
2.1.3.7. Hệ quản trị CSDL phân tán(Distributed DBMS)
Hệ quản trị CSDL phân tán (Distributed Database Management System-DBMS)
được định nghĩa là một hệ thống phần mềm cho phép quản lý các hệ CSDL (tạo lập và

Sinh viên: Cù Thị Tuyền 18 GVHD: Nguyễn Thị Thu
Thủy
Khóa luận tốt nghiệp Đại Học Thương mại
điều khiển các truy nhập cho các hệ CSDL phân tán) và làm cho việc phân tán trở nên
trong suốt với người sử dụng. Đặc tính vô hình muốn nói đến sự tách biệt về ngữ nghĩa ở
cấp độ cao của một hệ thống với các vấn đề cài đặt ở cấp độ thấp. Sự phân tán dữ liệu
được che dấu với người sử dụng làm cho người sử dụng truy nhập vào CSDL phân tán
như hệ CSDL tập trung. Sự thay đổi việc quản trị không ảnh hưởng tới người sử dụng.
Hệ quản trị CSDL phân tán gồm 1 tập các phần mềm (chương trình) sau đây:
- Các chương trình quản trị các dữ liệu phân tán.
- Chứa các chương trình để quản trị việc truyền thông dữ liệu.
- Các chương trình để quản trị các CSDL địa phương.
- Các chương trình quản trị từ điển dữ liệu.
Để tạo ra một hệ CSDL phân tán (Distributed Database System-DDBS) các tập tin
không chỉ có liên đới logic chúng còn phải có cấu trúc và được truy xuất qua một giao
diện chung. Môi trường hệ CSDL phân tán là môi trường trong đó dữ liệu được phân tán
trên một số vị trí.
2.1.3.8. Mô hình kiến trúc của hệ quản trị CSDL phân tán
 Mô hình kiến trúc của hệ phân tán khách/ Đại lý – Client/server
Các hệ quản trị CSDL khách / đại lý xuất hiện vào đầu những năm 90 và có ảnh
hưởng rất lớn đến công nghệ DBMS và phương thức xử lý tính toán.
Đặc trưng của hệ này là chức năng của hệ thống được chia làm 2 lớp:
- Chức năng đại lí – server function
- Chức năng khách hàng – client function
Nó cung cấp kiến trúc hai cấp, tạo dễ dàng cho việc quản lý mức độ phức tạp của
các DBMS hiện đại và độ phức tạp của việc phân tán dữ liệu.
Đại lý thực hiện phần lớn công việc quản lý dữ liệu. Điều này có nghĩa là tất cả
mọi việc xử lý và tối ưu hoá vấn tin, quản lý giao dịch và quản lý thiết bị lưu trữ được
thực hiện tại đại lý. Khách hàng, ngoài ứng dụng và giao diện sẽ có modun DBMS khách
chịu trách nhiệm quản lý dữ liệu được gửi đến cho bên khách và đôi khi việc quản lý các

khoá chốt giao dịch cũng có thể giao cho nó. Kiến trúc được mô tả bởi hình dưới rất
thông dụng trong các hệ thống quan hệ, ở đó việc giao tiếp giữa khách và đại lý nằm tại
Sinh viên: Cù Thị Tuyền 19 GVHD: Nguyễn Thị Thu
Thủy
Khóa luận tốt nghiệp Đại Học Thương mại
mức câu lệnh SQL. Nói cách khác, khách hàng sẽ chuyển các câu vấn tin SQL cho đại lý
mà không tìm hiểu và tối ưu hoá chúng. Đại lý thực hiện hầu hết công việc và trả quan hệ
kết quả về cho khách hàng.
Có một số loại kiến trúc khách/ đại lý khác nhau. Loại đơn giản nhất là trường hợp
có một đại lý được nhiều khách hàng truy xuất. Chúng ta gọi loại này là nhiều khách một
đại lý. Một kiến trúc khách/ đại lý phức tạp hơn là kiến trúc có nhiều đại lý trong hệ thống
(được gọi là nhiều khách nhiều đại lý). Trong trường hợp này chúng ta có hai chiến lược
quản lý: hoặc mỗi khách hàng tự quản lý nối kết của nó với đại lý hoặc mỗi khách hàng
chỉ biết đại lý “ruột” của nó và giao tiếp với các đại lý khác qua đại lý đó khi cần. Lối tiếp
cận thứ nhất làm đơn giản cho các chương trình đại lý nhưng lại đặt gánh nặng lên các
máy khách cùng với nhiều trách nhiệm khác. Điều này dẫn đến tình huống được gọi là các
hệ thống khách tự phục vụ. Lối tiếp cận sau tập trung chức năng quản lý dữ liệu tại đại lý.
Vì thế sự vô hình của truy xuất dữ liệu được cung cấp qua giao diện của đại lý.
Từ góc độ tính logíc cả dữ liệu, DBMS khách/ đại lý cung cấp cùng một hình ảnh
dữ liệu như các hệ ngang hàng sẽ được thảo luận ở phần tiếp theo. Nghĩa là chúng cho
người sử dụng thấy một hình ảnh về một CSDL logic duy nhất, còn tại mức vật lý nó có
thể phân tán. Vì thế sự phân biệt chủ yếu giữa các hệ khách/đại lý và ngang hàng không
phải ở mức vô hình được cung cấp cho người dùng và cho ứng dụng mà ở mô hình kiến
trúc được dùng để nhận ra mức độ vô hình này.
Trong hệ thống khách/ đại lý các thao tác xử lý dữ liệu đáp ứng yêu cầu của khách
hàng đều được thực hiện bởi chức năng đại lý, chỉ có kết quả được gửi trả cho khách
hàng.
Hệ khách có các tầng:
- Giao diện tương tác với người sử dụng ( User Interface), các chương trình ứng
dụng ( Application Program),

- Hệ quản trị cơ sở dữ liệu khách hàng( Client DBMS).
- Các phần mềm mạng có chức năng truyền tin( Communication Software).
Hệ đại lý có các tầng:
- Các phần mềm mạng có chức năng truyền tin
Sinh viên: Cù Thị Tuyền 20 GVHD: Nguyễn Thị Thu
Thủy
Khóa luận tốt nghiệp Đại Học Thương mại
- Tầng kiểm soát ngữ nghĩa của dữ liệu( Semantic Data Controller)
- Tầng tối ưu hóa câu hỏi( Query Optimizer)
- Tầng quản lý các giao tác (Transaction Manager)
- Tầng quản lý khôi phục( Recovery Manager )
- Tầng hỗ trợ thực thi( Run – time Support Processor)
- Hệ điều hành quản lý chung và giao tiếp với cơ sở dữ liệu vật lý.
Hình 2. 3: Sơ đồ hệ phân tán client/ server
Ưu điểm của hệ client/ server là xử lý dữ liệu tập trung, trên đường truyền chỉ có
các gói tin yêu cầu( câu hỏi) và các kết quả đáp ứng câu hỏi, giảm tải được khối lượng
truyền tin trên mạng kết hợp với thiết bị tại đại lý rất mạnh sẽ tăng tốc độ xử lý dứ liệu
của hệ thống
 Mô hình hệ phân tán hàng ngang
Mô hình client / server phân biệt client (nơi yêu cầu dịch vụ) và server (nơi phục
vụ các yêu cầu). Nhưng mô hình xử lý ngang hàng, các hệ thống tham gia có vai trò như
nhau. Chúng có thể yêu cầu vừa dịch vụ từ một hệ thống khác hoặc vừa trở thành nơi
cung cấp dịch vụ. Một cách lý tưởng, mô hình tính toán ngang hàng cung cấp cho xử lý
hợp tác giữa các ứng dụng có thể nằm trên các phần cứng hoặc hệ điều hành khác nhau.
Mục đích của môi trường xử lý ngang hàng là để hỗ trợ các CSDL được nối mạng.
Như vậy người sử dụng DBMS sẽ có thể truy cập tới nhiều CSDL không đồng nhất.
Sinh viên: Cù Thị Tuyền 21 GVHD: Nguyễn Thị Thu
Thủy

×