Tải bản đầy đủ (.doc) (48 trang)

Các vấn đề cơ bản trong việc tính toán lưới

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.26 MB, 48 trang )

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
BÀI THU HOẠCH MÔN MÁY HỌC
Đề tài: Các vấn đề cơ bản trong việc
tính toán lưới
GVHD: PGS.TS. NGUYỄN PHI KHỨ
Học viên: Lương Văn Nguyên
Mã học viên: CH1102005
Lớp: Cao học 06 – Hà Nội
TP. Hà Nội – 5/2013
LỜI CẢM ƠN

Em xin chân thành cảm ơn các Thày Cô
trong Trường Đại học Công nghệ thông tin, đã
tận tình giúp đỡ chúng em học tập, nghiên cứu.
Em vô cùng biết ơn phó Giáo sư, Tiến sĩ
Nguyễn Phi Khứ đã cho phép em tìm hiểu, nghiên
cứu đề tài “Các vấn đề cơ bản trong việc tính toán
lưới” và Thày đã dành nhiều thời gian, tận tình
hướng dẫn em trên diễn đàn môn học Tính toán
lưới.
Học viên: Lương Văn Nguyên
Mục lục
2. Đặt vấn đề 7
3. Công nghệ Grid Computing (tính toán lưới) 9
4. Mục tiêu của đề tài 12
5. Giới thiệu môi trường lưới 12
Lớp ứng dụng: 12
Lớp cơ sở hạ tầng: 12
Lớp giữa: 13
5.1. Định nghĩa Grid Middleware 14
5.2 Nhiêm vụ và lợi ích của grid middleware 14


Lớp giao thức kết nối – Connectivity layer 16
Lớp giao thức tài nguyên – Resource layer 17
Lớp giao thức nhóm – Collective layer 18
6.1 Giới thiệu 19
6.2 Lịch sử phát triển 20
a) OGSA là gì? 22
b) Open Grid Services Infrastructure 23
Các đặc tính của OGSI 23
Grid service descriptions and instances 23
Service state, metadata, and introspection 24
Naming và name resolution 24
Service life cycle 25
Fault type 25
Service groups 26
NotificationSink 26
Định nghĩa tác vụ cho việc phân phối các thông điệp notification đến service instance 26
6.5 Các Core Service của OGSI 26
6.7. Resource and Service Management 27
6.8. Tổng quan về WSRF 27
6.9 Hiện thực WSRFs 30
7. Các công nghệ 30
7.1 Service Oriented Architeture (SOA) 30
7.2 Giới thiệu về SOA 30
7.3 Kiến trúc của SOA 32
Đề tài: Các vấn đề cơ bản trong việc tính toán lưới GVHD: PGS.TS. Nguyễn Phi Khứ
1. Sơ lược về tính toán lưới
Tính toán mạng lưới ngày nay không còn là một giải pháp hàn lâm hay thử
nghiệm. Với những tiến bộ quan trọng về phần mềm triển khai, người ta hy vọng nó sẽ
đem sức mạnh của siêu máy tính tới tất cả người dùng PC đơn lẻ trên thế giới.
Grid là gì và hoạt động như thế nào?

Grid là một loại hệ thống phân tán, bố trí song song, cho phép linh hoạt chia sẻ,
tuyển lựa và tập hợp các nguồn tài nguyên độc lập và rải rác về địa lý, tùy theo khả
năng sẵn có, công suất, hoạt động, chi phí và yêu cầu về chất lượng dịch vụ của người
sử dụng.
Điện toán mạng lưới (ĐTML) có nghĩa là tất cả hoặc một phần của một nhóm
máy tính, máy chủ và thiết bị lưu trữ trong mạng doanh nghiệp, được “ảo hóa”
(virtualize) thành một cỗ máy tính lớn. Vì ĐTML giải phóng những khả năng tính toán
không được sử dụng vào một thời điểm bất kỳ, chúng có thể cho phép các doanh
nghiệp tăng cường rất nhiều về tốc độ, sức mạnh xử lý thông tin và sự liên kết, thúc
đẩy các quy trình tính toán mật độ cao. Trong khi đó, chi phí vẫn sẽ được giữ ở mức
thấp vì ĐTML có thể được xây dựng từ chính hạ tầng hiện có, góp phần đảm bảo sự
huy động tối ưu các khả năng tính toán.
ĐTML cho phép ảo hóa các chức năng tính toán phân tán cũng như các nguồn xử lý,
băng thông mạng và khả năng lưu trữ, để từ đó tạo ra một hệ thống đơn đồng nhất, cho
phép người sử dụng và các ứng dụng truy cập thông suốt vào các tính năng điện toán
rộng lớn. Giống như người lướt web xem một nội dung thống nhất qua web, người sử
dụng ĐTML cũng nhìn thấy một máy tính ảo cực lớn duy nhất.
Trọng tâm của ĐTML dựa trên một tập hợp mở của nhiều chuẩn và giao thức, ví dụ
Kiến trúc dịch vụ lưới mở (OGSA), cho phép liên lạc qua nhiều môi trường hỗn tạp và
phân tán về địa lý. Với ĐTML, các tổ chức và doanh nghiệp có thể tối ưu hóa khả
năng tính toán và các nguồn dữ liệu, tập trung chúng lại thành những khối sức mạnh
lớn, chia sẻ chúng qua mạng và thúc đẩy sự phối hợp, tương tác.
Học viên: Lương Văn Nguyên – CH1102005 Page 5
Đề tài: Các vấn đề cơ bản trong việc tính toán lưới GVHD: PGS.TS. Nguyễn Phi Khứ
Giả dụ, khi một người có chiếc máy tính cá nhân tham gia đóng góp sức mạnh xử lý
trong một mạng lưới grid muốn chạy một ứng dụng đòi hỏi thêm sức mạnh xử lý thì
công việc đang được giải quyết trên chiếc máy đó sẽ được tự động tái phân bổ tới một
máy khác trong lưới đang “rảnh rỗi” và không bị trưng dụng sức mạnh tính toàn vào
công việc nào.
Xây dựng một lưới grid có thể đơn giản như việc cho phép một số lượng nhỏ PC hoặc

server hoặc mạng lưu trữ tận dụng những khả năng chưa được khai thác hết. Từ một
quy mô triển khai ban đầu nhỏ, người sử dụng có thể dần dần hoặc lập tức mở rộng
lưới tùy theo nhu cầu của doanh nghiệp. Lưới này không chỉ có thể liên kết các quy
trình hoạt động của một bộ phận mà có thể phối hợp các phòng ban với nhau hoặc
thậm chí liên kết sức mạnh hạ tầng của một số doanh nghiệp độc lập.
Ích lợi của tính toán lưới
Điện toán mạng lưới (ĐTML) có thể đem lại những ích lợi rất rộng lớn.
 Nó tăng tốc độ xử lý để rút ngắn thời gian thu được kết quả, từ đó cho phép tiết
kiệm thời gian và tài nguyên phục vụ cho việc giải quyết những vấn đề mà
trước đó chưa được xử lý.
 ĐTML nâng cao năng suất và sự phối hợp trong doanh nghiệp bằng cách cho
phép các bộ phận và phòng ban phân tán ở nhiều nơi tạo ra các “tổ chức ảo” để
chia sẻ dữ liệu và tài nguyên.
 Grid khiến cho hạ tầng hoạt động của doanh nghiệp linh hoạt hơn với việc cho
phép truy nhập lập tức vào hệ thống tính toán và các kho dữ liệu để “cảm nhận”
và phản hồi kịp thời những yêu cầu.
 Grid cũng góp phần đảm bảo khai thác tốt nhất các khả năng tính toán hiện có
của một công ty dựa trên những khoản đã đầu tư. Triển khai ĐTML cũng góp
phần tránh được nguy cơ phân bổ tài nguyên không cân đối xảy ra rất phổ biến
và tránh được các chi phí phát sinh.
Học viên: Lương Văn Nguyên – CH1102005 Page 6
Đề tài: Các vấn đề cơ bản trong việc tính toán lưới GVHD: PGS.TS. Nguyễn Phi Khứ
 Một ích lợi lớn khác của ĐTML là nó giải phóng các bộ phận quản lý CNTT
khỏi gánh nặng của việc quản lý các hệ thống không đồng nhất.
So sánh grid với các công nghệ khác
So với khái niệm cluster và điện toán phân tán khác, grid có điểm chung là đem
các nguồn sức mạnh tính toán lại làm một nhưng khác ở chỗ nó không cần có sự giới
hạn về không gian địa lý hay sự đồng nhất về nền điều hành. Khác biệt cơ bản giữa
khái niệm cluster (bó) với grid (lưới) chủ yếu nằm ở phương thức quản lý các nguồn
tài nguyên. Đối với cluster, việc phân bổ tài nguyên được thực hiện bởi một đối tượng

quản lý tài nguyên trung tâm và tất cả các nút (node) mạng hoạt động phối hợp với
nhau như một nguồn đơn thống nhất. Đối với grid, mỗi nút có đối tượng quản lý tài
nguyên riêng và các nguồn tài nguyên độc lập trong lưới có thể trải rộng khắp một
hoặc nhiều tổ chức.
Trên thực tế grid không phải là một cuộc cách mạng mới mà có thể coi nó là
một bước tiến hóa trong công nghệ điện toán phân tán, giống như web, chia sẻ file
ngang hàng và các công nghệ ảo khác. Giống như web, ĐTML giảm bớt tính phức tạp
khi mà nhiều người cùng khai thác một nền hoạt động thống nhất. Cái khác của nó đối
với web chủ yếu là sự hỗ trợ liên lạc.
So với mạng ngang hàng (P2P), ĐTML có điểm chung là cho phép người sử
dụng chia sẻ file nhưng khác ở chỗ việc chia sẻ đó không chỉ là các file mà có thể là
nhiều tài nguyên khác. So với các công nghệ ảo khác, grid giống ở chỗ cho phép ảo
hóa các nguồn lực CNTT. Điểm khác là trong khi đối tượng và mục tiêu của các công
nghệ ảo là một hệ thống đơn thì grid cho phép ảo hóa những nguồn tài nguyên tản mát
và vô cùng rộng lớn.
2. Đặt vấn đề
- Sự phát triển ngày càng phổ biến của Internet, cùng với năng lực tính toán của
máy tính ngày càng mạnh và mạng tốc độ cao cũng như các thiết bị có chi phí
ngày càng thấp đang thay đổi cách tính toán và sử dụng các máy tính. Các tài
Học viên: Lương Văn Nguyên – CH1102005 Page 7
Đề tài: Các vấn đề cơ bản trong việc tính toán lưới GVHD: PGS.TS. Nguyễn Phi Khứ
nguyên được phân bố theo các vị trí địa lý khác nhau, cần phải được liên kết kết
với nhau để phục vụ các bài toán tính toán lớn. Chính vì vậy cần áp dụng tính
toán lưới để giải quyết việc kết hợp các tài nguyên đó lại.
- Trong môi trường này, nhiều tài nguyên tính toán như các siêu máy tính, các
cụm máy tính, thiết bị trực quan, hệ thống lưu trữ và cơ sở dữ liệu, đặc biệt các
thiết bị khoa học như kính thiên văn kết nối ở mức luận lý với nhau và thể hiện
ra bên ngoài đến người sử dụng như là một tài nguyên tích hợp đơn (single
integrated resource).
- Về cơ bản, người sử dụng tương tác với resource broker. Như vậy sẽ không

thấy được những phức tạp của tính toán lưới. Khi Broker phát hiện ra tài
nguyên mà người sử dụng có thể truy cập thông qua một hoặc nhiều hệ thống
quản lý thông tin lưới (grid information server), Broker sẽ thương lượng
(negotiates) với các resource hoặc các agent của chúng bằng cách sử dụng
middleware services. Khi đã đạt được thỏa thuận với các resource, sẽ thực hiện
việc lập lịch (scheduling) bằng cách ánh xạ các task đến các resource, sắp xếp
ứng dụng và dữ liệu để xử lý và cuối cùng trả về tập hợp kết quả. Trong quá
trình đó, cần theo dõi tiến trình thực hiện ứng dụng để việc quản lý các thay đổi
trong cơ sở hạ tầng lưới (grid infrastructure) và resource failure.
- Có một số dự án trên thế giới, đang phát triển các thành phần, các dịch vụ và
các ứng dụng trên hệ thống tính toán lưới: Globus, Legion, NetSolve, Ninf,
Apple, Nimrod/G, và JaWS.
Học viên: Lương Văn Nguyên – CH1102005 Page 8
Đề tài: Các vấn đề cơ bản trong việc tính toán lưới GVHD: PGS.TS. Nguyễn Phi Khứ

(Hình 1 Góc nhìn tổng quát của hệ thống GRID)
- Trong môi trường tính toán lưới, việc truy cập vào các tài nguyên phân bố theo
cơ chế truy cập ngang hàng. Vì vậy cần phải áp dụng các chính sách bảo mật
cũng như xác thực quyền truy cập của người dùng.
- Với việc Internet ngày càng phát triển manh, nhu cầu sử dụng các tài nguyên
sẵn có ngày càng nhiều, và các tài nguyên đó tương tác với nhau để phục vụ các
yêu cầu của người sử dụng. Tuy nhiên, trong môi trường phân bố, các tài
nguyên đó lại được quản lý bởi các tổ chức khác nhau, có chính sách khác nhau
vì vậy sẽ phát sinh các vấn đề rất phức tạp trong việc kết hợp các tài nguyên
này với nhau.
→ Vì vậy cần có mô hình quản lý tài nguyên.
3. Công nghệ Grid Computing (tính toán lưới)
 Với những tiến bộ trong nền công nghiệp sản xuất phần cứng máy tính, các thế
hệ máy tính ngay nay đã trở nên mạnh mẽ và rẻ hơn rất nhiều so với các thế hệ
trước đó. Cùng với sự hữu ích, máy tính đã trở nên phổ dụng khắp nơi trên thế

giới, đi sâu vào mọi công việc của con người, từ công việc hàng ngày, công sở,
kinh doanh đến sản xuất, nghiên cứu khoa học. Do đó số lượng máy tính hiện
nay trên thế giới là rất lớn với tổng cộng năng lực xử lý và lưu trữ khổng lồ.
Học viên: Lương Văn Nguyên – CH1102005 Page 9
Đề tài: Các vấn đề cơ bản trong việc tính toán lưới GVHD: PGS.TS. Nguyễn Phi Khứ
 Tuy nhiên, các ứng dụng ngày nay chỉ mới sử dụng được một phần rất nhỏ năng
lực xử lý và lưu trữ do các ứng dụng chỉ chạy trên máy tính cục bộ, đơn lẻ,
phân tán khắp nơi theo địa lý. Từ đó dẫn đến lãng phí rất lớn. Một câu hỏi đặt
ra là làm sao tận dụng tốt hơn năng lực của máy tính.
 Mặt khác, theo đà phát triển, con người ngày càng đối mặt với nhiều vấn đề lớn,
phức tạp trong khoa học, thương mại đòi hỏi năng lực xử lý tính toán, lưu trữ
lớn :
 Trong khoa học :
 Cách đây hơn 10 năm các nhà sinh học đã rất vui mừng khi họ có thể giả
lập một đơn phân tử trên máy tính. Ngày nay họ muốn giả lập hàng ngàn
phân tử thuốc, protein và tác dụng tương hỗ giữa chúng để tạo ra các loại
thuốc mới.
 Để nghiên cứu các hạt cơ bản và tương tác giữa chúng, hàng năm ngành
vật lý năng lượng cao (High Enegy Physics) tạo ra khoảng 10 Petabyte
(dung lượng khoảng 20 triệu đĩa CD-ROM) dữ liệu. hay các nhà vật lý
địa cầu thực hiện theo dõi bầu khí quyển, tầng ozone, hàng ngày phải lưu
trữ và phân tích khoảng 100 Gigabytes dữ liệu ảnh chụp từ vệ tinh.
 Việc phân tích, giải mã bộ gen người, các dự án nghiên cứu vũ trụ, . . .
cũng cần năng lực xử lý rất lớn.
 Vấn đề hợp tác giữa hàng ngàn nhà khoa học trên toàn thế giới, hỗ trợ
việc chia sẻ một lượng lớn dữ liệu, thực hiện các tính toán phức tạp trực
tuyến trên các dữ liệu đó.
 Trong thương mại :
 Các bài toán phân tích xử lý số liệu kinh tế của các quốc gia, các công ty
đa quốc gia, . . . .

 Các công ty cung cấp dịch vụ mạng cho hàng triệu người dùng trên toàn
thế giới.
 Các bài toán mô phỏng, giả lập trong thiết kế sản phẩm công nghiệp.
 Bài toán xử lý thông tin trong quản trị mạng, các hệ thống phát hiện tấn
công, xâm nhập mạng.
Học viên: Lương Văn Nguyên – CH1102005 Page 10
Đề tài: Các vấn đề cơ bản trong việc tính toán lưới GVHD: PGS.TS. Nguyễn Phi Khứ
 Một máy tính đơn, một nhóm các máy tính (cluster) hay thậm chí một siêu máy
tính thông dụng cũng không thể đáp ứng được nhu cầu tính toán, lưu trữ ngày
càng lớn như vậy. Một số bài toán cũng có thể được giải quyết nhưng rất khó
khăn, với chi phí rất cao mà không phải quốc gia, tổ chức nào cũng thực hiện
được (đặc biệt là các nước đang phát triển), còn những bài toán khác có thể nói
là không thể giải quyết được với công nghệ tính toán hiện nay.
 Thực tế khiến người ta nảy sinh ý tưởng phải kết hợp các máy tính phân tán
khắp nơi trên thế giới trở thành một siêu máy tính khổng lồ nhằm tận dụng năng
lực tính toán, lưu trữ hiện đang lãng phí để giải quyết bài toán phức tạp trên đây
với chi phí thấp hơn.
 Trước đây, khi các công nghệ mạng chưa phát triển thì ý tưởng trên hầu như
chưa thực hiện được. Nhưng hiện nay, các công nghệ máy tính đã phát triển
vược bậc, hiệu năng mạng tăng gấp đôi sau mỗi năm, ý tưởng về “siêu máy
tính” toàn cầu đã có cơ sở để trở thành hiện thực. Đến những năm cuối thế kỷ
XX, các dự án nghiên cứu đầu tiên về lĩnh vực này đã khai sinh ra công nghệ
Grid Computing.
 Công nghệ Gird Computing ra đời đượcdự đoán là công nghệ nền tảng của thế
kỷ XXI, làm thay đổi cách thức tính toán của chúng ta, giống như internet đã
từng làm thay đổi cách thức trao đổi thông tin trong thế kỷ XX. Công nghệ Grid
Computing đã mở ra một cơ hội mới cho các nước không có nền công nghiệp
thiết kế, chế tạo phần cứng máy tính mạng, tạo ra các siêu máy tính để giải
quyết các bài toán của riêng mình với chi phí thấp và độ làm chủ cao.
 Ở việt nam, nhu cầu ứng dụng công nghệ thông tin vào các hoạt động nghiên

cứu khoa học, quản lý kinh tế xã hội ngày càng cao, đòi hỏi phải xử lý những
khối lượng dữ liệu lớn, khối lượng tính toán khổng lồ (vì nước chúng ta còn
nghèo, kinh phí đầu tư cho nghành công nghệ thông tin chưa cao).
 Do đó, việc nghiên cứu, phát triển công nghệ Grid Computing vào thực tế được
xem là một giải pháp quang trọng để giải quyết các bài toán trên.
Học viên: Lương Văn Nguyên – CH1102005 Page 11
Đề tài: Các vấn đề cơ bản trong việc tính toán lưới GVHD: PGS.TS. Nguyễn Phi Khứ
4. Mục tiêu của đề tài
 Tìm hiểu về công nghệ Grid Computing hiện nay để có một bức tranh tổng
quan về công nghệ, các vấn đề, các hướng giải quyết chủ yếu của nó nhằm
làm tiền đề tham khảo cho việc ứng dụng, phát triển công nghệ Grid
Computing trong tương lai.
 Cài đặt, tìm hiểu mô hình, kiến trúc môi trường, cách thức lập trình và phát
triển ứng dụng của bộ Globus Toolkit, một bộ công cụ xây dựng Grid hàng
đầu hiện nay.
5. Giới thiệu môi trường lưới
Về khía cạnh người sử dụng thì môi trường lưới có thể được chia làm 3 lớp:
*Lớp ứng dụng
*Lớp giữa
*Lớp cơ sở hạ tầng
Lớp ứng dụng:
Trong môi trường lưới có rất nhiều loại ứng dụng khác nhau có nhu cầu sử
dụng tài nguyên của hệ thống tính toán lưới bên dưới, trong đó có những ứng dụng
như việc truy xuất dữ liệu qua điện thoại di động, hay các máy trạm cần tài nguyên
cho việc tính toán của nó, hay là các hệ thống mô phỏng cần một lượng rất lớn dữ liệu
để trực quan hóa các kết quả thí nghiệm.
Lớp cơ sở hạ tầng:
Bao gồm các hệ thống siêu máy tính, clusters, các hệ thống lưu trữ dữ liệu, các
phòng thí nghiệm, hệ thống mạng internet toàn cầu, … Các hệ thống cơ sở hạ tầng này
cung cấp khả năng tính toán rất lớn, có khả năng lưu trữ lượng dữ liệu vô cùng lớn,

chẳng hạn như dữ liệu thu được từ việc thu thập dữ liệu khi theo dõi chuyển động của
các vì sao,…
Học viên: Lương Văn Nguyên – CH1102005 Page 12
Đề tài: Các vấn đề cơ bản trong việc tính toán lưới GVHD: PGS.TS. Nguyễn Phi Khứ
Lớp giữa:
Khi đó lớp giữa (grid middleware) chính là lớp đóng vai trò như là 1 bức tường
mỏng bao bọc lấy lớp cơ sở hạ tầng. Nó có khả năng che dấu mọi sự phức hợp bên
dưới của lớp cơ sở hạ tầng, nhưng lại cung cấp cho lớp ứng dụng những giao tiếp được
chuẩn hóa nhằm làm đơn giản hóa cho các user có khả năng sử dụng dễ dàng hơn.
Hình 1 dưới đây sẽ minh họa cho 3 lớp này:
(Hình 2 minh họa: Người dùng chỉ cần cắm và sử dụng dịch vụ mà không cần
quan tâm đến phía sau đó là gì)
Từ đó, ta rút ra được 3 kết quả chính mà môi trường lưới phải đối mặt:
• Sự phức hợp (Heterogeneity): Như đã nói ở trên, cơ sở hạ tầng lưới bao gồm rất
nhiều loại tài nguyên khác nhau, và thuộc vào nhưng vùng quản trị, địa lý khác
nhau, có tiềm năng mở rộng toàn cầu.
• Khả năng mở rộng (Scalability): tức là làm sao để đảm bảo được rằng, khi độ
phức tạp của bài toán tăng lên N lần thì cùng với sự tăng lên khả năng tính toán
N lần mà vẫn đảm bảo được hiệu quả của bài toán gần như ban đầu. Điều này
làm tăng mức độ thử thách cho môi trường lưới, bởi vì như đã nhấn mạnh rằng
Học viên: Lương Văn Nguyên – CH1102005 Page 13
Đề tài: Các vấn đề cơ bản trong việc tính toán lưới GVHD: PGS.TS. Nguyễn Phi Khứ
môi trường lưới có tính phức hợp. Việc mở rộng bài toán sẽ làm vượt ra ngoài
việc sử dụng tài nguyên cục bộ, làm phát sinh như cầu về sự xác thực, tin tưởng
hay về bảo mật. Việc mở rộng bài toán cũng làm tăng mức độ phức hợp của bài
toán vì phải sử dụng đến tài nguyên của các hệ thống bên ngoài có thể không
đồng nhất với hệ thống bên trong.
• Khả năng thích nghi (Adaptability): Trong môi trường lưới, việc xảy ra lỗi là
chuyện tất yếu, không phải là 1 ngoại lệ. Việc sử dụng càng nhiều tài nguyên sẽ
làm tăng xác suất xảy ra lỗi. Do đó, các nhà quản lý tài nguyên lẫn ứng dụng phải

làm sao để phản ứng 1 cách linh động để có được hiệu suất tính toán cao nhất từ
những tài nguyên và dịch vụ có sẵn.
5.1. Định nghĩa Grid Middleware
 Grid middleware là gói phần mềm nằm giữa lớp ứng dụng và hệ điều hành.
 Grid middleware quản lý sercurity, truy cập và trao đổi thông tin:
• Cung cấp khả năng kết nối số lượng lớn user
• Che dấu các tài nguyên chia sẽ rời rạc như máy tính, trung tâm dữ
liệu,các thiết bị khác…
 Cung cấp các công cụ để quản lý,khởi tạo các liên kết trao đổi thông tin.
5.2 Nhiêm vụ và lợi ích của grid middleware
Có 3 mục đích:
• Xây dựng các giao tiếp, và các giao thức có tính mục đích chung, tính mở và
tính chuẩn. Bởi vì hệ thống lưới được xây dưng trên những giao tiếp và giao
thức với rất nhiều mục đích khác nhau. Những giao tiếp và giao thức này điều
chỉ ra được các kết quả cơ bản, mang tính nền tảng như về việc xác nhận, xác
thực, khám phá tài nguyên, truy xuất tài nguyên. Do đó, việc xây dựng các giao
tiếp, giao thức chuẩn và mở là rất quan trọng, nếu không, chúng ta chỉ xây dựng
được những ứng dụng mang tính đặc thù mà thôi.
Học viên: Lương Văn Nguyên – CH1102005 Page 14
Đề tài: Các vấn đề cơ bản trong việc tính toán lưới GVHD: PGS.TS. Nguyễn Phi Khứ
• Định nghĩa các giao thức chuẩn: Nó định nghĩa nội dung và chuỗi các sự kiện
trao đổi thông điệp sử dụng các thao tác yêu cầu từ xa. Điều này rất quan trọng
và thiết để thực hiện tính interoperability (nghĩa là khả năng mà 2 thực thể khác
nhau có thể làm việc với nhau, và được thực hiện bởi các giao thức thông
thường) mà hệ thống lưới phụ thuộc vào.
• Cung cấp các API chuẩn: đó là các giao diện lập trình ứng dụng chuẩn, định
nghĩa các giao tiếp chuẩn để viết mã thư viện, và cấu trúc các thành phần của
Grid bằng cách cho phép các thành phần mã được sử dụng lại.
Khi có grid middleware thì giúp:
 Tránh cho các nhà phát triển ứng dụng không cần lập trình các mức thấp, tránh

error-prone flatform như việc lập trình mạng mức socket.
 Giảm chi phí thời gian phát triển phần mềm khi tập trung phát triển chuyên môn
trước rồi mới phát triển ứng dụng bằng cách tái sử dụng framework chứ không
cần xây dựng lại từ đầu.
 Cung cấp các trừu tượng hướng mạng ở mức cao gần với yêu cầu ứng dụng cho
việc phát triển hệ thống rời rạc.
 Cung cấp nhiều dịch vụ phát triển, như đăng nhập và bảo mật giúp cho việc hoạt
động hiệu quả trong môi trường mạng.
5.3. Kiến trúc phân tầng của lưới:
Học viên: Lương Văn Nguyên – CH1102005 Page 15
Đề tài: Các vấn đề cơ bản trong việc tính toán lưới GVHD: PGS.TS. Nguyễn Phi Khứ
(Hình 3 Kiến trúc phân tầng của hệ thống lưới)
Kiến trúc lưới bao gồm nhiều tầng với những độ rộng khác nhau, được thể hiện
thông qua minh họa dạng hình đồng hồ cát như hình 2 (hình 2.2 – chương 2 – trong
quyển “F.Berman,G.Fox,T.Hey-Grid Computing-Making The Global Infrastructure a
Reality (Wiley2003)”. Phần hẹp nhất, phần cổ của đồng hồ cát là lớp về các giao thức
kết nối và giao thức tài nguyên (Resource and connectivity protocols). Lớp này chứa 1
tập rất nhỏ các giao thức chính và giao diện lập trình ứng dụng mà sẽ được hiện thực ở
mọi nơi. Lớp trên cùng của đồng hồ cát là tập các ứng dụng và công cụ hỗ trợ. Và
phần nằm dưới cùng của đồng hồ cát là lớp cở sở hạ tầng, nó phụ thuộc nhiều vào
công nghệ.
Grid middleware gồm 3 lớp chính:
• Lớp giao thức kết nối – Connectivity layer
• Lớp giao thức tài nguyên – Resource layer
• Lớp giao thức nhóm – Collective layer
Lớp giao thức kết nối – Connectivity layer
Đây là lớp có chức năng giao tiếp một cách dễ dàng và an toàn. Lớp kết nối định
nghĩa giao thức giao tiếp (communication) và giao thức xác thực (authentication).
Học viên: Lương Văn Nguyên – CH1102005 Page 16
Đề tài: Các vấn đề cơ bản trong việc tính toán lưới GVHD: PGS.TS. Nguyễn Phi Khứ

• Giao thức giao tiếp cho phép các thông điệp có thể được trao đổi với nhau giữa
các tài nguyên của lớp Fabric.
• Giao thức xác thực xây dựng trên các dịch vụ giao tiếp bằng cách cung cấp cơ
chế bảo mật mã hóa cho việc xác định user và tài nguyên. Các giải pháp xác thực
cho môi trường tổ chức ảo (VO – Virtual Organization) có thể có 4 đặc tính sau:
o Single sign-on: User có thể được xác thực chỉ 1 lần bằng cách đăng nhập
vào hệ thống và có thể truy xuất vào nhiều tài nguyên lưới.
o Việc ủy quyền: User có khả năng ủy quyền cho 1 chương trình khác để thực
thi giống như những hành vi của user khi user đã được xác thực. Đến lượt
chương trình có thể ủy quyền cho nhưng chương trình khác 1 cách tùy
chọn.
o Việc tích hợp với nhiều giải pháp bảo mật cục bộ: Đó là việc mỗi tổ chức,
mỗi tài nguyên đã có nhưng giải pháp bảo mật riêng cho mình. Do đó, các
giải pháp bảo mật của hệ thống lưới sẽ tận dụng các giải pháp bảo mật cục
bộ có sẵn này mà không cần phải thay thế 1 giải pháp bảo mật mới, và chỉ
cần cho phép ánh xạ vào môi trường cục bộ.
o Mối quan hệ đáng tin cậy dựa trên user: Để user có khả năng truy xuất vào
tài nguyên từ nhiều nhà cung cấp khác nhau, thì hệ thống bảo mật không
cần phải yêu cầu các nhà cung cấp tài nguyên phải liên lạc với nhau để cấu
hình cho môi trường mạng. Chẳng hạn, nếu user có quyền truy xuất vào tài
nguyên của tổ chức A và B, thì user có thể truy xuất vào cả 2 tài nguyên của
tổ chức A và B với nhau mà không cần sự liên lạc giữa những nhà quản trị
bảo mật của tổ chức A và B .
Lớp giao thức tài nguyên – Resource layer
Đây là lớp có khả năng chia sẻ các tài nguyên đơn lẻ. Nó định nghĩa các giao
thức về sự thương lượng an toàn, khởi tạo, theo dõi, điều khiển, tài khoản và sự trả chi
phí cho việc chia sẽ các thao tác trên những tài nguyên đơn lẻ. Lớp tài nguyên sẽ được
hiện thực bởi các giao thức để truy xuất và điều khiển các tài nguyên cục bộ, bao gồm
2 lớp chính:
Học viên: Lương Văn Nguyên – CH1102005 Page 17

Đề tài: Các vấn đề cơ bản trong việc tính toán lưới GVHD: PGS.TS. Nguyễn Phi Khứ
• Giao thức thông tin (Information protocol) được sử dụng để rút ra thông tin
về cấu trúc và trạng thái của tài nguyên chẳng hạn như cấu hình của tài
nguyên, tải hiện thời, hay chính sách sử dụng,…
• Giao thức quản lý (Management protocol) được sử dụng để thỏa thuận việc
truy xuất vào tài nguyên chia sẽ, chẳng hạn về yêu cầu tài nguyên (bao gồm
việc đặt chỗ và chất lượng dịch vụ) và các thao tác thực hiện như khởi tạo,
truy xuất tài nguyên,…
Lớp giao thức nhóm – Collective layer
Có khả năng quản lý 1 tập các tài nguyên trong khi lớp tài nguyên chỉ tập trung
vào việc tương tác giữa các tài nguyên đơn lẻ. Và nó dựa trên lớp kết nối và lớp tài
nguyên để hiện thực rất nhiều hành vi chia sẽ mà không cần phải thay thế những yêu
cầu mới ứng với mỗi tài nguyên được chia sẽ. Chẳng hạn:
 Directory service cho phép các thành viên tham gia vào tổ chức ảo có thể
khám phá ra tài nguyên hay các thuộc tính của tài nguyên. Nó cho phép user
truy vấn về tài nguyên bằng tên hoặc các thuộc tính như kiểu, sự sẵn sàng,
hay tải.
 Coallocation-allocation, scheduling, and brokering services cho phép các
thành viên của tổ chức ảo yêu cầu việc định vị cho 1 hay nhiều tài nguyên
và phân bổ các task cho các tài nguyên thích hợp.
 Monitoring and diagnotics services hỗ trợ việc theo dõi các tài nguyên của
tổ chức ảo về lỗi, việc tấn công hay việc quá tải.
 Data replication services hỗ trợ quản lý việc lưu trữ tài nguyên để tối đa
hiệu quả truy xuất như thời gian đáp ứng, khả năng tin cậy, chi phí,…
 Grid-enabled programming systems cho phép các mô hình lập trình thân
thiện, chẳng hạn như MPI (Message-passing Interfaces),…
 Workload management systems and collaboration frameworks
 Software discovery service
 Community authorization servers
 Community accounting and payment services

Học viên: Lương Văn Nguyên – CH1102005 Page 18
Đề tài: Các vấn đề cơ bản trong việc tính toán lưới GVHD: PGS.TS. Nguyễn Phi Khứ
 Collaboratory services
6. Giới thiệu bộ Globus toolkit
6.1 Giới thiệu
- Globus toolkit là một bộ toolkit mã nguồn mở được sử dụng để xây dựng các hệ
thống và các ứng dụng Grid. Globus toolkit hiện đang được phát triển bởi tổ chức
Globus Alliance và nhiều tổ chức khắp nơi trên thế giới. Globus Alliance là một
cộng đồng các cá nhân và tổ chức tham gia phát triển các công nghệ nền tảng cho
Grid.
- Globus toolkit cho phép thực hiện hóa các ý tưởng, mục tiêu đằng sau khái niệm
grid. Bộ toolkit bao gồm : các dịch vụ và thư viện phục vụ việc bảo mật, hạ tầng
thông tin grid, quản lý tài nguyên quản lý dữ liệu, liên lạc, phát hiện lỗi, . . . . Nó
được đóng gói như một tập các thành phần có thể sử dụng độc lập hoặc kết hợp
với nhau. Mỗi tổ chức đều có những hoạt động, chính sách khác nhau, việc kết
hợp, chia sẽ tài nguyên từ nhiều tổ chức bị cản trở bởi tính không tương thích
giữa các tài nguyên. Globus toolkit được xây dựng để loại bỏ những trở ngại này,
các dịch vụ, interface và protocol của nó cho phép người dùng truy cập đến các
tài nguyên ở xa như thể nó đang nằm trong máy tính của họ trong khi vẫn cho
phép các tổ chức thiết lập các chính sách cục bộ của mình như quản lý việc ai
được phép dùng tài nguyên và khi nào.
- Mặc dù Globus được phát triển để phục vụ các dự án về khoa học và kỹ thuật,
nhưng hiện nay Globus cũng đã được áp dụng vào lĩnh vực thương mại. Từ năm
2000 các công ty hàng đầu thế giới trong lĩnh vực công nghệ thông tin như :
Avaki, Datasynapse, Entropia, Hewlett-Packerd, IBM, NEC, Oracle, Platform,
Sun và United device, Microsoft đã bắt đầu xây dựng các chiến lược về Grid
computing trên nền tảng Globus.
Học viên: Lương Văn Nguyên – CH1102005 Page 19
Đề tài: Các vấn đề cơ bản trong việc tính toán lưới GVHD: PGS.TS. Nguyễn Phi Khứ
6.2 Lịch sử phát triển

- Cuối năm 1994 Rick Stevens (Argonne National Laboratory) và Tom DeFanti
(Electronic Visualization Laboratory, University of Illinois, Chicago) đề nghị
tạo một đường kết nối tạm thời giữa 11 mạng nguyên cứu tốc độ cao để tạo ra
một Grid xuyên quốc gia (I-WAY) trong 2 tuần trước và trong hội nghị
Supercomputing ’95.
- Một đội ngũ phát triển nhỏ đứng đầu là tiến sỹ Lan Foster (Argonne National
Laboratory) đã tạo nên các protocol cho phép người dùng của I-WAY chạy các
ứng dụng trên máy tính nằm rải rác khắp nước Mỹ. Thành công này đã được sự
tài trợ của tổ chức Defense Advance Research Projects Agency (DARPA) để
tiếp tục nguyên cứu và phát triển.
- Đến năm 1997 phiên bản đầu tiên của Globus toolkit ra đời, rồi tiếp theo là sự
phát hành của Globus toolkit Version 1.0 (GT1-1998), Globus toolkit Version
2.0 (GT2-2002), Globus toolkit Version 3.0 (GT3-2003) và hiện nay là Globus
toolkit Version 4.0 (GT4-2005). GT1 và GT2 là các phiên bản xây dựng theo
các mô hình và giao thức độc quyền của tổ chức Globus, đến GT3 và GT4 thì
chuyển sang xây dựng các Grid Service theo các chuẩn OGSA và OGSI.
Học viên: Lương Văn Nguyên – CH1102005 Page 20
Đề tài: Các vấn đề cơ bản trong việc tính toán lưới GVHD: PGS.TS. Nguyễn Phi Khứ
6.3 Kiến trúc Globus toolkit
(Hình 4: Kiến trúc Globus toolkit)
- Bộ Globus Toolkit giải quyết các vấn đề của công nghệ Grid Computing dựa
trên 4 thành phần chính: 3 thành phần là Resource Management, Information
Service, Data Management liên kết hoạt động trên nền tảng bảo mật chung, 1
thành phần là Security Infrastructure. Ngoài ra Globus Toolkit còn cung cấp
một bộ các hàm API và SDK nhằm giúp phát triển, xây dựng các ứng dụng
Grid.
- Globus Toolkit 4 được thiết kế để hỗ trợ hoàn toàn OGSI và bao gồm rất nhiều
dịch vụ, chương trình, công cụ, . . . . .Một số trong chúng được xây dựng trên
OGSI và được gọi là WS (Web Service) components, một số khác không dựa
trên OGSI thì được gọi là pre-WS component.

6.4 Open Grid Service Architecture (OGSA)
Học viên: Lương Văn Nguyên – CH1102005 Page 21
Đề tài: Các vấn đề cơ bản trong việc tính toán lưới GVHD: PGS.TS. Nguyễn Phi Khứ
(Hình 5 : Open Grid Service Architecture – OGSA)
a) OGSA là gì?
Open Grid Services Architecture (OGSA) được phát triển bởi The Global Grid
Forum với mục đích đưa ra kiến trúc chung, chuẩn và mở cho các ứng dụng tính toán
lưới. OGSA hướng đến việc chuẩn hóa các service trong ứng dụng lưới bằng cách đưa
các interface chuẩn cho các service này.
Hình dưới cho thấy mô hình của OGSA
(Hình 6: Mô hình OGSA)
OGSA gồm 3 thành phần chính:
 Open Grid Services Infrastructure,
Học viên: Lương Văn Nguyên – CH1102005 Page 22
Đề tài: Các vấn đề cơ bản trong việc tính toán lưới GVHD: PGS.TS. Nguyễn Phi Khứ
 OGSA services
 OGSA schemas
OGSA được xây dựng dựa trên Web services. OGSA có thể được triển khai
trên nhiều môi trường khác nhau, giao tiếp với nhau thông qua các giao thức
(protocol). Ta sẽ tìm hiểu chi tiết hơn các thành phần này trong các phần tiếp theo.
Web services là công cụ được sử dụng khá phổ biến tuy nhiên bản thân Web
services vẫn còn một số những hạn chế như:
 Khởi tạo webservice
 Thời gian sống của webservice
 Quản lý lỗi
OGSA giải quyết các vấn đề trên và được hiện thực ở lớp cơ sở hạng tầng
(OGSI). Web services tuân theo các chuẩn OGSI được gọi là Grid Service.
OGSI định nghĩa các chuẩn của giao tiếp và các hành vi phục vụ cho việc mô tả
và tìm kiếm dịch vụ, khởi tao instance, quản lý thời gian sống, nhóm service…
b) Open Grid Services Infrastructure

Các đặc tính của OGSI
 Grid service descriptions and instances
Trong mô hình Web services chuẩn, service được tạo ra cũng như bị hủy nằm
ngoài phạm vi của bản thân Web services. Tuy nhiên trong thực tế, ứng dụng thường
xuyên khởi tạo service mới và khi các tác vụ đã hoàn tất thì Web services bị hủy đi.
OGSI cung cấp một cơ chế phân biệt giữa phần mô tả và phần instance của
service. Phần mô tả định nghĩa các interface và hành vi của service. Các service
instance sẽ hiện thực các hành vi này.
Học viên: Lương Văn Nguyên – CH1102005 Page 23
Đề tài: Các vấn đề cơ bản trong việc tính toán lưới GVHD: PGS.TS. Nguyễn Phi Khứ
 Service state, metadata, and introspection
WSDL chuẩn không có khái niệm “trạng thái” của service. Vì thế OGSI đưa ra khái
niệm service data để biểu diễn siêu dữ liệu và các trạng thái. Các thông tin này được
xem như một phần mô tả của service và có thể được truy xuất từ service instance.
Ứng dụng client có thể yêu cầu service instance trả về các thông tin của chính
service đó. Ví dụ: các interface, đặc tả thông tin trạng thái hiện tại của service, thời
điểm kết thúc của service…
OGSI cung cấp hai cơ chế truy xuất trạng thái ứng dụng: pull và push.
 Pull mode: OGSI cung cấp tác vụ findServiceData kết hợp với service
interface cho phép client có thể query thông tin trạng thái ứng dụng.
 Push mode: client đăng ký các với service thông tin trạng thái mình mong
muốn thông qua các interface NotificationSource, NotificationSubscription,
và NotificationSink. Khi trạng thái service thay đổi, service sẽ thực hiện
hành vi callback thông báo cho client biết.
 Naming và name resolution
Vì Grid service được khởi tạo động và có trạng thái nên cần phải có cách thức để phân
biệt giữa các instance của grid service. Do đó ta cần phương thức đặt tên cho các
instance này.
OGSI đưa ra cơ chế đặt tên hai mức. Mỗi grid instance sẽ được gán một Grid
Service Handle(GSH) và được quản lý bởi HandleResolver. GSH là toàn cục và duy

nhất tồn tại trong suốt thời gian sống của instance.
Client thể giao tiếp với service instance cũng như các service instance với nhau
thông qua Grid Service Reference(GSR).
Không giống với GSH, GSR được tạo ra, thay đổi, hủy trong suốt thời gian
sống của service instance.
Hình dưới minh họa cơ chế hoạt động của naming.
Học viên: Lương Văn Nguyên – CH1102005 Page 24
Đề tài: Các vấn đề cơ bản trong việc tính toán lưới GVHD: PGS.TS. Nguyễn Phi Khứ
(Hình minh họa Cơ chế phân giải tên)
 Service life cycle
Một trong những điểm khác biệt chính giữa grid service và Web service là Grid
service có thể transient(tạo và hủy). OGSI cung cấp cơ chế cho phép các instance khởi
tạo, hủy cũng như quản lý thời gian sống của các instance này.
Service instance có thể quy định thời gian sống bằng các phương thức sau:
 Khởi tạo ban đầu: khi có yêu cầu khởi tạo mới một grid service, client gửi
kèm khoảng thời gian sống cụ thể của service instance.
 Kết thúc tường minh(Explicit termination): client chủ động gửi yêu cầu hủy
grid service instance.
 Yêu cầu điều chỉnh thời gian sống(Requesting a lifetime modification):
client có thể yêu cầu điều chỉnh thời gian sống của service instance bằng
cách gửi thông điệp “keepalive” đến server.
 Fault type
OGSI định nghĩa chuẩn các kiểu chuẩn cho tất cả các thông điệp lỗi được trả về bởi
Grid service.
Học viên: Lương Văn Nguyên – CH1102005 Page 25

×