NGUYỄN TRẦN MINH KHUÊ – CH0401022
CÔNG NGHỆ GRID
VÀ ỨNG DỤNG TRONG DM
Nguyễn Trần Minh Khuê sưu tầm giới thiệu
oOo
I. Khái niệm Grid
I.1. Dẫn nhập (ngược dòng lịch sử)
- Mặc dù công nghệ Grid Computing được nhắc đến rất nhiều trong thời gian gần đây và về
sau, nhưng thực ra nhiều ý tưởng cơ bản về Grid đã xuất hiện dưới dạng này hay dạng khác
trong lịch sử tính toán.
- Ví dụ như Ý tưởng chia sẻ năng lực tính toán đã xuất hiện từ những năm 60-70 của thế kỷ
XX, lúc đó toàn bộ năng lực tính toán được chia sẻ từ máy mainframe.
- Năm 1965, những người phát triển hệ điều hành Multics (tiền thân của hệ điều hànhUnix)
đã đề cập đến việc sử dụng năng lực tính toán như là một tiện ích, một quan điểm rất gần với
quan điểm về Grid hiện nay. Đó là một hệ thống cung cấp năng lực tính toán tương tự như hệ
thống cung cấp điện, nước hiện nay. Người dùng khi muốn sử dụng tài nguyên tính toán để xử
lý công việc, chỉ cần cắm thiết bị vào hệ thống cung cấp, sử dụng và trả tiền giống như khi
cắm thiết bị điện vào lưới điện.
- Tuy trước đó đã có nhiều ý tưởng về Grid nhưng khởi nguồn của Grid được xác định là vào
năm 1990, khi thuật ngữ “metacomputing” ra đời, dùng để mô tả các dự án kết nối các trung
tâm siêu máy tính của Mỹ nhằm kết hợp sức mạnh xử lý của nhiều siêu máy tính lại với nhau.
- Đến năm 1995, 2 dự án metacomputing quan trọng, ảnh hưởng lớn đến các công nghệ nền
tảng trong các dự án Grid đang phát triển ngày nay là FAFNER(Factoring via Network-Enabled
Recursion) và I-WAY(Information Wide Area Year) ra đời.
- Khái niệm Grid ra đời ở phòng thí nghiệm Argonne National Laboratory vào tháng 7/1997,
sau đó được đưa vào quyển sách "The Grid: Blueprint for a New Computing Infrastructure" viết bởi
Ian Foster (Argonne National Laboratory) và Carl Kesselman (University of Southern
California) năm 1998. Ian Foster đã từng tham gia dự án I-WAY, Carl Kesselman là người
tham gia dự án Globus Toolkit, một dự án nền tảng của công nghệ Grid và metacomputing.
- Từ đó đến nay, việc phát triển công nghệ Grid trở nên rất sôi động với sự tham gia nghiên
cứu, đầu tư của nhiều tổ chức, tập đoàn công nghệ thông tin, nhiều quốc gia, và đã thu được
những thành tựu bước đầu.
- Có thể nói, việc phát triển và xây dựng hệ thống Grid là sự kế thừa và phát triển các ý tưởng
ở mức cao hơn, sự phát triển không ngừng của cơ sở hạ tầng phần cứng máy tính, mạng đã
giúp các hệ thống Grid ngày nay thực hiện được nhiều điều hơn những ý tưởng trước đây.
Ứng dụng Công nghệ Grid trong DM - 1 -
NGUYỄN TRẦN MINH KHUÊ – CH0401022
I.2. Khái niệm
- Grid là một loại hệ thống song song, phân tán cho phép chia sẻ, lựa chọn, kết hợp các tài
nguyên phân tán theo địa lý, thuộc nhiều tổ chức khác nhau dựa trên tính sẵn sàng, khả năng,
chi phí của chúng và yêu cầu về QoS của người dùng để giải quyết các bài toán, ứng dụng có
quy mô lớn trong khoa học, kỹ thuật và thương mại. Từ đó hình thành nên các “tổ chức ảo”
(VO), một liên minh tạm thời giữa các tổ chức và tập đoàn, nhằm liên kết với nhau để chia sẻ
tài nguyên và/hoặc kỹ năng nhằm đáp ứng tốt hơn các cơ hội kinh doanh hoặc các dự án có
nhu cầu lớn về tính toán và dữ liệu, và toàn bộ việc liên minh này dựa trên các mạng máy tính.
-Một hệ thống Grid có những đặc trưng sau:
+. Có sự kết hợp, chia sẻ các tài nguyên không được quản lý tập trung
- Grid tích hợp và phối hợp tài nguyên và người dùng thuộc nhiều vùng quản lý khác
nhau, nhiều đơn vị khác nhau trong một tổ chức, hay nhiều tổ chức khác nhau. Công nghệ
Grid tập trung giải quyết các vấn đề về bảo mật, chính sách quản trị, chi phí, thành viên,…
nảy sinh trong quá trình chia sẻ và sử dụng tài nguyên.
+. Sử dụng các giao diện và giao thức chuẩn, mang tính mở, đa dụng.
Grid được xây dựng trên các giao thức và giao diện tổng quát, đa dụng để giải quyết các
vấn đề cơ bản nhưng chứng thực người dùng, authorization, tìm kiếm và truy xuất tài nguyên.
+. Đáp ứng yêu cầu cao về chất lượng dịch vụ.
-Grid cho phép sử dụng phối hợp các tài nguyên của nó để cung cấp nhiều loại dịch vụ với
các mức chất lượng khác nhau liên quan đến ví dụ như thời gian đáp ứng, throughput, tính sẵn
sàng, bảo mật, kết hợp nhiều kiểu tài nguyên để đáp ứng nhu cầu phức tạp của người dùng,
phải phối hợp làm sao để khả năng của hệ thống sau khi khi kết hợp phải lớn hơn hẳn tổng khả
năng của từng thành phần cấu tạo nên Grid.
I.3. Tài nguyên của Grid
I.3.1. Phân loại
+. Tài nguyên tính toán
Đây là tài nguyên phổ biến nhất, là các chu kỳ tính toán (computing cycles) được cung
cấp bởi bộ vi xử lý của các thiết bị trong Grid. Các bộ vi xử lý không cần phải cùng loại mà có
thể có tốc độ, kiến trúc, chạy phần mềm khác nhau.
Có 3 cách để khai thác tài nguyên tính toán của Grid
1. Đơn giản nhất là là chạy các ứng dụng hiện có trên một node của Grid thay chạy
trên máy cục bộ.
2. Thiết kế ứng dụng, tách các công việc thành các phần riêng rẽ có thể thực thi
song song trên nhiều bộ xử lý khác nhau.
3. Chạy ứng dụng thực thi nhiều lần trên nhiền node khác nhau trong grid.
Hiệu quả của việc sử dụng các bộ xử lý trong Grid được đo bằng khái niệm
“scalability”. Nếu 2 bộ vi xử lý rút ngắn thời gian chạy một ứng dụng đi một nửa thì đó được
cho rằng có hiệu quả sử dụng hoàn hảo.
+. Tài nguyên lưu trữ
Ứng dụng Công nghệ Grid trong DM - 2 -
NGUYỄN TRẦN MINH KHUÊ – CH0401022
Tài nguyên phổ biến thứ nhì trong Grid là tài nguyên lưu trữ. Mỗi thiết bị trong Grid
thường cung cấp một số dung lượng lưu trữ phục vụ cho việc thực thi ứng dụng trên Grid. Tài
nguyên lưu trữ có thể là bộ nhớ trong, hoặc ổ đĩa cứng hoặc các thiết bị lưu trữ khác. Bộ nhớ
trong thường dùng để lưu trữ dữ liệu tạm thời cho ứng dụng, trong khi các thiết bị lưu trữ
ngoài có thể được sử dụng để tăng dung lượng, hiệu suất, chia sẻ và đảm bảo tính tin cậy của
dữ liệu.
Việc tăng dung lượng lưu trữ có thể được thực hiện bằng cách lưu trữ trên nhiều máy
tính khác nhau và dùng chung một hệ thống file thống nhất. Một file hay một cơ sở dữ liệu có
thể mở rộng, nằm trên nhiều thiết bị lưu trữ khác nhau, quản lý bởi các hệ thống file cục bộ
khác nhau đi kèm với các hệ điều hành. Hệ thống file của Grid phải có trách nhiệm quản lý,
cung cấp một bức tranh thống nhất về hệ thống lưu trữ Grid. Điều này giúp người dùng dễ
dàng hơn trong việc truy xuất dữ liệu mà không biết chính xác vị trí của nó.
Các hệ thống file cải tiến có thể tự động sao chép các dữ liệu để dự phòng làm tăng độ
tin cậy và hiệu suất. Một scheduler thông minh có thể giúp ứng dụng chọn lựa vị trí lưu dữ
liệu thích hợp và lên lịch cho các công việc trên các node gần dữ liệu nhất, để thực thi nhanh
hơn. Hoặc khi có việc truy xuất dữ liệu tuần tự hoặc dự đoán được việc truy xuất dữ liệu dựa
trên mẫu truy xuất, thì sẽ truy xuất các phần dữ liệu song song trên các node khác nhau (kỹ
thuật data striping). Điều này giúp việc truy xuất dữ liệu nhanh hơn nhiều so với việc truy xuất
từ một thiết bị lưu trữ. Đặc tính này có thể rất quan trọng đối với các dòng dữ liệu đa phương
tiện hoặc khi tập hợp các lượng dữ liệu rất lớn với tốc độ cao từ các thiết bị nghiên cứu khoa
học.
+. Phương tiện liên lạc
Khả năng liên lạc giữa các máy tính phát triển nhanh chóng đã giúp cho công nghệ
Grid trở nên hiện thực, do đó đây cũng là một tài nguyên quan trọng. Ở đây bao gồm việc liên
lạc, trao đổi dữ liệu giữa các thành phần trong Grid và giao tiếp giữa Grid với bên ngoài. Một
số công việc đòi hỏi một lượng dữ liệu lớn nhưng số dữ liệu này thường không nằm trên máy
đang thực thi công việc. Khả năng về bandwidth trong những trường hợp như vậy là một tài
nguyên then chốt có thể làm giảm khả năng của Grid.
Việc giao tiếp với bên ngoài được thực hiện thông qua Internet . Grid có thể sử dụng
các kết nối Internet để kết nối giữa các node với nhau. Vì các kết nối này không chia sẻ một
đường truyền nên làm tăng bandwidth truy cập Internet.
Các đường truyền dự phòng đôi khi cần thiết để giải quyết tốt hơn các vấn đề về hư
hỏng mạng và truyền dữ liệu lớn.
+. Phần mềm, ứng dụng.
Grid có thể được cài đặt các phần mềm mà có thể quá mắc để cài trên tất cả mọi máy
trong Grid. Các phần mềm này chỉ cần được cài trên một số node. Qua grid, khi một công việc
cần đến các phần mềm này, nó sẽ được gửi đến và cho thực thi trên các máy đã cài đặt phần
mềm. Đây có thể là một biện pháp tốt để tiết kiệm chi phí về bản quyền phần mềm.
+. Các thiết bị đặc biệt
- Các thiết bị dùng trong khoa học, kỹ thuật như kính viễn vọng, các bộ cảm biến
(sensor). Các thiết bị này chủ yếu là thu thập các dữ liệu khoa học, phục vụ cho các bước phân
tích, xử lý sau này.
Ứng dụng Công nghệ Grid trong DM - 3 -
NGUYỄN TRẦN MINH KHUÊ – CH0401022
I.3.2. Tính chất
Các tài nguyên của Grid có một số tính chất cơ bản:
+. Thuộc nhiều vùng quản trị khác nhau
Các tài nguyên Grid phân tán theo địa lý qua nhiều vùng quản trị và được sở hữu
bởi nhiều tổ chức khác nhau. Grid cần phải tôn trọng các chính sách quản trị và sử
dụng tài nguyên cục bộ của các tổ chức.
+. Đa dạng, hỗn tạp
Grid có vô số tài nguyên không đồng nhất về bản chất và sử dụng hàng loạt các
công nghệ khác nhau.
+. Tồn tại, thay đổi theo thời gian trong Grid
Trong Grid, các tài nguyên có thể xuất hiện hoặc biến mất mà không hề báo trước
do nhiều nguyên do khác nhau như lỗi hệ thống, lỗi mạng, các chính sách chia sẻ của
nhà cung cấp,…
- Các tài nguyên trên đây đến từ nhiều nguồn khác nhau, có thể không thuộc quyền quản
lý của một tổ chức, của một đơn vị mà có thể thuộc nhiều tổ chức, ở nhiều nơi khác nhau. Một
số tài nguyên có thể được sử dụng tự do, trong khi một số được sử dụng dưới những chính
sách nhất định. Các tài nguyên được “ảo hóa” để bỏ đi sự phức tạp, đa dạng, cung cấp một cái
nhìn thống nhất, đơn giản về toàn bộ tài nguyên trên Grid sao cho dưới con mắt của người
dùng, các tài nguyên Grid là một khối thống nhất.
Hình 1- Tài nguyên Grid dưới quan điểm của người dùng. Là một khối thống nhất có được nhờ sự ảo hoá.
Ứng dụng Công nghệ Grid trong DM - 4 -
NGUYỄN TRẦN MINH KHUÊ – CH0401022
Các tài nguyên ảo được tổ chức lại thành các “tổ chức ảo” (virtual organization), đến
lượt nó, các tổ chức ảo lại thực hiện chia sẻ tài nguyên của mình để hình thành Grid lớn hơn,
tạo thành một kho tài nguyên khổng lồ.
II. Kiến trúc Grid
Sau gần 10 năm tập trung nghiên cứu và phát triển, tích luỹ kinh nghiệm, các nhà phát
triển công nghệ Grid đã có những nhất trí đáng kể về kiến trúc Grid. Một trong những kiến
trúc Grid được chấp thuận nhiều nhất được đưa ra bởi Ian Foster, phần dưới đây sẽ giới thiệu
về kiến trúc này.
Kiến trúc Grid, theo Ian Foster, là một kiến trúc phân tầng như trong hình …. .Các thành
phần trong một tầng có chung đặc điểm, tính chất, có thể được xây dựng từ bất cứ tầng dưới
nào. Các thành phần được phân tầng dựa theo vai trò của chúng trong hệ thống Grid. Đây là
một kiến trúc mở.
Kiến trúc này chỉ quy định các yêu cầu chung nhất về thiết kế và triển khai với mục đích
chính là để tham khảo. Việc xây dựng, cài đặt cụ thể tuỳ thuộc vào từng dự án, từng lĩnh vực
ứng dụng.
Dưới đây là chi tiết của kiến trúc.
II.1. Tầng Fabric
Đây là tầng thấp nhất của kiến trúc, đại diện cho các thiết bị vật lý và toàn bộ tài nguyên
của Grid mà các tổ chức, người dùng muốn chia sẻ, sử dụng. Các tài nguyên có thể tồn tại
dưới dạng vật lý như các máy tính, hệ thống lưu trữ, các danh mục, tài nguyên mạng, các loại
sensor, cũng có thể là các thực thể logic, một sự trừu tượng hoá, đại diện cho một tập các tài
nguyên vật lý, như hệ thống file phân tán, các cluster,… Trong trường hợp các thực thể logic,
việc triển khai có thể liên quan đến các protocol cục bộ (ví dụ các protocol phục vụ dạng truy
cập NFS, hoặc protocol quản lý tài nguyên, tiến trình trong cluster,…) nhưng các protocol này
không liên quan đến kiến trúc Grid.
Các thành phần của tầng Fabric thực hiện các hoạt động cục bộ trên các tài nguyên cụ thể
(vật lý lẫn logic) như là bước tiếp sau của các hoạt động chia sẻ tài nguyên của các tầng trên.
Do đó, có một mối liên hệ phụ thuộc chặt chẽ giữa các chức năng của tầng Fabric với các hoạt
động chia sẻ được hỗ trợ. Các chức năng của tầng Fabric càng mạnh, càng nhiều sẽ cho phép
Ứng dụng Công nghệ Grid trong DM - 5 -
NGUYỄN TRẦN MINH KHUÊ – CH0401022
các hoạt động chia sẻ phức tạp hơn. Kinh nghiệm cho thấy, việc quản lý tài nguyên ở tầng
này cũng phải có ít nhất cơ chế cung cấp thông tin để xác được cấu trúc, trạng thái, năng lực
của tài nguyên và cơ chế điều khiển chất lượng dịch vụ được
+. Tài nguyên tính toán:
Cần có các cơ chế để khởi động chương trình, kiểm soát, điều khiển việc thực thi của
các tiến trình.
Các cơ chế để cấp tài nguyên cho tiến trình cũng như cơ chế đặt chỗ trước tài nguyên
cũng cũng rất hữu dụng. Cần có các chức năng để xác định đặc tính phần cứng, phần mềm
cũng như các thông tin trạng thái như tải hiện tại và trạng thái hàng đợi trong trường hợp tài
nguyên được lập lịch sử dụng.
+. Tài nguyên lưu trữ
Cần có cơ chế lưu trữ và đọc các file.
Các cơ chế truyền file hiệu suất cao, đọc ghi một loạt các file hoặc các chức năng chọn
lựa, tinh giảm dữ liệu từ xa, các cơ chế điều khiển việc cấp phát tài nguyên phục vụ việc
truyền dữ liệu (không gian, băng thông, CPU) là hữu dụng.
Cần các chức năng xác định đặc tính phần cứng, phần mềm cũng như các thông tin tải
có liên quan như không gian lưu trữ còn lại, bandwidth, …
+. Tài nguyên mạng
Các cơ chế cho phép quản lý các tài nguyên cấp phát cho việc truyền tải mạng là hữu
dụng.
Nên có các chức năng xác định đặc tính và tải của mạng.
+. Lưu trữ mã thực thi
Dạng đặc biệt của tài nguyên lưu trữ này đòi hỏi cơ chế để quản lý phiên bản mã
nguồn và mã thực thi của các đối tượng.
+ Các danh mục.
Dạng đặc biệt của tài nguyên lưu trữ này đòi hỏi cơ chế để thực hiện các truy vấn và
hoạt động cập nhật.
II.2. Tầng Connectivity
Tầng Connectivity định nghĩa các protocol liên lạc và chứng thực nòng cốt cần thiết cho
các giao dịch mạng đặc trưng của Grid. Các protocol liên lạc cho phép trao đổi dữ liệu giữa
các tài nguyên tầng Fabric. Các protocol chứng thực xây dựng trên các dịch vụ liên lạc nhằm
cung cấp các cơ chế mã hóa bảo mật xác minh và nhận dạng các người dùng và tài nguyên.
Việc liên lạc đòi hỏi các công việc như vận chuyển, định tuyến, đặt tên. Trong tương lai, việc
liên lạc của Grid có thể cần các protocol mới, nhưng hiện nay nên xây dựng trên các protocol
có sẵn của bộ TCP/IP protocol stack, cụ thể là các tầng Network (IP và ICMP), Transport
(TCP,UDP) và Application (DNS,OSPF,…).
Về khía cạnh bảo mật của tầng Connectivity, các giải pháp phải dựa trên các chuẩn bảo
mật hiện hành khi có thể. Cũng giống như liên lạc, rất nhiều chuẩn bảo mật đã được phát triển
với bộ Internet protocol có thể áp dụng được.
Việc chứng thực, authorization trong môi trường Grid là rất phức tạp. Các công nghệ bảo
mật truyền thống chủ yếu tập trung bảo vệ các giao dịch giữa các máy client và server. Trong
grid, việc phân biệt client/server không tồn tại, vì các mỗi tài nguyên trong một lúc nào đó có
thể là server (khi nó nhận yêu cầu), một lúc khác lại là client (khi nó đề xuất yêu cầu đến các
Ứng dụng Công nghệ Grid trong DM - 6 -
NGUYỄN TRẦN MINH KHUÊ – CH0401022
tài nguyên khác). Do đó, các giải pháp chứng thực cho các môi trường VO nên có những tính
chất sau:
+. Đăng nhập một lần
Một tính toán đơn giản cũng cần phải truy cập nhiều tài nguyên khác nhau, vì thế
việc đòi hỏi mỗi lần truy xuất tài nguyên lại cần phải chứng thực người dùng là điều không
thực tế và không thể chấp nhận được. Thay vào đó, người dùng chỉ nên được chứng thực
một lần rồi sau đó có thể sử dụng nhiều tài nguyên khác nhau thuộc tầng Fabric .
+. Cho phép ủy quyền
Đây là một yêu cầu quan trọng, để thực hiện được yêu cầu “đăng nhập một lần”
thì cần phải có sự uỷ quyền. Người dùng cần có khả năng uỷ quyền cho các chương trình
của mình sử dụng các quyền của mình như là một đại diện, để chương trình có thể truy cập
đến các tài nguyên được phép của người dùng. Và chương trình, đến lượt nó cũng cần có
khả năng ủy quyền cho các chương trình khác.
+. Tích hợp được với các chính sách bảo mật cục bộ
Mỗi site hoặc nhà cung cấp tài nguyên đều có chính sách bảo mật riêng của
mình. Do đó, các giải pháp bảo mật trên Grid cần phải liên kết được với các giải pháp
cục bộ, không cần phải thay thế toàn bộ các giải pháp này mà cho phép ánh xạ đến
chúng.
+. Sử dụng các quan hệ tin cậy lẫn nhau dựa theo người dùng
Để cho phép người dùng sử dụng kết hợp tài nguyên từ nhiều nhà cung cấp khác
nhau, hệ thống bảo mật không được yêu cầu các nhà cung cấp phải hợp tác, liên lạc với
nhau để thiết lập môi trường bảo mật. Ví dụ, nếu người dùng có quyền sử dụng 2 site A và
B, thì người dùng cũng có thể sử dụng kết hợp 2 site A, B cùng lúc mà không cần các
chuyên gia bảo mật của site A, B liên lạc với nhau.
Các giải pháp bảo mật trên Grid cũng nên cung cấp sự hỗ trợ mềm dẻo cho việc
bảo vệ liên lạc (ví dụ như điều khiển được mức độ bảo vệ, bảo vệ các datagram trong các
protocol không đảm bảo tính tin cậy (UDP), hỗ trợ các protocol vận chuyển tin cậy khác
ngoài TCP,…) và cho phép các nhà cung cấp điều khiển các quyết định về authorization
bao gồm việc hạn chế ủy quyền theo nhiều cách khác nhau.
II.3. Tầng Resource
Tầng Resource dựa trên các protocol liên lạc và chứng thực của tầng Connectivity để xây
dựng các protocol, API và SDK nhằm hỗ trợ việc thương lượng, khởi tạo, monitoring, điều
khiển, tính toán chi phí và chi trả cho các hoạt động chia sẻ trên từng tài nguyên riêng lẻ một
cách an toàn. Bản cài đặt các protocol của tầng Resource sẽ gọi các chức năng của tầng Fabric
để truy cập và điều khiển các tài nguyên cục bộ.
Các protocol tầng Resource tập trung toàn bộ vào các tài nguyên riêng lẻ, không quan tâm
đến trạng thái toàn cục và các hoạt động trong các tập tài nguyên phân tán.
Các protocol tầng Resource được phân thành 2 dạng chính như sau:
+. Các protocol thông tin
Sử dụng để thu thập thông tin về cấu trúc và trạng thái các tài nguyên ví dụ như
cấu hình hiện tại, tải hiện tại, chính sách sử dụng,…
+. Các protocol quản lý
Sử dụng để thượng lượng truy xuất đến một tài nguyên chia sẻ, xác định rõ, ví dụ,
các yêu cầu về tài nguyên (bao gồm luôn việc giữ chỗ tài nguyên và chất lượng dịch vụ)
Ứng dụng Công nghệ Grid trong DM - 7 -
NGUYỄN TRẦN MINH KHUÊ – CH0401022
và các thao tác cần được thực hiện như tạo tiến trình, hoặc truy xuất dữ liệu. Do các
protocol quản lý chịu trách nhiệm đại diện cho các quan hệ chia sẻ, chúng phải phục vụ
như một “policy application point”, để đảo bảo các hoạt động sử dụng tài nguyên phù hợp
với các chính sách chia sẻ tài nguyên, bao gồm luôn việc tính toán và chi trả chi phí. Mỗi
protocol cũng nên hỗ trợ việc theo dõi trạng thái và điều khiển các hoại động.
Với những yêu cầu như vậy, tập các protocol tầng Resource (và Connectivity) nên nhỏ
gọn và tập trung. Các protocol này chỉ nên đáp ứng được các cơ chế chia sẻ với nhiều loại tài
nguyên khác nhau (ví dụ, các hệ thống quản lý tài nguyên cục bộ khác nhau) là đủ.
Các chức năng chính của tầng Resource cũng giống như của tầng Fabric cộng thêm ngữ
nghĩa của nhiều hoạt động, với cơ chế báo lỗi tin cậy khi hoạt động không thành công.
II.4. Tầng Collective
Trong khi tầng Resource tập trung vào các tài nguyên đơn lẻ, tầng Collective chứa các
protocol, service, API, SDK không liên hệ đến bất kỳ một tài nguyên cụ thể nào mà thực hiện
quản lý toàn cục, tập trung vào các giao tác giữa các tập hợp tài nguyên.
Tầng Collective có thể bổ sung thêm nhiều loại hoạt động chia sẻ mới ngoài những gì đã
có từ tầng Resource mà không cần bổ sung thêm các yêu cầu mới cho các tài nguyên đang
được chia sẻ. Ví dụ:
+. Directory service
Cho phép các thành phần tham gia VO phát hiện sự tồn tại và/hoặc đặc tính của
các tài nguyên trong VO. Một directory service có thể cho phép người truy vấn tài nguyên
qua tên và/hay các thuộc tính như kiểu, khả năng, tải, …
+. Co-allocation, scheduling, và brother service
Cho phép các thành phần tham gia VO yêu cầu cấp phát các tài nguyên cho các
mục đích cụ thể và lập lịch cho các tác vụ trên các tài nguyên tương ứng.
+. Monitoring ang dianostics sevice
Hỗ trợ việc kiểm soát các tài nguyên của VO, kiểm tra xem có bị lỗi, bị tấn công,
bị quá tải,… hay không.
+. Data replication service
Hỗ trợ quản lý tài nguyên lưu trữ của VO để tối ưu hiệu suất truy cập dữ liệu theo
các độ đo như thời gian đáp ứng, tính toàn vẹn, tin cậy, chi phí,…
+. Grid-enable programming system
Cho phép các sử dụng các mô hình lập trình hiện tại trong môi trường Grid, sử
dụng nhiều loại dịch vụ Grid để giải quyết các vấn đề như phát hiện, tìm kiếm tài nguyên,
bảo mật, cấp phát tài nguyên,…
+. Workload management system and collaboration framework
Cung cấp khả năng đặc tả, sử dụng, quản lý các workload đa thành phần, bất đồng
bộ, qua nhiều bước.
+. Software discovery service
Tìm kiếm và chọn ra các cài đặt phần mềm tốt nhất và môi trường thực thi dựa
theo ứng dụng cần được giải quyết.
+. Community authorization server
Thực hiện các chính sách cộng đồng quản lý truy cập tài nguyên, cho phép các
thành viên của cộng đồng truy cập đến các nguyên dùng chung. Các server này sử dụng
Ứng dụng Công nghệ Grid trong DM - 8 -
NGUYỄN TRẦN MINH KHUÊ – CH0401022
các dịch vụ xây dựng trên các protocol thông tin, quản lý tài nguyên của tần Resource và
protocol bảo mật ở tầng Connectivity.
+. Community accounting and payment service
Thu thập các thông tin sử dụng tài nguyên để tính toán chi phí, thực hiện chi trả
và/hoặc giới hạn việc sử dụng tài nguyên của người dùng trong cộng đồng.
+. Collaboratory service
Hỗ trợ việc trao đổi thông đồng bộ và bất đồng bộ trong cộng đồng người dùng.
Các ví dụ trên đây cho thấy các protocol và service tầng Collective rất phong phú, đa
dạng. Lưu ý rằng trong khi các protocol tầng Resource phải là các protocol tổng quát và triển
khai rộng rãi, thì các protocol tầng Collective có thể trải dài từ việc phục vụ các vấn đề chung
trong Grid đến việc phục vụ cho các lĩnh vực ứng dụng cụ thể, có thể chỉ tồn tại trong các VO
cụ thể. Theo nguyên tắc, càng phục vụ nhiều người dùng thì các protocol và API của tầng
Collective càng phải được dựa theo chuẩn.
Các chức năng của tầng Collective có thể được cài đặt như các service (với các protocol
tương ứng), hay như các bộ SDK(với các API tương ứng) được thiết kế để liên kết với ứng
dụng. Trong cả hai trường hợp, các cài đặt này có thể được xây dựng trên các protocol và API
của tầng Resource và Connectivity.
Figure 3: Collective and Resource layer protocols, services, APIs, and SDKS can be combined in a variety
of ways to deliver functionality to applications.
II.5. Tầng Application
Tầng trên cùng của kiến trúc Grid bao gồm các ứng dụng của người dùng chạy trong một
trường VO. Hình …. Minh hoạ quan điểm của các lập trình viên về kiến trúc Grid. Các ứng
dụng được xây dựng theo cách sẽ gọi các service định nghĩa bởi các tầng phía dưới.
Ví dụ : một chương trình phân tích bộ gen người cần phải chạy hàng ngàn tác vụ độc lập,
mỗi tác vụ cần nhiều file chứa thông tin từng phần của bộ gen có thể sử dụng các chức năng
Grid sau:
+. Lấy các thông tin, thẻ chứng thực (các protocol tầng Connectivity).
+. Truy vấn hệ thống thông tin Grid và các danh mục để tìm các tài nguyên thích hợp
và vị trí các file input. (các dịch vụ tầng Collective).
Ứng dụng Công nghệ Grid trong DM - 9 -
NGUYỄN TRẦN MINH KHUÊ – CH0401022
+. Gửi các yêu cầu đến các tài nguyên để thực hiện tính toán, di chuyển dữ liệu,… và
kiểm soát quá trình thực thi công việc, thông báo cho người dùng khi mọi thứ hoàn tất, dò tìm
và phản ứng với các điều kiện gây lỗi (tầng Resource).
III. ỨNG DỤNG CÔNG NGHỆ GRID TRONG DM
Riêng trong lĩnh vực khai phá dữ liệu, chúng ta có thể ứng dụng công nghệ Grid trong
bài toán luật kết hợp. Đó là bài toán áp dụng công nghệ mới sử dụng khả năng của nhiều máy
tính để tìm ra lời giải nhanh hơn. Trong bài toán này, thì điều chúng ta cần tìm đó chính là tập
luật. Vấn đề là ở chỗ do dữ liệu trong cơ sở dữ liệu rất lớn nên thời gian quét cơ sở dữ liệu
cũng rất lớn.
Ta có thể rút ngắn thời gian xử lý bằng 2 cách:
1. Sử dụng thuật giải tốt hơn, có độ phức tạp tính toán thấp hơn
2. Sử dụng công nghệ mới, chia sẻ năng lực tính toán cho nhiều máy tính
Rõ ràng, từ trước đến nay, đã có nhiều công trình nghiên cứu đưa ra các thuật giải tốt
hơn (Tham khảo Các phương pháp cải tiến của bài toán luật kết hợp trong file đính kèm).
Tuy nhiên, trong tài liệu này quan tâm đến vấn đề sử dụng công nghệ mới trong lĩnh vực khai
phá dữ liệu như thế nào. Dĩ nhiên, vấn đề cụ thể chi tiết của việc áp dụng công nghệ Grid cho
bài toán luật kết hợp như thế nào sẽ được bàn sau.
Ở đây, tài liệu này nhằm cho mọi người nắm được công nghệ Grid là gì, các đặc điểm
và kiến trúc của nó. Để từ đó, có thể thấy rằng lợi ích mà các công nghệ mới mang lại to lớn
cho tất cả các lĩnh vực, không riêng gì lĩnh vực cơ sở dữ liệu và cơ sở tri thức.
Ứng dụng Công nghệ Grid trong DM - 10 -
NGUYỄN TRẦN MINH KHUÊ – CH0401022
Để hiểu rõ hơn về bài toán luật kết hợp có thể tham khảo:
1. Giáo trình khai thác dữ liệu, TS. Đỗ Phúc, NXB Đại học quốc gia TP.HCM, 2005
2. Data Mining Algorithms, Vipin Kumar, Department of Computer Science,
University of Minnesota, Minneapolis, USA
Ứng dụng Công nghệ Grid trong DM - 11 -