Tải bản đầy đủ (.pdf) (27 trang)

BÁO CÁO SEMINAR MÔN HỌC TÍNH TOÁN LƯỚI Tìm hiểu về COMPUTING & ESCIENCE

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.85 MB, 27 trang )

TRƯỜ
NG
KHOA
BÁO CÁO
ðề tài:
GRID
C



Giảng viên

Nhóm thự
c hi
TP H
NG ð
ẠI HỌC BÁCH KHOA TP.HCM
KHOA
KHOA HỌC MÁY TÍNH








BÁO CÁO
SEMINAR
C
OMPUTING & ES


CIENCE
o0o

: TS. Phạm Trần Vũ
c hi
ện:
Nguyễn Trí Tài
10070939
Nguyễn Quyết Thắng
10070940




TP H
ồ Chí Minh tháng 06 năm 2011

CIENCE

10070939

10070940

Grid và eScience
Mục lục
1. Giới thiệu về eScience 4
1.1. Lời mở ñầu 4
1.2. EScience là gì? 4
1.3. Dùng thuật ngữ eScience , CyberInfrastructure hay e-Research? 6
2. Những ñộng lực thúc ñẩy sự ra ñời của eScience 7

2.1. Khoa học tập trung vào dữ liệu (data-intensive) 8
2.2. Nghiên cứu khoa học dựa trên việc giả lập và mô phỏng 8
2.3. Truy xuất từ xa ñến các công cụ và dữ liệu 9
3. Cơ sở hạ tầng hiện thực cho EScience 10
3.1. Những ñặc ñiểm, tính chất mà một ứng dụng EScience cần có 10
3.2. Mô hình EScience phát triển dựa trên hệ thống lưới 11
3.3. Những thử thách khi hiện thực một hệ thống EScience 13
3.4. Tổ chức hay cộng ñồng ảo 14
4. Viễn cảnh eScience mang lại cho khoa học 14
5. Sơ lược một số chương trình EScience của vương quốc Anh 14
5.1. Các dự án khởi ñầu (pilots project) của eScience 15
a. RealityGrid 15
b. Comb-e-Chem 15
c. Distributed aircraft maintenance environment (DAME) 16
d. myGrid 16
e. GridPP 16
f. AstroGrid 17
5.2. EScience Core Programme 17
a. Hiện thực hạ tầng mạng kết nói các EScience Centres 17
b. ðịnh hướng cho sự phát triển Grid middleware 18
c. Interdisciplinary Research Collaboration (IRC) 18
d. Danh sách các dự án hiện tại của eScience UK 18
6. Ứng dụng eScience trong nghiên cứu về thiên văn 19
6.1. eScience và thiên văn học 19
a. Thiên văn học 19
b. Dữ liệu thiên văn học 20
c. Ứng dụng eScience trong thiên văn học 20
d. Thuật ngữ 20
6.2. Virtual Observatory 21
a. Giới thiệu 21

b. Kiến trúc của VO 21
c. Virtual Observatory trên thế giới 22
6.3. Image Computing 23
a. Virtual Sky 23
6.4. Database Computing 24
a. VOTable 24
b. Khai phá dữ liệu và vấn ñề ảo hóa 26
7. Tài liệu tham khảo 27






1. Giới thiệu về eScience
1.1. Lời mở ñầu
Sự hiểu biết của chúng ta về

thế giới cũng vì thế mà thay ñổ
i. N
duy chủ quan ñể ñánh giá,
xem xét
triển của các ngành khoa học th

khoa họ
c máy tính giúp chúng ta nh
Hãy xem xét một số vấn ñề
c
ñen va chạm với nhau? Các yế
u t

như thế nào? Một trong hàng tỷ

Collider) sẽ tạo ra ñược
Higgs boson, l
trụ.
Liệu khoa học thực tại có kh

Sự phát minh ra các mạng c

khối lượng dữ liệu khổng lồ
. Ngu
giới tự nhiên gửi ñế
n cho con ngư
tích khối dữ liệu khổng lồ này.
Có thể nói khoa học hiện ñạ
i là khoa h
các chuyên gia trên tòan thế giớ
i ñ
khoa học tòan cầu ñủ sức ñáp ứ
ng nhu c
1.2. EScience là gì?

Có nhiều ñịnh ngh
ĩa, quan ñi
nhiều chuyên gia về eScience ñể

Thuật ngữ EScience ñượ
c John Taylor, t
Hiệp Anh ñưa ra v
ào năm 1999 và

ñầu từ tháng 11-2000.


thế giới ngày càng trở nên sâu sắc. Cách thứ
c con ng
i. N
ếu như trước ñây họat ñộng khoa học thường s

xem xét
các sự vật, hiện tượng và phỏng ñóan thế giớ
i thì ngày nay s

c nghiệm ñược nâng tầm bởi những công nghệ
tiên
c máy tính giúp chúng ta nh
ận thức ñầy ñủ và chính xác hơn về thế giới.
c
ủa thời ñại: ðiều gì sẽ xảy ra với không gian và
th
u t
ố nào ảnh hưởng trực tiếp ñến sự thay ñổi củ
a khí h

tỷ va chạm của các hạt trong các thí nghiệm của
LHC (
Higgs boson, l
ỗ ñen hay vật chất tối? ðâu là nguồn gốc củ
a con ng

năng ñưa ra những câu trả lời thõa ñáng ?


m biến, các hệ thống thu thập dữ liệu lớ
n giúp chúng ta l
. Ngu
ồn dữ liệu này là vô cùng quý giá, chúng là nhữ
ng thông
n cho con ngư
ời. Tuy nhiên ñể hiểu biết ñược thế giới ñòi hỏ
i con ng
i là khoa h
ọc dựa trên nền tảng phân tích dữ liệ
u. Các ngành khoa h
i ñ
ứng trước yêu cầu này phải hợp tác với nhau tạ
o nên m
ng nhu c
ầu của thời ñại.
ñi
ểm khác nhau về eScience. Trong báo cáo sẽ
trình bày quan
có ñư
ợc cái nhìn rộng hơn về khái niệm này.
c John Taylor, t
ổng giám ñốc của Phòng khoa họ
c và công gh
m 1999 và ñư
ợc dùng ñể mô tả một dự án với số vốn lớn tạ
i Liên Hi
c con ngư
ời cảm nhận về


dụng rất nhiều tư
i thì ngày nay s
ự phát
tiên
tiến của ngành
th
ời gian khi hai lổ
a khí h
ậu? Protein sẽ ñảo
LHC (
Large Hadron
a con ngư
ời, của vũ
n giúp chúng ta l
ấy ñược một
ng thông ñi
ệp mà thế
i con ngư
ời phải phân
u. Các ngành khoa h
ọc,
o nên m
ột cộng ñồng

trình bày quan
ñiểm của
c và công gh
ệ của Liên
i Liên Hi

ệp Anh, bắt
“e” trong eScience không phải là một từ viết tắt mà nó có mang là khó và phức tạp. EScience theo
một cách có thể ñược hiểu là một kiến trúc hướng tới cái gọi là “khoa học mở”.
Theo Dr John Taylor
:”
EScience là thuật ngữ nói về sự hợp tác tòan cầu trong những ngành khoa
học trọng ñiểm và cơ sở hạ tầng thế hệ thế hệ mới hiện thực sự hợp tác tòan cầu nói trên”.
Theo Dr Tony Hey, giám ñốc dự án của UK eScience, thì EScience chính là một hạ tầng cơ sở cho
các ngành khoa học phát triển (e-Infrastructure), nhờ vào khả năng cung cấp kết nối và các dịch vụ tính
toán, truy cập thông tin, ứng dụng ngày càng rộng lớn mà khoa học máy tính ñang ñem lại cho các nhà
khoa học. Tony Hey cho rằng chúng ta hiện ñang tiến vào kỷ nguyên “khoa học tập trung vào dữ liệu”
(data-centric science). Bản chất của ngành khoa học này là tập hợp dữ liệu, thường với số lượng lớn và
từ nhiều nguồn khác nhau, rồi khai thác chúng ñể biết ñược những nội dung vốn sẽ không bao giờ xuất
hiện nếu công việc này ñược làm thủ công hoặc từ việc phân tích bất kỳ một nguồn dữ liệu ñơn lẻ nào.
John Taylor, năm 2011:” eScience sẽ thay ñổi một cách tích cực cái cách mà khoa học ñang thực
hiện”.

Kỷ nguyên của khoa học tập trung vào dữ liệu

Theo giáo sư Malcolm Atkinson, giám ñốc NeSC tại Edinburgh và trung tâm eScience quốc gia của
Liên Hiệp Anh: “eScience là sự phát triển có hệ thống của các phương pháp nghiên cứu ñòi hỏi nhiều
sự tính toán”. Theo ông, eScience sẽ thay ñổi cách con người làm việc, giúp giải quyết các vấn ñề
nhanh hơn. Con người sẽ tập trung những nỗ lực của các cộng ñồng khoa học, huy ñộng những dữ liệu
ñược chia sẻ và sức mạnh tính toán ñể ñối mặt với những thách thức cấp bách. Một khi các trang web
cho phép chúng ta chia sẻ thông tin, khoa học ñiện tử sẽ cho phép các nhóm nghiên cứu cộng tác ñể
biến dữ liệu thành thông tin và kiến thức.

Các công việc nghiên cứu phức tap, ñòi hỏi nhiều thời gian và nỗ lực
Giáo sư Jon Kleinberg, ðại học Cornell, nói: “Một xu hướng ñang ngày càng trở nên rõ ràng là
khoa học máy tính không còn là ngành cung cấp công cụ máy tính cho các nhà khoa học. Nó thực sự

trở thành một phần của cách thức các nhà khoa học xây dựng học thuyết và suy nghĩ về những vấn ñề
của họ”. Theo ông Kleinberg, vai trò của thuật toán máy tính ñối với khoa học trong thế kỷ 21 cũng sẽ
tương tự như vai trò của toán học (ñối với khoa học) trong thế kỷ 20.
Giáo sư Kleinberg nói thêm rằng kho dữ liệu khổng lồ trên Internet sẽ thay ñổi thực tiễn của những
ngành khoa học liên quan ñến hành vi con người. Theo lý giải của ông, số lượng dữ liệu khổng lồ và
các phương pháp phân tích mới hiện nay ñồng nghĩa với việc các nhà khoa học sẽ không còn phải lập
công thức chi tiết về những học thuyết và mô hình rồi kiểm chứng chúng trên dữ liệu thực nghiệm.
Tony Blair, thủ tướng nước Anh, năm 2002: “EScience ñược ñịnh hướng làm cho việc tận dụng
nguồn lực to lớn của ngành khoa học máy tính, hệ thống tài nguyên dữ liệu khoa học và những thiết bị
thực nghiệm tối tân dễ dàng như Web ñể truy cập thông tin”.
Tóm lại, eScience không phải chỉ là sự truyền tải trên nền tảng băng thông rộng cũng không phải là
các máy tính hiệu suất cao HPC (High Performance Computers) chạy các chương trình mô phỏng
thông qua hệ thống lưới. Nói về eScience là nói về việc khai phá dữ liệu kỹ thuật số ñể phục vụ cho tất
cả các họat ñộng, các nhu cầu của khoa học, nói về cơ sở hạ tầng hỗ trợ cho các ngành khoa học quy
mô lớn thông qua sự hợp tác tòan cầu dựa trên nền tảng tính tóan lưới, nói về một cộng ñồng ảo ñể các
nhà khoa học các chuyên gia có thể trên ñó làm việc với nhau bất kể họ ñang ở ñâu trên thế giới, nói về
việc chia sẻ và truy cập tòan cầu vào hệ thống tài nguyên khoa học.

1.3. Dùng thuật ngữ eScience , CyberInfrastructure hay e-Research?

Thuật ngữ EScience gần giống, nhưng không hoàn toàn, ñồng nghĩa với thuật ngữ
CyberInfrastucture. Trong khi EScience xuất xứ từ UK và châu Âu, CyberInfrastucture bắt nguồn từ
US. Cả hai thuật ngữ ñều ñề cập ñến việc sử dụng các công nghệ tính toán dựa trên môi trường mạng ñể
hỗ trợ sự cộng tác và cải tiến các phương pháp trong nghiên cứu khoa học. Trong khi EScience chú
trọng hơn ñến nghiên cứu khoa học, thì CyberInfrastructure bao gồm cả các lĩnh vực ngoài khoa học,
nhấn mạnh ñến sự kết hợp giữa các nguồn tài nguyên siêu tính toán và sự cách tân.
Một số nhà nghiên cứu khác lại thích sử dụng một thuật ngữ khác: e-Research. e-Research là sự mở
rộng của EScience và CyberInfrastructure, bao gồm các lĩnh vực khác như khoa học xã hội và con
người. e-Research nhấn mạnh ñến việc sử dụng công nghệ thông tin ñể hỗ trợ các phương thức nghiên
cứu hiện tại và tương lai.

Một số nhà nghiên cứu khác lại thích sử dụng một thuật ngữ khác: e-Research. e-Research là sự mở
rộng của EScience và CyberInfrastructure, bao gồm các lĩnh vực khác như khoa học xã hội và con
người. e-Research nhấn mạnh ñến việc sử dụng công nghệ thông tin ñể hỗ trợ các phương thức nghiên
cứu hiện tại và tương lai.
Các ñặc ñiểm chính của e-Research bao gồm:
• Sự cộng tác.
• Sử dụng công nghệ tính toán lưới.
• Tập trung vào dữ liệu.
2. Những động lực thúc đẩy sự ra đời của eScience
EScience là nhân tố cơ bản cho các phát triển trong khoa học. Khát vọng và mục tiêu của các nhà
khoa học ngày càng lớn, nhưng nếu thiếu EScience, những ý tưởng ñầy cảm hứng sẽ thất bại tại chướng
ngại ñầu tiên. Một lý thuyết hay giả thuyết khoa học (bước khởi ñầu trước khi tiến hành bất cứ thí
nghiệm nào) cũng ñòi hỏi phải thu thập một lượng thông tin khổng lồ.
Nghiên cứu khoa học, hiển nhiên, ñòi hỏi những các nhân chuyên nghiệp từ nhiều ngành khác nhau.
Tuy nhiên, cũng có các nghiên cứu ñặc biệt chỉ yêu cầu các yếu tố ñầu vào, tri thức, và kĩ năng của các
nhà khoa học trên thế giới. ðiều này làm nổi bật khả năng của EScience: cho phép làm việc với khối
lượng khổng lồ dữ liệu và thông tin trên thế giới.
Nếu khoa học phát triển và các phát minh mới ñược tạo ra, EScience chính là yếu tố kích thích, thúc
ñẩy, ñộng lực cho sự phát triển ñó. Các nhóm nghiên cứu tại Liên Hiệp Anh vừa hoạt ñộng như các
thực thể ñơn lẻ, vừa tạo thành các nhóm ñể ñáp ứng các cải tiến công nghệ cần thiết khi tri thức, hiểu
biết khoa học gia tăng. Còn rất nhiều vấn ñề mà con người chưa giải quyết ñược. Ví dụ như các dịch
bệnh chưa có cách chữa trị, các hiện tượng bất thường ñầy bí ẩn không thể giải thích ñược, và các rào
cản chưa thể vượt qua.
EScience chính là ñộng lực cho việc giải quyết các vẫn ñề trên. EScience cung cấp cho các nhà
khoa học, các nhà nghiên cứu một cấu trúc qua ñó họ có thể làm việc ñể khám phá ra các tri thức chưa
ñược biết. Nếu không có khả năng lưu trữ dữ liệu, khả năng chia sẻ, liên hệ thông tin trên toàn
cầu, khoa học sẽ dẫm chân tại chỗ.
2.1. Khoa học tập trung vào dữ liệu (data-intensive)
Sự phát triển của khoa học kỹ thuật dẫn ñến các thiết bị nghiên cứu ngày càng có ñộ chính xác cao
hơn ñiều này cũng làm cho khối lương dữ liệu mà nó sinh ra ngày càng nhiều theo ước tính thì ñến vài

petabyte dữ liệu sẽ ñươc tạo ra trong các thí nghiệm của thiên văn học, y học, vật lý nguyên tử, năng
lượng, môi trường.
Large Hadron Collider (LHC) là một dự án của CERN ñặt tại Geneve khi vận hành trở lại vào cuối
năm 2009 có thể sinh ra một lượng dữ liệu lên ñến vài petabyte hàng năm. LHC là dự án lớn nhất từ
trước ñến nay trong lĩnh vực vật lý. Mỗi thí nghiệm muốn tiến hành cẩn phải có ñến sự cộng tác của
hơn 5000 nhà vật lý trên toàn thế giới. Quá trình phân tích dữ liệu thu thập ñược cũng cần phải có sự
cộng tác của các nhiều tổ chức tham gia mục tiêu, là tìm ra dấu hiệu của Higgs boson.
Các thiết bị theo dõi và tiên ñoán sự cố trong công nghiêp cũng có thể tạo ra một lượng lớn dữ liệu.
Các thiết bị cảm ứng dùng ñể theo dõi nhiệt ñộ, áp suất, chấn ñộng trong các mỗi ñộng cơ của hàng
ngàn ñộng cơ do Rolls-Royce sản xuất cho các phi cơ của trans-Alantic có thể sinh ra hàng petabyte dữ
liệu hàng năm.


2.2. Nghiên cứu khoa học dựa trên việc giả lập và mô phỏng
Mô phỏng (numerical simulation) là một hướng giải quyết các vấn ñề khoa học mà dựa chủ yếu vào
việc sử dụng các siêu máy tính ñể thực hiện mô phỏng các hiện tượng tự nhiên như sự biến ñổi của khí
hậu hay sự kết hợp của các lổ ñen trong thiên văn học, ñộng ñất, lũ, …

Mô phỏng một dòng sông khi ñổ ra biển
Năm 2003, Japanese Earth Simulator ñã thực hiện mô phỏng khí hậu của trái ñất với một siêu máy
tính có tốc ñộ xử lý lên ñến 40 teraflop/sec ñể có thể mô phỏng hơn10km theo chiều rộng và khối lượng
dữ liệu sinh ra cho mỗi lần mô phỏng lên ñến vài chục terabyte.
Trong lĩnh vực hóa thì các thí nghiệm có thể thực hiện thông qua các máy tính với các tập dữ liệu
sẵn có về các hóa chất và những ñặc tính của chúng thì việc tiến hành các thí nghiệm có thể thực hiện
một cách nhanh chóng. Các phân tử mới có thể ñược tạo ra từ các thao tác trên máy tính thay vì tiến
hành ở phòng thí nghiệm. Comb-e-Chem một trong những dự án (pilot project) thuộc EScience ñã hiện
thực ý tưởng này, mục tiêu của dự án là tạo ra các kết hợp mới sau ñó sẽ xác ñịnh cấu trúc và thuộc tính
của các hợp chất mới ñược tạo ra ñể tìm kiếm các công thức hóa học mới. Việc tổng hợp sẽ ñược thực
hiện song song và có thể tạo ra hàng trăm nghin tổ hợp cùng lúc.
2.3. Truy xuất từ xa đến các công cụ và dữ liệu

Mô phỏng và phân tích dữ liệu ñóng vai trò ngày càng quan trọng trong các lĩnh vực khoa học ngày
nay, tuy nhiên, việc tiến hành các thí nghiệm thực tế cũng không thể thiếu ñược. Ngày càng có nhiều
thiết bị thí hỗ trợ nghiên cứu mới ñược phát triển, bên cạnh ñó thì hạ tầng mạng băng thông cũng ngày
càng mở rộng, cho phép các nhà nghiên cứu có thể kết hợp các thiết bị này lại với nhau ñể tiến hành các
thí nghiệm phức tạp ñòi hỏi sự tham gia của các chuyên gia trong nhiều lĩnh vực. Việc thiết kế, tiến
hành và giám sát các thí nghiệm có thể ñược thực hiện thông qua mạng internet bằng cách truy xuất từ
xa vào thiết bị.
Network for Earthquake Engineering Simulation (NEES) là chương trình do NSF phát triển dưới sự
chỉ ñạo của George E. Brown Jr nhằm tìm cách giảm thiệt hại của các trận ñộng ñất thông qua việc sử
dụng các công cụ ñể giả lập các trận ñộng ñất và từ ñó có thể tìm ra ñược các câu trúc cũng như vật liệu
mới có thể chịu ñược các cơn chấn ñộng. NEESgrid ñược triển khai nhằm liên kết các nhà khoa học ở
US có thể chia sẻ cũng như kết hợp các thiết bị thí nghiệm, nguồn dữ liệu và cả nguồn tài nguyên tính
toán. NEESgrid middleware cho phép các nhóm cộng tác với nhau (bao gồm cả các thành viên ñăng
nhập từ xa) lên kế hoạch, thiết kế, và tiến hành các thực nghiệm sau ñó nguồn dữ liệu thu ñược chia sẻ
ñể xử lý. NEESgrid cho phép các cộng tác viên có thể ñăng nhập từ xa ñể theo dõi cũng như vận hành
các thí nghiệm ñã ñược chuẩn bị sẵn, bên cạnh ñó họ cũng ñược cho phép sử dụng các tài nguyên tính
toán vả các công cụ phân tích mả nguồn mở ñể xử lý nguồn dữ liệu thu ñược. NEESgrid hỗ trợ việc chi
sẻ dữ liệu thông qua cung cấp nơi lưu trữ, chuẩn cho ñịnh dạng dữ liệu và metadata.


Mô hình NEESgrid
3. Cơ sở hạ tầng hiện thực cho EScience
3.1. Những đặc điểm, tính chất mà một ứng dụng EScience cần có:
• Lưu trữ: Một hệ thống cần phải có khả năng lưu trữ và xử lý một lượng dữ liệu khổng lồ
một cách hiệu quả với thời gian hợp lý.
• Quyền sở hữu: Các bên liên quan cần ñược bảo lưu quyền sở hữu về những nội dung và
khả năng xử lý của họ. Tuy nhiên cũng cần phải cho phép người khác truy cập dưới các
ñiều kiện và hoàn cảnh thích hợp.
• Nguồn gốc: Việc lưu trữ các thông tin ñáng tin cậy cho phép sử dụng lại các kết quả, thử
nghiệm, hay cung cấp bằng chứng về việc có ñược các thông tin ñó.

• Trong suốt: Người dùng cần có khả năng tìm ra, truy cập và xử lý các nội dung liên quan
bất cứ khi nào chúng xuất hiện trên Grid mà không cần biết nó nằm ở ñâu.
• Cộng ñồng: Phải cho phép hình thành, hoạt ñộng, và giải tán các cộng ñồng ảo với
những tiêu chuẩn giới hạn thành viên và ñiều khoản hoạt ñộng.
• Kết hợp: Thông tin cần phải ñược kết hợp từ nhiều nguồn, bằng nhiều cách khác nhau
theo nhu cầu của người dùng. Các mô tả về nguồn gốc, nội dung sẽ ñược dùng ñể kết hợp
nên các thông tin ñầy ñủ nghĩa.
• Hội nghị: ðôi khi việc nhìn thấy các thành viên khác của một hội nghị, các mô hình,sự
hiển thị của những gì ñang ñược thảo luận sẽ rất hữu dụng.
• Chú giải: Từ việc ghi nhận thông tin cho ñến xuất bản các phân tích, cần thiết phải có
các chú giải ñể làm giàu thêm mô tả về các nội dung số. Các siêu nội dung này có thể áp
dụng cho dữ liệu, thông tin, hay tri thức và phụ thuộc vào cách diễn giải quy ước.
• Quy trình: ðể hỗ trợ quá trình ban hành và tự ñộng hóa các xử lý, hệ thống cần mô tả về
các xử lý ñó.
• Thông báo: lời nhắc về việc có các thông tin mới tới cho phép thông báo cho người dùng
và bắt ñầu quá trình xử lý tự dộng.
• Hỗ trợ quyết ñịnh: Các kỹ thuật viên, nhà khoa học cần ñược cung cấp các thông tin và
gợi ý xác ñáng về vấn ñề của họ.
• Bảo lưu tài nguyên: Cần làm cho quá trình bảo lưu tài nguyên trở nên dễ dàng. ðiều này
áp dụng cho các dụng cụ thí nghiệm, sự cộng tác (hội nghị…), và sắp xếp tài nguyên cho
quá trình mô phỏng.
• An ninh: Có những yêu cầu về xác thực, mã hóa, và tính riêng tư với sự tham gia của
nhiều tổ chức. Và các yêu cầu này cần ñược xử lý với sự can thiệp thấp nhất của con
người.
• Tin cậy: Hệ thống trông có vể ñáng tin cậy nhưng thật ra có cần xử lý những lỗi và ngoại
lệ ở nhiều mức khác nhau, bao gồm cả quy trình thực hiện.
• Video: Cả video trực tiếp và ñược lưu trữ ñều có vai trò nhất ñịnh, nhất là khi các video
này ñược làm giàu thêm bởi các siêu nội dung liên quan tạm thời.
• Phòng thí nghiệm thông minh: Một ví dụ: khi các dụng cụ dò ra các mẫu (như thẻ
barcode hay thẻ RFID), nhà khoa học dùng các thiết bị di ñộng ñể ghi lại, và sự hiện hình

hóa có thể ñược thực thi trong phòng thí nghiệm. Các công cụ từ xa có thể cho biết sự tồn
tại của chúng, kết hợp với nhau, và thông báo về nội dung mà chúng nhận ñược.
• Tri thức: Tri thức hoạt ñộng như một bộ phận quan trọng của EScience. Ví dụ như: tìm
kiếm tài liệu, con người, và các thiết kế thực nghiệm trước ñó, chú thích cho các phân
tích ñược ñăng tải, và thiết lập phòng thí nghiệm cho con người.
• Sự phát triển: Hệ thống phải hỗ trợ sự phát triển mang tính cách mạng khi các nội dung
và kỹ thuật xử mới hiện hữu.
• Quy mô: Quy mô của sự cộng tác khoa học tăng lên cùng với sự phát triển của tính toán,
băng thông, khả năng lưu trữ, và ñộ phức tạp trong mối quan hệ giữa các thông tin.

3.2. Mô hình EScience phát triển dựa trên hệ thống lưới:

ðể hiện thực một hệ thống EScience với những tính chất trên ñòi hỏi phải ñầu tư xây dựng
một cơ sở hạ tầng vật lý hiện ñại (Petabyte Archival Storage, Terabit Networks, Sensor
Networks, Teraop Supercomputers) và một cơ sở hạ tầng phần mềm ñược thiết kế với quan
niệm mới hướng tới khoa học mở và sự hợp tác tòan cầu.
Chính phủ các nước tiên tiến hiện nay ñều nhận thấy ñược tầm quan trọng của việc xây
dựng một hệ thống quy mô lớn như EScience ñể nâng cao vị thế của quốc gia mình. Trong bối
cảnh thế giới hiện tại, EScience ñược tập trung phát triển dựa trên nền tảng hệ thống lưới hiện
có.

A eScience Grid based framework
Kiến trúc mới phải hướng tới vịêc ñơn giản hóa họat ñộng nghiên cứu khoa học với sự hỗ trợ của
hệ thống máy tính tính tóan lưới. Phát triển cơ sở hạ tầng phần mềm phải hướng ñến việc trong suốt hóa
sự phức tạp của hệ thống vật lý ñối với các chuyên gia, các nhà khoa học ñể họ có thể tập trung vào
chuyên môn khoa học của mình.


Mô hình phần mềm trong suốt sự phức tạp của hạ tầng vật lý ñối với những người làm khoa học
3.3. Những thử thách khi hiện thực một hệ thống EScience

Những khó khăn khi hiện thực hệ thống EScience
(bởi Tony Hey Director of UK EScience Core Program )
Những thử thách ñể ñáp ứng yêu cầu, tiêu chí cho một mô hình tương lai:
- Phát triển hệ thống lưới ngữ nghĩa (Semantic Grid)
- Xây dựng một hệ thống tin cậy phổ biến rộng khắp (Trusted Ubiquitous Systems)
- Hệ thống phải ñáp ứng nhanh với những yêu cầu thay ñổi trong khoa học (Rapid Customized
Assembly of Services)
- Hệ thống tính tóan tự ñộng vận hành (Autonomic Computing): self-managing characteristics of
distributed computing resources, adapting to unpredictable changes whilst hiding intrinsic complexity
to operators and users
Những khó khăn khi triển khai hệ thống vào thực tiễn họat ñộng có thể gặp phải:
- Vấn ñề hỗ trợ cho một mô hình cộng ñồng mới, cộng ñồng khoa học
- Những khó khăn trở ngại ñến từ mặt kinh tế xã hội (Socio-Economic Impact): khái niệm về khoa
học mở không mới nhưng ñể tiến ñến tiêu chí ñó không phải là ñiều dễ dàng. Khoa học mở không ñồng
nghĩa với khoa học phi lợi nhuận, ñi ngược lại các quy luật kinh tế xã hội.
- Vấn ñề về sở hữu trí tuệ và bản quyền: ñây cũng là một trong những vấn ñề rất quan trọng cần
ñược xem xét cẩn thận. Việc chia sẻ các kinh nghiệm, các kết quả nghiên cứu, các công trình trong môi
trường mở phải ñảm bảo ñược lợi ích chính ñáng của người làm khoa học.
3.4. Tổ chức hay cộng đồng ảo:
Phần lớn các nghiên cứu khoa học ngày nay phải cần có sự tham gia của các nhà khoa học trong các
lĩnh vực khác nhau và các trung tâm nghiên cứu ñặt ở khắp nơi trên thế giới, nên làm thế nào ñể việc
cộng tác này trở nên hiệu quả và ít chịu ảnh hưởng bởi yếu tố ñịa lý là vấn ñề cấp bách cần giải quyết.
Từ ñó, các cộng ñồng khoa học ảo hình thành (VO) dựa trên nền tảng của internet tốc ñộ cao. Các thành
viên trong VO ở các vị trí ñịa lý khác nhau trên thế giới sẽ ñóng góp tài nguyên tính toán và cho phép
truy xuất từ xa các các thiết bị thí nghiệm. Các tài nguyên của VO sẽ ñược kết dính lại với nhau như
một thể thống nhất cho các thành viên trong VO sử dụng.
4. Viễn cảnh eScience mang lại cho khoa học:
• Hiện thực những ý tưởng phức tạp
Các nhà khoa học ñang và luôn luôn cố gắng tìm hiểu những gì mà họ chưa bao giờ biết, khai phá
những nơi họ chưa từng chạm ñến trước ñây. EScience và những sự hỗ trợ mà nó mang lại cho khoa

học sẽ tạo nên những ñộng lực cho khoa học phát triển trên một con ñường vững chắc. Chúng ta có
quyền nghĩ ñến những phát minh, sáng chế, những ý tưởng ñủ sức thay ñổi thế giới và giải phóng con
người.
• Cải thiện nền giáo dục
Nếu EScience mang mục tiêu là cải thiện hình ảnh của nó và xa hơn nữa là tầm ảnh hưởng của nó
trong nghiên cứu khoa học thì một ñiều tất yếu là thế hệ những sinh viên, những nghiên cứu sinh sau
này sẽ ñược học tập và huấn luyện ñể sử dụng những thành tựu khoa học máy tính này. Việc cải thiện
trình ñộ của thế hệ tương lai cũng như ñảm bảo cho sự phát triển của giáo dục là một ñiều tất yếu.
• Sự phát triển mang tính quốc tế
EScience mang lại sự thành công tất yếu trong tương lai vì những phương pháp và công nghệ ñược
sử dụng và chia sẻ không phải chỉ trong phạm vi nước Anh mà là trên tòan thế giới.
5. Sơ lược một số chương trình EScience của vương quốc Anh:
Vào năm 2000 chính phủ Anh xem xét một khoảng kinh phí £98M trong 3 nằm tài trợ cho OST
dùng ñể phát triển EScience. EScience ñược triển khai trong hầu hết các lĩnh vực khoa quan trọng và
kinh phí ñược phân bổ cho các trung tâm: Biotechnology and Biological Sciences Research Council
(BBSRC), Council for the Central Laboratory of the Research Councils (CCLRC), Engineering and
Physical Sciences Research Council (EPSRC), Economic Social Research Council (ESRC), Medical
Research Council (MRC), Natural Environment Research Council (NERC) và the Particle Physics and
Astronomy Research Council (PPARC). ðặc biệt PPARC ñược tài trợ một khoảng £26M nhằm xây
dựng một một hạ tầng cần thiết ñể có thể tham gia hỗ trợ cho LHC. Daresbury and Rutherford (CLRC)
ñược cung cấp một khoảng £5M dùng ñể triển khai Grid (Grid-enable) cho các thí nghiệm của họ.
Khoảng £10M dùng ñể triển khai một siêu máy tính có tốc ñộ xử lý lên ñến Teraflop dùng ñể cung cấp
tài nguyên tình toán cho EScience. Phần còn lại khoảng £15M kết kết hợp với nguồn tài trợ (£20M)
của các doanh nghiệp dùng ñể triển khai “eScience Core Programme”.
5.1. Các dự án khởi đầu (pilots project) của eScience
a. RealityGrid
Dự án này ñược thực hiện dưới sự lãnh ñạo của giáo sư Peter Coveney với sự tham gia của các
trửơng ðại học Edinburgh, Loughborough, Manchester, and Oxford. Mục tiêu của dự án này là mô hình
hóa cấu trúc phân tử của vật rắn và cung cấp một môi trường hỗ trợ việc tạo ra các vật chất mới. Các
máy tính hiệu năng cao sẽ ñược sử dụng ñể xây dựng một môi trường trực quan biểu diễn các mô hình

này và cung cấp các tiện ích. ðây sẽ là môi trường cho những người làm khoa học trực quan hóa cấu
trúc của vật thể, so sánh với thực tế và tích hợp vào dữ liệu thực nghiệm.
b. Comb-e-Chem
Comb-e-Chem ñược thực hiện dưới sự cộng tác của các trường ðại học Southampton và Bristol, do
Dr. Jeremy Frey lãnh ñạo. Comb-e-Chem chủ yếu dùng ñể tạo ra các hợp chất mới thông qua việc áp
dụng các phương pháp kết hợp giữa các hóa chất với nhau. Phương pháp kết hợp ñể tìm ra các hợp chất
mới từ một nguồn dữ liệu về các tính chất hóa học, dữ liệu ñược tích lũy ngày càng lớn. ðể ñạt ñược
hiệu quả cao thì một platform sử dụng hạ tầng Grid ñươc sử dụng kết hợp các cấu trúc ñược sinh ra và
nguồn dữ liệu tri thức ñược ñã ñược lưu trữ. Platform ñược xây dựng phải hỗ trợ việc chọn lọc dữ liệu,
bao gồm việc tạo ra dữ liệu cũng như khả năng xử lý dữ liệu. Ngoài ra, Comb-e-Chem còn cung cấp
giao diện ñể tương tác với người sử dụng cho phép thực hiện các bước mô hình hóa, thiết kế và thực
hiện các thí nghiệm từ xa (online accessable).

Comb-e-Chem
c. Distributed aircraft maintenance environment (DAME)
ðây là dự án theo dõi ñộ an toàn của các chuyến bay thông bằng cách lắp ñặt các thiết bị cảm ứng ở
ñộng cơ máy bay. Các thiết bị này sẽ liên tục gửi dữ liệu về cho các trạm (Grid node) ở mặt ñất ñể tiến
hành xử lý và cho biết thông tin hiện tại (real-time) của máy bay. ðây là dự án có sự tài trợ của Rolls-
Royce.



DAME
d. myGrid
Dự án này có sự tham gia của nhiều thành viên nhất bao gồm các trường ðại học Manchester,
Southampton, Nottingham, Newcastle, và Sheffield hợp tác với viện công nghệ sinh học Châu Âu. Mục
tiêu của myGrid là phát triển một hạ tầng (infrastructure) phía bên hạ tầng của Grid (Grid
infrastructure) nhằm giúp cho các nhà khoa học có thể dễ dàng sử dung các hệ thống tài nguyên ñược
phân bố trên Grid. Một workbench riêng cho các nhà khoa học (e-Scientist’s workbench) sẽ ñược phát
triển, workbench sẽ thay ñổi tùy theo nhu cầu của thực nghiên cứu. Vì myGrid ñược thiết kế và phát

triển nhằm cho các ứng dụng về cộng nghệ sinh học nên phải cung cấp hai môi trường ứng dụng, một
dùng ñể hỗ trợ quá trình phân tích dữ liệu gen, hai là dùng ñể giải thích cho các mẫu dữ liệu. GSK,
AstraZeneca, IBM and SUN là các doanh nghiệp cộng tác phát triển dự án myGrid.
e. GridPP
GridPP ñược hình thành dựa trên sự hợp tác của các nhà vật lý học và các chuyên gia trong lĩnh vực
khoa học máy tính của UK và CERN. GridPP phát triển từ năm 2001 hướng theo 3 mục tiêu chính, thứ
nhất là phát triển một ứng dụng cho phép các nhà vật lý nguyên tử có thể chạy (run) các jobs trên Grid,
hai là viết một middleware dùng ñể quản lý và phân phối các công việc tính toán (computing tasks) trên
Grid bên cạnh ñó cũng phải chú trọng ñến vấn ñề bảo mật, mục tiêu còn lại của GridPP là triển khai
một hạ tầng tính toán (computing infrastructure) với các sites ñặt ở UK như là một prototype về Grid
cho LHC của CERN.
f. AstroGrid
AstroGrid ñươc xây dựng với sự tham gia của các nhà thiên văn học và các nhà khoa học máy tính
ở các trường ðại học Edinburgh, Leicester, Cambridge, Queens Belfast, UCL và Manchester. Mục tiêu
của AstroGrid là xây dựng một cơ sở hạ tầng cho Grid hỗ trợ “Virtual Observatory” (VO). VO cung
cấp một giao diện giống như ứng dụng trên desktop giúp cho các nhà thiên văn có thể khảo sát và ñánh
dấu tài nguyên trên toàn thế giới, tìm kiếm, lưu trữ và chia sẻ dữ liệu.
5.2. EScience Core Programme
EScience Core Programme ñược phát triển như là một cơ sở hạ tầng Grid chung cho các dự án
ñược miêu tả ở trên (pilot projects). Với sự cộng tác của các nhà khoa học, khoa học máy tính, và các
doanh nghiệp nhằm xây dựng và phổ biến một framework có thể ñáp ứng ñược các ứng dụng trong
nhiều lĩnh vực khoa học khác nhau cũng , thích hợp với các ứng dụng trong công nghiệp.
Cấu trúc của EScience Core Programme bao gồm sáu thành phần:
a. Hiện thực hạ tầng mạng kết nói các EScience Centres
Các EScience Centres ñươc phân bố trên khắp UK như hình bên dưới:

Các trung tâm EScience này rất quan trọng cho toàn dự án EScience vì nó giữ các vai trò:
• Phân bổ tài nguyên tính toàn, dữ liệu và cài ñặt các dịch vụ chuẩn (standard) và cơ bản ñể phục
vụ cho UK EScience Grid.
• Thu hút nguồn ñầu tư từ cộng tác của công nghiêp ñể xây dựng Grid middleware.

• Phổ biến các kiến thức về Grid ra cộng ñồng.

b. ðịnh hướng cho sự phát triển Grid middleware
Nhằm thuyêt phục các công ty và tổ chức tài trợ cho sự phát triển của Grid middleware bằng cách
ñịnh hướng xây dựng các middleware mới sẽ có nhiều chức năng hay dịch vụ mà các doanh nghiệp có
thể dử dụng.
Irving Wladawsky-Berger: “all of our systems will be enabled to work with the Grid, and all of our
middleware will integrate with the software”.
Tuy nhiên, công việc quan trọng nhất của middleware này là hỗ trợ các yêu cầu nảy sinh từ các dự
án pilot như khả năng tính toán, không gian lưu trữ và phải ñáp ứng ñược các chức năng của một
middleware cần có. Middleware này sẽ ñược phát triển dưới dạng mã nguồn mở với sự cộng tác của
cộng ñồng Globus (www.globus.org) và có sự thảo luận với IBM, Oracle, Microsoft về các vấn ñề ñặc
biệt là về DBMS.
c. Interdisciplinary Research Collaboration (IRC)
IRC ñược tài trợ bởi EPSRC, BBSRC, MRC and the MoD dưới sự cộng tác của các trường ðại học
Cambridge, London và Bristol. Nguồn tài trợ của IRC ñược chia ra cho nhiều dự án trong nhiều lĩnh
vực như: môi trường, vật lý, y tế, …
• Advanced Grid Interfaces for Environmental EScience in the Lab and in the Field
• CoAKTinG: Collaborative Advanced Knowledge Technologies in the grid.
• Grid enabled knowledge services: collaborative problem solving environments in medical
informatics
• Grid-Based Medical Devices For Everyday Health
• MIAS - Grid. A Medical Image and Signal Research Grid
d. Danh sách các dự án hiện tại của eScience UK:
• GRIDPP (PPARC)
• ASTROGRID (PPARC)
• Comb-e-Chem (EPSRC)
• DAME (EPSRC)
• DiscoveryNet (EPSRC)
• GEODISE (EPSRC)

• myGrid (EPSRC)
• RealityGrid (EPSRC)
• Climateprediction.com (NERC)
• Oceanographic Grid (NERC)
• Molecular Environmental Grid (NERC)
• NERC DataGrid (NERC + OST-CP)
• Biomolecular Grid (BBSRC)
• Proteome Annotation Pipeline (BBSRC)
• High-Throughput Structural Biology (BBSRC)
• Global Biodiversity (BBSRC)
• Biology of Ageing (BBSRC + MRC)
• Sequence and Structure Data (MRC)
• Molecular Genetics (MRC)
• Cancer Management (MRC + PPARC)
• Clinical e-Science Framework (MRC)
• Neuroinformatics Modeling Tools (MRC)
• MIASGRID (OST-CP)
• AKTing (OST-CP)
• EquatorGrid (OST-CP)
• DIRCGrid (OST-CP)
• MB-NG (OST-CP/PPARC)
• UK EDG (OST-CP/PPARC)
• OGSA-DAI (OST-CP)
6. Ứng dụng eScience trong nghiên cứu về thiên văn
6.1. eScience và thiên văn học
a. Thiên văn học
Chương này giới thiệu một trong những ngành khoa học sử dụng eScience phục vụ cho quá trình
nghiên cứu của mình, ñó là thiên văn học.
Theo Wikipedia, thiên văn học là việc nghiên cứu các vật thể vũ trụ (như sao, hành tinh, sao chổi,
tinh vân, quần tinh, thiên hà) và các hiện tượng có nguồn gốc bên ngoài khí quyển trái ñất (như bức xạ

nền vũ trụ). Thiên văn học nghiên cứu sự phát triển, tính chất vật lý, hóa học, khí tượng học và chuyển
ñộng của các vật thể vũ trụ, cũng như sự hình thành và phát triển của vũ trụ.
Từ thế kỷ 20, lĩnh vực thiên văn học chuyên nghiệp ñược chia thành các nhánh quan sát và lý
thuyết. Thiên văn học quan sát chú trọng tới việc thu thập và phân tích dữ liệu, sử dụng các nguyên tắc
cơ bản của vật lý. Thiên văn học lý thuyết ñịnh hướng theo sự phát triển các mô hình máy tính hay mô
hình phân tích ñể miêu tả các vật thể và hiện tượng thiên văn. Hai lĩnh vực bổ sung lẫn cho nhau, thiên
văn học lý thuyết tìm cách giải thích các kết quả quan sát, và việc quan sát lại thường ñược dùng ñể xác
nhận các kết quả lý thuyết.
b. Dữ liệu thiên văn học
Một số tính chất của dữ liệu về thiên văn học:
- Dữ liệu thiên văn học bao gồm hình ảnh, dữ liệu thô,… ñược thu thập từ các kính thiên văn.
Ngoài ra, còn có các tài liệu, và dữ liệu ñã qua xử lý. Nguồn gốc của dữ liệu cũng ñược lưu lại
cẩn thận phục vụ cho quá trình nghiên cứu.
- Dữ liệu ñã ñược kiểm tra và lưu trữ tuân thủ các tiêu chuẩn về khoa học và thống kê.
- Hầu hết dữ liệu ñược công bố rộng rãi và chúng luôn sẵn sàng trong một khoảng thời gian nhất
ñịnh.
- Các dữ liệu ñã ñược xử lý trong quá khứ mặc dù có ñộ chính xác kém hơn, nhưng vẫn ñược sử
dụng khi nghiên cứu các tác ñộng về mặt thời gian.
- Kích thước dữ liệu hiện nay vào hàng tetrabyte, và sẽ là petabyte trong thời gian sắp tới. Hầu
hết dữ liệu thiên văn ñều nằm trong các kho dữ liệu ñược quản lý bởi tổ chức cung cấp và xuất
bản dữ liệu ñó. Một nhà thiên văn muốn nghiên cứu một thành phần nào ñó, họ không thể sao
chép toàn bộ dữ liệu từ kho lưu trữ (vì không ñủ không gian lưu trữ hay tốn rất nhiều thời gian
ñể sao chép). Thay vào ñó, họ chỉ yêu cầu một phần nhỏ thông tin (vài gigabyte).
c. Ứng dụng eScience trong thiên văn học
Việc ứng dụng eScience trong thiên văn học phải ñáp ứng ñược các ñặc trưng trên của dữ liệu thiên
văn học. Một số dịch vụ sau cần ñược cung cấp bởi eScience:
- Xử lý hình ảnh.
- Xử lý dữ liệu.
- Web nghữ nghĩa.
Các phần sau lần lượt giới thiệu chi tiết về các kho dữ liệu và các công cụ cơ bản trên.


d. Thuật ngữ
Những thuật ngữ sau sẽ ñược sử dụng trong các phần sau của bản báo cáo này:
- Registry:
- Arcminute: là một ñơn vị góc ño, có giá trị 1/60 ñộ.
- Arcsecond: 1/60 arcminute.
- DPOSS: Digital Palomar Observation Sky Survey. Chứa khoảng 3 tetrabyte hình ảnh và một số
dữ liệu trích xuất ñược từ ñó như các ngôi sao, thiên hà, chuẩn tinh, … và các tính chất của
chúng.
- The Sloan Digital Sky Survey: một trong những nghiên cứu tham vọng và có nhiều ảnh hưởng
nhất trong lịch sử thiên văn học.


6.2. Virtual Observatory
a. Giới thiệu
Virtual Observatory (viết tắt là VO), là một tập hợp các kho dữ liệu và công cụ phần mềm, sử dụng
Internet ñể tạo ra các môi trường nghiên cứu khoa học mà trên ñó các dự án về thiên văn học có thể
ñược thực hiện.
Mục tiêu chính là cho phép truy cập dữ liệu về thiên văn trên toàn thế giới một cách thông suốt
(transparent). ðiều này cho phép các nhà khoa học truy cập, phân tích, và kết hợp dữ liệu theo cách
thân thiện với người sử dụng.
VO cung cấp các portals, giao thức, và các chuẩn ñể ñồng bộ các kho dữ liệu thiên văn trên toàn thế
giới thành một cơ sở dữ liệu khổng lồ chứa tài liệu, hình ảnh, dữ liệu thô, dữ liệu ñã qua xử lý, … ðiều
này cho phép các nhà khoa học có thể truy xuất, phân tích, xử lý, … các dữ liệu thiên văn ñó một cách
ñồng nhất mà không cần quan tâm ñến vị trí ñịa lý mà chúng ñược lưu trữ.
b. Kiến trúc của VO
Việc xây dựng kiến trúc của VO dựa trên một số tính chất sau:
- Hầu hết dữ liệu ñều ñược truy xuất từ xa. Và các dữ liệu cần thiết có thể nằm trên nhiều kho lưu
trữ khác nhau. ðiều này dẫn ñến yêu cầu cho việc truy xuất dữ liệu phải ñược thông suốt (transparent)
giống như truy cập từ máy cục bộ.

- Lượng dữ liệu cần truy xuất phục vụ cho việc xử lý có thể là rất lớn. Nên những dữ liệu cần cho
việc xử lý nên ñược lưu trữ gần nhau.
Kiến trúc của VO middleware dựa trên ý tưởng của web service: các nguồn thông tin có thể ñược
truy xuất qua web bằng các câu truy vấn. Hình sau biểu diễn kiến trúc của VO:


- Archives: mỗi archive chứa dữ liệu dạng văn bản, hình ảnh, dữ liệu thô, … Chúng cung cấp
những công cụ tìm kiếm và khai phá dữ liệu (mining tools) cho phép dễ dàng tìm kiếm và trích xuất nội
dung của dữ liệu trong archive ñó. Chúng cũng chứa siêu dữ liệu (metadata) về nội dung, thông tin về
ñịa chỉ lưu trữ và cả những thông tin về nguồn gốc của dữ liệu.
- Web service: các archive cung cấp giao diện web service dành cho việc truy vấn, sao chép và di
chuyển dữ liệu. Các service này ñược ñăng ký với các portal. Các thông tin mà các archive cung cấp
bao gồm: khoảng không gian, thời gian, và ñộ phân giải của dữ liệu mà các services của archive ñó
cung cấp.
- Portal: ñóng vai trò cầu nối giữa các archive và người sử dụng. Với các truy vấn từ người sử
dụng, portal dựa vào thông tin mà các archive ñã ñăng ký ñể tìm các archive và service phù hợp. Và các
truy vấn sẽ ñược gửi tới các services thích hợp ñể lấy về các dữ liệu mà các truy vấn yêu cầu.
Do VO ñược xây dựng trên Grid, nên một số tính chất của Grid như tính giãn nở (scalability), bảo
mật, chứng thực (authentication), tính kháng lỗi (fault torelant), sao lưu dữ liệu (replication), … cũng
ñược cung cấp trênVO. Và các dịch vụ của Grid như GridFTP,… cũng ñược áp dụng ñể sao chép, di
chuyển một lượng lớn dữ liệu trên VO.

c. Virtual Observatory trên thế giới
Có rất nhiều Virtual Observatory ñã ñược xây dựng trên thế giới. Bảng sau liệt kê thông tin của một
số VO ñiển hình:
Virtual Observatory Nguồn
US VO


European Virtual Observatory



UK Virtual Observatory


India Virtual Observatory


US National Virtual Observatory


Russian Virtual Observatory


Japanese Virtual Observatory


Hungarian Virtual Observatory


German Astrophysical Virtual
Observatory

France Virtual Observatory


Italian Virtual Observatory


Spanish Virtual Observatory



Australian Virtual Observatory



6.3. Image Computing
Hầu hết dữ liệu thiên văn ñược lưu dưới dạng hình ảnh, bao gồm cả ảnh thô và những ảnh ñã qua
xử lý.
Có rất nhiều ứng dụng làm việc trên các dữ liệu thiên văn học. Trong phần này ta sẽ xem xét một
ứng dụng tiêu biểu là Virtual Sky.

a. Virtual Sky
Dự án Virtual Sky cung cấp những hình ảnh liên tục của bầu trời ñêm; không chỉ là một album ảnh
với nhiều ñịa ñiểm khác nhau, mà là toàn thể bầu trời với nhiều ñộ phân giải và bước sóng khác nhau.
VirtualSky ñã tích hợp toàn bộ bản ñồ DPOSS, với giao diện trực quan, dễ sử dụng sao cho mọi
người ñều có thể sử dụng ñược. Người sử dụng có thể thu nhỏ ñể xem toàn bộ bầu trời trên màn hình
máy tính, hoặc phóng to lên tới 1.4 arcsecond trên một pixel.
Virtual Sky liên kết hình ảnh từ nhiều nguồn khác nhau thành một giao diện hợp nhất.
i. Hiện thực Virtual Sky
Khi một kính thiên văn chụp ñược một tấm ảnh, hoặc khi một bản ñồ của bầu trời ñược vẽ ra, bầu
trời ñược chiếu thành một hình phẳng. Hình ảnh từ nhiều nguồn khác nhau có thể ñược xoay hoặc
phóng to/thu nhỏ ñể có thể kết hợp ñược với nhau.Virtual Sky liên kết các hình ảnh ñó bằng cách dàn
hình theo một góc chiếu chuẩn. Bởi vì tất cả các hình ảnh trên cùng một lưới pixel, chúng có thể ñược
sử dụng cho việc tìm kiếm trong không gian nhiều bước sóng. Sau ñó, các tấm ảnh này ñược lưu trữ
vào cơ sở dữ liệu với những kích thước khác nhau (ñộ nén khác nhau), thuận tiện cho việc cung cấp qua
web với các tính năng phóng to, thu nhỏ,… Tuy nhiên, ñiều này cũng gây ra hiện tượng méo hình với
những hình ảnh xa tâm.
Có một lượng lớn dữ liệu tương ứng với bản ñồ bầu trời: bản ñồ DPOSS với kích thước 3 tetrbye,
2MASS với kích thước 10 tetrabyte. Những hình ảnh thu thập ở những thời gian khác nhau có thể bị

trùng lặp.
ii. Parallel Computing
Việc xử lý hình ảnh của Virtual Sky bao hàm một ánh xạ giữa những hình ảnh ban ñầu với vị trí của
các ñiểm trên ảnh ñã qua xử lý. Việc lấy mẫu lại (resampling) có thể ñược thực hiện theo hai cách:
- Theo thứ tự ñầu vào: mỗi pixel ñầu vào ñược chiếu vào mặt phẳng của ảnh ñích. Và việc tính
toán ñược thực hiện theo việc lặp từng pixel trên ảnh nguồn.
- Theo thứ tự ñầu ra: với mỗi vị trí pixel trên ảnh ñích, vị trí của chúng trên ảnh nền ñược xác ñịnh
bằng cách thực hiện ánh xạ ngược và màu sắc ñược tính toán bằng cách lấy mẫu hình ảnh nguồn.
Phương pháp này có thuận lợi là làm cực tiểu hóa việc mất dữ liệu của những hình ảnh không gian. ðây
cũng là phương pháp ñược áp dụng trong Virtual Sky.

6.4. Database Computing
Phân tích dữ liệu khoa học thường ñược gọi là khai phá dữ liệu (data mining) bởi vì nó tương tự
như việc khai khoáng kim loại quí hoặc kim cương. Thông thường, các công ñoạn ñầu của việc khai
phá dữ liệu khoa học bao gồm việc phân loại dữ liệu theo các mẫu (patterns). Trong thiên văn học, dữ
liệu thô thường là hình ảnh, và mẫu là các ngôi sao hay thiên hà. Các tính chất của chúng bao gồm ñộ
lớn của băng tần (magnitudes of wavebands), hình khối (sharp), và thông số hình thái, phân loại,… Sau
khi phân loại, dữ liệu sẽ ñược lưu trong các hệ quản trị cơ sở dữ liệu quan hệ sẵn sàng cho việc nghiên
cứu, thống kê.
ðể hình dung, dữ liệu của SDSS sau khi phân loại hoàn tất có kích thước khoảng 15 tetrabyte và
giảm xuống còn khoảng 2TB trong RDBMS (cơ sở dữ liệu quan hệ).
ðịnh dạng của việc truyền các mẩu dữ liệu (database record) có thể theo chuẩn VOTable, cho phép
tách siêu dữ liệu ra khỏi dữ liệu, và tốc ñộ truyền dữ liệu lớn.

a. VOTable
VOTable là một ñịnh dạng chuẩn XML ñược ñề xuất cho việc thể hiện 1 bảng dữ liệu. Theo ñó,
một bảng là một tập các dòng, trong ñó mỗi dòng tuân theo một ñịnh dạng chung ñược ñịnh nghĩa trong
siêu dữ liệu của bảng ñó (metadata table). Mỗi dòng là 1 chuỗi các ô trong bảng mà mỗi ô có thể là 1
loại dữ liệu cơ bản hoặc một dãy các loại dữ liệu như vậy.
VOTable ñược thiết kế như một ñịnh dạng lưu trữ và trao ñổi dữ liệu linh ñộng cho dữ liệu dạng

bảng, ñặc biệt cho dữ liệu bảng của thiên văn học.
VOTable có các tính năng ñược xây dựng sẵn cho việc xử lý một lượng lớn dữ liệu trên Grid. Nó
cho phép dữ liệu và siêu dữ liệu ñược lưu trữ rời nhau, với dữ liệu từ những kho lưu trữ khác nhau có
thể liên kết với nhau. Các process có thể sử dụng siêu dữ liệu ñể tìm nơi chứa dữ liệu ñó, cho phép xử
lý hoặc truyền dữ liệu song song. Việc trao ñổi dữ liệu giữa các process hoặc giữa các nhà nghiên cứu
có thể ñược thực hiện bằng cách chỉ gửi siêu dữ liệu và dữ liệu thực chỉ cần ñược gửi khi thực sự cần
thiết.

Dữ liệu trong một VOTable có thể ñược thể hiện bằng một trong các ñịnh dạng sau:
- Theo ñịnh dạng XML thuần túy sao cho các bảng nhỏ có thể ñược xử lý dễ dàng bằng các công
cụ về XML.
- Theo ñịnh dạng FITS. VOTable có thể ñược sử dụng ñể tóm lược 1 file hoặc ñể mã hóa các siêu
dữ liệu.
- Theo dạng nhị phân ñể dễ dàng và hiệu quả cho việc lập trình.
VOTable có thể ñược sử dụng theo nhiều cách khác nhau: như một ñịnh dạng trao ñổi và lưu trữ dữ
liệu, hoặc chỉ lưu trữ siêu dữ liệu. Trong trường hợp chỉ lưu trữ siêu dữ liệu, VOTable có thể ñược gửi
tới server và server này sẽ mở các kết nối ñể download dữ liệu thực. Hiện tại, cấu trúc phức tạp nhất của
VOTable là mỗi ô trong bảng chứa các mảng dữ liệu nhiều chiều.

Ví dụ sau biểu diễn một VOTable chứa 3 thiên hà với vị trí, tốc ñộ, khoảng cách ước lượng và sai
số của chúng. Ví dụ này chỉ ñưa ra ñể dễ hình dung nội dung của VOTable, việc tìm hiểu sâu hơn
<?xml version="1.0"?>
<VOTABLE version="1.2" xmlns:xsi="
xmlns="
xmlns:stc=" >
<RESOURCE name="myFavouriteGalaxies">
<TABLE name="results">
<DESCRIPTION>Velocities and Distance estimations</DESCRIPTION>
<GROUP ID="J2000" utype="stc:AstroCoords">
<PARAM datatype="char" arraysize="*" ucd="pos.frame" name="cooframe"

utype="stc:AstroCoords.coord_system_id" value="UTC-ICRS-TOPO" />
<FIELDref ref="col1"/>
<FIELDref ref="col2"/>
</GROUP>
<PARAM name="Telescope" datatype="float" ucd="phys.size;instr.tel"
unit="m" value="3.6"/>
<FIELD name="RA" ID="col1" ucd="pos.eq.ra;meta.main" ref="J2000"
utype="stc:AstroCoords.Position2D.Value2.C1"
datatype="float" width="6" precision="2" unit="deg"/>
<FIELD name="Dec" ID="col2" ucd="pos.eq.dec;meta.main" ref="J2000"
utype="stc:AstroCoords.Position2D.Value2.C2"
datatype="float" width="6" precision="2" unit="deg"/>
<FIELD name="Name" ID="col3" ucd="meta.id;meta.main"
datatype="char" arraysize="8*"/>
<FIELD name="RVel" ID="col4" ucd="spect.dopplerVeloc" datatype="int"
width="5" unit="km/s"/>
<FIELD name="e_RVel" ID="col5" ucd="stat.error;spect.dopplerVeloc"
datatype="int" width="3" unit="km/s"/>
<FIELD name="R" ID="col6" ucd="pos.distance;pos.heliocentric"
datatype="float" width="4" precision="1" unit="Mpc">
<DESCRIPTION>Distance of Galaxy, assuming H=75km/s/Mpc</DESCRIPTION>
</FIELD>

×