Tải bản đầy đủ (.pdf) (7 trang)

Cố máy tính hadron lớn ppsx

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (321.45 KB, 7 trang )

136 o | © hiepkhachquay

C máy tính hadron ln
Các kế hoạch xử lí luồng thác dữ liệu từ các máy dò hạt của Máy Va chạm Hadron Lớn
khiến cho phòng thí nghiệm vật lí hạt CER, lại một lần nữa, trở thành một nhà tiên phong về
điện toán cũng như vật lí. Andreas Hirstius mô tả những thách thức của việc xử lí và lưu trữ
thông tin trong kỉ nguyên khoa học petabyte.
Vào gia thp niên 1990, khi các nhà vt lí CERN ưa ra nhng ưc tính mang tính cnh
báo u tiên ca h v lưng d liu mà các thí nghim ti Máy Va chm Hadron Ln (LHC) s
to ra, thì nhà sn sut linh kin máy tính Intel mi ch tung ra b x lí Pentium Pro. Windows ã
là h iu hành thng tr, du cho Linux vn ang so tài. CERN gn y ã ưa World Wide Web
thành công cng, nhưng h thng ó còn lâu mi hoàn thin như nó ngày nay. Và mt gigabyte
(10
9
byte) không gian ĩa tiêu tn n vài trăm ô la.

Toàn b các kt ni trong h tng in toán ca CERN phi hot ng ng b  LHC thành công.
Môi trưng in toán này có mt s thách thc gay gt i vi các nhà khoa hc máy tính
làm vic  LHC. Trưc ht, các ưc tính ban u ca các nhà vt lí kêu gi cho LHC là to ra vài
ba triệu gigabyte – mt vài petabyte (10
15
byte) – d liu mi năm. Ngoài giá thành ln ca vic
lưu tr nhng d liu này, thì công sut in toán cn thit  x lí chúng s òi hi gn mt triu
PC ca thi kì thp niên 1990. úng vy, kh năng in toán ưc trông i tăng lên 100 ln vào
lúc LHC cui cùng ã i vào hot ng, nh nh lut Moore, phát biu rng công sut in toán
i khái s tăng gp ôi mi hai năm. Tuy nhiên, tht khó mà d oán trưc các thí nghim LHC
s cn bao nhiêu công sut in toán trong tương lai và các nhà khoa hc máy tính CERN phi
137 Tuyn Physics World 2008 | © hiepkhachquay

quan tâm n vic nhu cu in toán có th tăng trưng nhanh hơn nh lut Moore. Phân phi d
liu sang nhng v trí khác rõ ràng là mt phn ca li gii, nhưng tc  truyn d liu vn


tương i thp – năm 1994, tng kt ni ra bên ngoài ca CERN tương ương vi ch mt kt ni
băng rng ngày nay, ch là 10 megabit mi giây.
Các ngun ch yu ca cơn lũ d liu LHC là hai c máy dò ht ln, ATLAS và CMS,
mi máy có hơn mưi t kênh c liu. Vi 40 triu chùm ht ct qua mi giây, vic c liu liên
tc toàn b máy dò s to ra hơn mt petabyte d liu mi giây. May thay, a s các va chm
chng áng chú ý, bng cách lc và loi b chúng bng phương tin in t, chúng ta có th gim
bt lung d liu mà không ánh mt nhng s kin hp dn. Tuy vy, ATLAS, CMS và hai thí
nghim LHC khác, ALICE và LHCb, s cùng nhau to ra 10-15 petabyte d liu mi năm phi x
lí, lưu tr vĩnh vin và ng thi gi cho có th truy xut bt c lúc nào vi các nhà nghiên cu
trên khp th gii. Vic x lí nhng lưng d liu khng l như vy ưc t tên là “thách thc
LHC” do khoa IT ti CERN và các trưng vic khác làm vic  gii quyt vn .
Xây dựng trên những nỗ lực trong quá khứ
Nhu cu ưc tính ca các thí nghim LHC ln hơn ti 10.000 ln dung lưng d liu và
công sut máy tính ca nhng tin thân ca chúng  c máy va chm Electron Positron Ln (LEP)
mà CERN ã óng ca hi năm 2000. Trong khong thi gian gia lúc kt thúc LEP và lúc khi
ng LHC, ã có mt s thí nghim trên Super Proton Synchrotron (SPS) ánh du nhng bưc
tin quan trng hưng ti in toán cho LHC. Ví d, ngay trưc khi LEP b tháo d dn ưng
cho LHC, thí nghim NA48 v ngành vt lí kaon ã to ra d liu  tc  cc i khong 40
megabyte/s – ch nh hơn khong 5 n 8 ln so vi cái chúng ta mong i t các thí nghim
LHC trong các va chm proton-proton. Vic bit ưc phn cng có sn trên th trưng có th x
lí nhng tc  d liu ó tht vng d, vì nó nghĩa là lúc LHC i vào hot ng, phn cng s
ưc ci tin   nm bt nhng tc  cao hơn.
Cho va chm các ion nng to ra nhiu ht hơn khong hai bc  ln so vi các va chm
proton-proton, và vì th tc  d liu trong các va chm ion tương ng s cao hơn. Vào cui năm
2002 và u năm 2003, các chi tit kĩ thut cho thí nghim ALICE, s s dng c hai loi va
chm  nghiên cu lc ht nhân mnh, yêu cu nó thu thp d liu  tc  khong 1,2
gigabyte/s. Vì nhu cu cho ALICE ln hơn quá nhiu so vi các thí nghim khác, nên rõ ràng nu
thit b in toán có th làm ch ALICE, thì nó có th làm ch hu như bt c thí nghim nào – và
chc chn d liu t nhng thí nghim khác s không thành vn .
 gii quyt thách thc này, các nhà khoa hc máy tính CERN và các thành viên ca i

ALICE ã hp tác thit k mt h thng có th nhn d liu  tc  1,2 gigabyte/s t mt thí
nghim và x lí chúng chính xác. Nguyên mu c ln u tiên ã ưc ch to hi năm 2003 và
ưc cho là có kh năng làm ch tc  d liu 100 megabyte/s trong vòng vài gi. K hoch ã
phá sn hu như ngay tc thì. Các nguyên mu sau này ã ưa vào thêm nhng bài hc t nhng
tin thân ca chúng và có th làm ch tc  d liu ngày càng cao hơn.
138 o | © hiepkhachquay

Mt d án khác t thi kì LEP ã giúp các nhà khoa hc máy tính xây dng môi trưng
in toán LHC là thit b tích hp không ng nht linh hot, hay SHIFT, phát trin vào u thp
niên 1990 bi các thành viên ca t chc in toán ca CERN cng tác vi thí nghim OPAL trên
LEP. Lúc y, in toán ti LHC hu như hoàn toàn ưc thc hin bi các máy ch tt c trong
mt. Nguyên tc cơ s ca SHIFT là chia tách các ngun da trên nhim v mà chúng thc hin:
in toán; lưu tr ĩa; hoc lưu tr băng. Tt c các ngun khác nhau này ưc ni vi nhau
thông qua mt mng. H thng này tr thành cơ s cho cái ngày nay gi là in toán d liu vào
cao.
S khác bit gia in toán d liu vào cao và in toán hiu sut cao quen thuc hơn có
th hiu bng cách xem xét mt xa l y xe hơi, trong ó các xe biu din cho nhng ng dng
in toán khác nhau. Trong in toán hiu sut cao, mc tiêu là i t A n B càng nhanh càng tt
– như trong mt chic Ferrari, có l vy, trên mt con ưng vng. Khi mt xe dng li, thì cuc
ua kt thúc cho n khi chic xe ưc sa xong. Trong in toán d liu vào cao, trái li, vn 
duy nht là cho càng nhiu xe i t im A n im B càng tt. Cho dù mt xe có dng li, thì
iu ó tht ra chng là vn  gì, vì dòng xe vn tip tc chy và chic xe khác có th băng trên
ưng.
in toán d liu vào cao trên lí tưng thích hp cho ngành vt lí năng lưng cao, vì các
“s kin” do các thí nghim ghi li hoàn toàn c lp vi nhau và do ó có th x lí c lp nhau.
iu này có nghĩa là phép phân tích hay mô phng d liu có th tin hành trên mt s lưng ln
máy tính hot ng c lp trên nhng mnh nh ca d liu: ngưi ta nói khi lưng công vic
ó là “song song ri”. Ngưc li, các ng dng trên mt siêu máy tính tt, kiu cũ là song song
“cao”: toàn b các ngun in toán sn có, có l hàng nghìn b vi x lí, ưc s dng cho mt
nhim v in toán duy nht.

Vic phân tách các ngun khác nhau làm cho SHIFT rt linh hot: mi ngun có th phát
trin c lp theo nhng nhu cu mi. ng thi, cơ s vt lí ca tng ngun không có liên quan
gì ln vi h xem như mt tng th. Ví d, có th thêm các  băng vào h thng mà không cn”t
ng” thêm không gian ĩa, và các nút máy tính cũ có th d dàng cho ngh vic và các nút mi
ưc lp t mà không làm xáo trn n toàn h thng. Các khía cnh này ca SHIFT – mt
mng song song ri các máy tính, mi máy tính có th nâng cp  khai thác li th ca nh lut
Moore, tt c hot ng c lp trên các bit d liu khác nhau – t ra là cơ s tt nht có th có
cho in toán trong thi i LHC.
Điện toán phân phối: mạng lưới LHC
Trong khi các nhà nghiên cu ang phát trin và kim nghim các khuôn kh phn mm
tương ng ca h cho vic thu nhn d liu, phân tích và mô phng d liu, thì môi trưng in
toán  CERN và mi nơi liên tc trưng thành. Hu như ngay tc thì sau khi lên k hoch cho
LHC vào gia thp niên 1990, cái tr nên rõ ràng vi các nhà khoa hc máy tính là công sut in
toán ti CERN bn thân nó nh hơn nhiu công sut in toán cn thit  phân tích d liu LHC
139 Tuyn Physics World 2008 | © hiepkhachquay

và tin hành nhng mô phng cn thit. Vì th, công sut in toán phi làm cho sn dùng  mi
nơi. Thách thc là xây dng mt h thng cho phép các nhà vt lí d dàng truy cp công sut in
toán phân phi khp th gii. H thng ó ngày nay gi là Mng in toán LHC Toàn cu
(WLCG).
WLCG ưc xây dng là mt cu trúc phân cp. Trung tâm in toán CERN là Cp 0, và
toàn b d liu thô ưc lưu tr vĩnh vin  ó. Có 11 trm mng Cp 1 bên ngoài CERN, trong
ó có Phòng Rutherford Appleton ca Anh, Fermilab  Mĩ, và Trung tâm in toán Mng Hàn
lâm Sinica  ài Loan. Tt c các trm Cp 1 này u có không gian cho lưu tr băng t vĩnh
vin, và các thí nghim LHC xut d liu thô ca chúng t CERN n nhng trm Cp 1 này. a
phn các phân tích và mô phng d liu tht s ưc tin hành  khong 130 trm Cp 2.
Tng cng, CERN s xut 2-5 gigabyte d liu thô n các trm Cp 1 trong mi giây.
Khi k hoch cho LHC khi ng, nhng tc  ó dưng như không th nào t ưc. Tuy
nhiên, sang u th k này, công ngh si quang ã phát trin  xa  làm cho các ưng truyn
mng xuyên lc a và (c bit) xuyên i dương 10 gigabit có giá tr thương mi. áp li,

CERN hp tác vi các trưng vin và nhà cung cp mng khác thành lp d án DataTAG kho
sát tim năng ca nhng ưng truyn nhanh như vy. Kt qu hp tác ã lp mt s k lc tc 
trong vic truyn d liu trên nhng khong cách dài, bt u vi 5,44 gigabit/s gia Geneva và
Sunnyvale, California, vào tháng 10 năm 2003 (Vì nhng lí do lch s, các chuyên gia mng o
d liu theo bit/s, còn các chuyên gia truyn s liu o theo byte/s. Mt byte gm tám bit).
Trong vòng mt năm, tc  truyn ã t 7,4 gigabit/s, hoc khong 9 ĩa DVD mi phút,
i vi s truyn s liu t b nh chính ca mt server n b nh chính ca mt server khác.
Tc  này b hn ch không phi bi mng mà bi năng lc ca các server. S truyn b-nh-
n-b-nh ch mi bt u, vì d liu tht s s ưc truyn t ĩa. ây là mt òi hi kht khe
hơn nhiu; tuy vy, năm 2004, s dng các server ni vi mt h thng ĩa thc nghim, ngưi ta
ã có th truyn 700 megabyte, hay mt ĩa CD d liu, mi giây t Geneva dn California vi
mt s c lung t ĩa – nhanh hơn 10 ln so vi  ĩa cng chuNn trong máy tính  bàn ngày
nay. iu này cho phép các kt ni mng s chng là vn  gì và d liu tht s có th truyn t
CERN n các trm Cp 1 vi tc  d liu mong mun. CERN hin kt ni vi tt c các trm
Cp 1 vi ít nht mt kt ni mng có kh năng truyn s liu  tc  10 gigabit/s.

140 o | © hiepkhachquay


Các thí nghim LHC s to ra quá nhiu d liu cho CERN x lí mt mình. Vì th, nhim v phân tích và lưu tr d
liu s ưc phân phi cho nhiu a im khác nhau trên khp th gii thông qua mt mng gi là Mng in toán
LHC Toàn c. T trung tâm máy tính CERN (cp 0 ca mng), d liu va chm ht s ưc truyn ti 11 trung tâm
Cp 1 theo các ưng truyn quang si quang siêu nhanh 10 gigabit/s. Nhng trm quc gia này s lưu tr khong
hai phn ba d liu thô trong nhng thư vin băng t khng l, còn phn còn li ưc gi  CERN. a s phép phân
tích d liu s ưc thc hin trên các máy tính ti khong 130 trung tâm vùng Cp 2. Tng nhà vt lí có th khai
thác công sut in toán ca các trung tâm Cp 2 bng ưng truyn gia các trung tâm, các cm in toán trưng
i hc (Cp 3), và máy tính bàn và laptop ca h (Cp 4).
Làm gì với mớ dữ liệu đó ?
Các thách thc ca bài toán in toán LHC cũng bao gm nhng vn  mang tính trn
tc hơn nhiu, như ch ra làm th nào cài t và cu hình hiu qu mt s lưng ln máy móc,

theo dõi chúng, tìm hng hóc và trc trc, và cui cùng là làm th nào cho ngng hot ng hàng
nghìn c máy. Lưu tr d liu là mt nhim v có v “bình thưng” khác òi hi phi xem xét
nghiêm túc ngay trong pha lp k hoch. Mt yu t quan trng trong vic lp k hoch là i vi
CERN, và ngành vt lí năng lưng cao nói chung, lưu tr vĩnh vin không tht s nghĩa là “vĩnh
vin”. Sau khi LEP ngng hot ng, các nhà vt lí ã chu khó phân tích li toàn b 11 năm s
liu thô quý giá mà nó ã to ra. LHC có th phát sinh 300-400 petabyte d liu thô trong khong
thi gian tn ti ưc tính 15 năm ca nó, và các nhà vt lí mong rng toàn b d liu vn có th
truy cp ưc trong vài năm sau khi c máy va chm ngng hot ng.
141 Tuyn Physics World 2008 | © hiepkhachquay

D liu có ích trong vic tính toán ưc lưu tr trên ĩa, tt nhiên, nhưng trong thi gian
dài, d liu lưu tr trên băng t mi ưc xem là “an toàn”. Không có công ngh nào khác t ra
lưu tr ưc nhng lưng d liu khng l mt cách áng tin cy trong nhng khong thi gian
dài và vn có giá thành có th chp nhn ưc. Nhng băng này ưc cha trong các thư vin có
th gi ti 10.000 băng và ti 192  băng mi thư vin.

Robot c băng tìm ưng i trong thư vin y d liu
 m bo d liu vn có th truy cp ưc, toàn b d liu thô ưc copy sang mt
dòng phương tin băng mi khi nó có  khai thác. V mt lch s, vic này din ra mi ba n
bn năm, mc dù tc  thay i gn ây ã tăng tc. Ngoài vic bo v d liu thô quý giá khi
b tn hi thưng nht và b rách trên tng băng t, nhng t nâng cp thưng xuyên như vy
cũng gim i s lưng băng t, vì các phiên bn mi hơn thưng có dung lưng ln hơn. Truy
xut d liu tr nên nhanh hơn vi tng t nâng cp liên tip, vì tc  ca các  băng mi
nhanh hơn. Băng cũ ưc t lên giá, bc trong plastic và lưu tr cùng vi mt vài  băng mi 
m bo ngưi ta có th truy xut  băng gc mt ln na. Các băng sao lưu cũng ưc lưu tr 
nhiu a im và nhiu tòa nhà khác nhau, nhm gim ti thiu mt mát nu có bt kì thm ha
nào xy ra.
Ngoài d liu thc v các va chm ht, các thí nghim LHC còn phi lưu tr “sc khe”
ca máy dò ht (tc là các chi tit v bn thân máy dò ht, như thông tin ch to và sp xp)  có
th thc hin phân tích và mô phng thích hp. Thông tin này ưc lưu tr trong cái gi là cơ s

d liu iu kin  trung tâm in toán CERN và sau ó truyn ti n các trm Cp 1. Các thí
nghim LHC yêu cu gây ra các bin i i vi cơ s d liu 200.000 ln mi giây, nhưng
nguyên mu có chc năng x lí d liu trn vn u tiên ch có th x lí 100 thay i mi giây.
142 o | © hiepkhachquay

Sau mt s n lc mnh m nhm gii quyt vn  này, Oracle, nhà sn sut cơ s d liu quan
h cung cp cho CERN, tht s ã thay i phn mm cơ s d liu ca mình  cho các thí
nghim LHC áp ng yêu cu ó.
Mt iu mà các i tác công nghip nói v CERN và ngành vt lí năng lưng cao là các
yêu cu ó i trưc vài năm so vi bt kì nơi nào khác. Pat Gelsinger, mt nhân viên lâu năm
trong nhóm kinh doanh kĩ thut s ti Intel (ngưi trưc ây ã tng làm vic vi i IT  CERN),
nói rng CERN gi vai trò ca “chim hoàng yn trong m than”. n vi CERN và hp tác vi
các nhà vt lí nghiên cu các thí nghim hay vi b phn IT, ngành công nghip có th x lí, và
gii quyt, nhng bài toán ca ngày mai trong ngày hôm nay.
Thách thc LHC t ra trưc các nhà khoa hc máy tính CERN to ln như thách thc t
ra vi các kĩ sư và nhà vt lí ca nó. Các kĩ sư ã xây dng c máy và nhng máy dò ht ln nht
và phc tp nht trên hành tinh, cng vi nhng thành tu khác ch có th mô t vi s tt bc.
Trong phn vic ca mình, các nhà khoa hc máy tính ã làm ch ưc vic phát trin mt h
tng kĩ thut có th x lí nhng lưng d liu khng l, t ó áp ng ưc toàn b yêu cu ca
các nhà vt lí và trong mt s trưng hp còn i xa hơn h. H tng kĩ thut này có WLCG, mng
ln nht ang tn ti và s có nhiu ng dng trong tương lai. Gi thì các nhà vt lí ã có  trong
tay nhng công c mà h mong ch by lâu nay, cuc truy lùng ca h nhm khám phá thêm mt
vài bí Nn na ca t nhiên ã có th bt u.
Andreas Hirstius, mt nhà vt lí ã chuyn sang nghiên cu in toán.
Ông hin là trưng phòng kĩ thut ca CERN Openlab và Khoa in toán CERN.
hiepkhachquay dch
Ngun: The large hadron computer (Physics World, tháng 11/2008)
An Minh, ngày 02/11/2008, 16:40


×