VIỆN CÔNG NGHỆ SINH HỌC
BÁO CÁO TỔNG KẾT ĐỀ TÀI
XÂY DỰNG CƠ SỞ KHOA HỌC CHO DỰ ÁN KHẢ THI
GIẢI TRÌNH TỰ VÀ PHÂN TÍCH BỘ GEN
NGƯỜI VIỆT NAM
CNĐT : NÔNG VĂN HẢI
9175
HÀ NỘI – 2011
1
T V
B gen hay còn gi là h gen (toàn b tp hi là có mt cu trúc
ht sc tinh vi và phc tp, gm 2 thành phn: i) B c khong 3,2
t chic gi là nucleotide hoc c1000 bp= 1
gen ty th c ch i biu hin ca s
sng, bao gm các yu t quynh sc khe mi (khe mnh hay
n chy, vic nghiên cu cu trúc và chtoàn
b các gen c là mt v khoa hng ng dng ht sc
quan trng.
- D án H gen i (Human Genome Project, HGP), thi gian thc hin:
-c do M u vi
khong c và vùng lãnh th tham gia. D -4 t USD tin ngân nhà
c cho gii mã hoàn chnh h gen i (~3,2 t bp), vi DNA ly t 5 cá th i
din 5 chng ti trên th ging thi, vic gii mã h gen
hân Celera Genomics ca M tin hành (s ti c tính
i hàng t USD). Kt qu là mi nhóm gii mã hoàn chnh 1 h gen i,
ng thi công b p chí khoa hc danh ting nht là Nature, Anh
(McPherson et al., 2001), và Science, M (Venter et al., 2001). Trình t ca Nhóm
c tài tr t ngân sách ca các chính ph c công khai, d liu thông tin v h
gen cho toàn th gii cùng s dc g chu tham
chi
Kt qu quan trng nht sau khi có b y,
các chng tc, các cá th i gin 99,9% và ch khác nhau v mt t l
rt nh (0,1%) v cu trúc h gen (hay ~3 triu/ ~3,2 t bp ca cu trúc toàn b b/ h
gen). Tuy nhiên, phn khác bit rt nh này li vm
nhân chng hc ca mt dân tc, là yu t di truyn sc khe ca c dân
tc và mi cá th.
c phát trin logic tip theo ca công trình gii mã h gen u tiên
các d liu v h gen (trình t chuc công b và s dng
min phí, các qum gen ca các dân tc, các cá th
khe mnh và mc các bnh khác nhau cc mình;
2
Thu nhn vt liu gen (DNA) và sn phm gen (protein) cn các dân
tc, các cá th nghiên cu sâu v cu trúc, chng nghiên
cng dng trong chu tr.
Mt trong nhng thành tu mi nht v nghiên cu h gen i là vic gii
mã xong h gen ca c 4 thành viên trong u tiên (gm b m, 1 con trai
và 1 con gái) ti Vin Sinh hc H thng, Seatle (Hoa K) phi hp vi mt s
i ta phát hic các gen ng c viên ln hi
chng Miller - bnh di truyn có tính chet al., 2010).
Tin sinh hc là b môn khoa hc mi liên ngành gia sinh hc và tin hc, trong
d liu gen khng l c thit
ln mm, công c c phát tri phân tích, x lý s
liu sinh hc, mô hình hóa, mô ph nghiên cu ch
B c ht là h gen ty th và mt s gen cha h gen
c các nhà khoa hc Vit Nam quan tâm nghiên cu t u nh
2000 tr lc bic phê duy
sinh ht s phòng thí nghim trm, các nghiên cng
c nhng kt qu c u.
- Gii mã gen, bim ci khe m tham
chiu cho các nghiên ct bin gen i bnh;
- Gii mã các h gen i bch, ting, Alzheimer )
giúp tìm ra bn cht di truyn ca các yu t liên quan; tìm ra các ch th ch
phát tric phu tr;
- Làm ch vic gii mã h gen i, có th áp dng cho vic gii mã các tác
nhân gây b sinh v phát trin
các ng dng trong nhic rt khác nhau.
- Các chuyên ngành khoa hc s sng (sinh hc) và công ngh sinh hc hii:
sinh hc phân t, công ngh gen, h gen hc cu trúc và ch protein hc, tin
sinh hc, h gen hi, di truyn phân t, công ngh protein và enzyme, tin hóa
phân t i, nhân hc phân t
- Các chuyên ngành y hc hc, khoa hc hình s, quc phòng-an ninh: Y
hc phân t, di truyn y hc phân t, dch t hc phân t, bnh hc phân t, h gen y
hc, h protein y hc, liu pháp gen, min dch hc phân t, h gen hc cá th i,
di truyn qun th nh gen, y-c hc quân s
3
- Công ngh thông tin (các trung tâm/ h thng tính toán hin
mm chuyên dng phân tích gen và protein, các h thng mô hình, mô phng, xây
d d li
Nhu cu phát trin khoa h khu vc và quc t: công b khoa hc có
cao (các bài có h s ng - IF cao, ví d trong nhóm tp chí Nature);
xây dng tim l vt ch i nhp quc t.
Nhu cu phát trin cc dù các chng tc, các
cá th ch khác nhau v cu trúc ~0,1% (hay ~3 triu/ ~3,2 t bp ca cu trúc toàn b
b/ h n khác bit rt nh này li vc
m nhân chng hc, ging nòi ca c mt dân tc, là yu t di truyn
sc khe ca mi cá th. Vì vy, vic nghiên cu h gen các cá th thuc mi dân tc
là v rt cn phát trin tip theo v B gen hi (Human
Genomicsc bit, cc phi ca
dân tc mình và không th có ai làm h, làm thay.
Vit Nam, quc gia vi trên 86 tring th 13 trên th gii v dân s)
vi 54 dân tc anh em, cn có mt chic lâu p bách và c
th v nghiên cn, nhng ng dn h gen i
Vit Nam. Tuy nhiên, vic nghiên cng b v h gen i Vit Nam (vi trang
thit b tn có) s rn kém v thi gian và chi phí và
không kh thi. Vì vy, cn có mt d m c quc gia và hi
nhp quc t thì mi thc hic.
4
A. NỘI DUNG 1
BẢN THẢO DỰ ÁN NGHIÊN CỨU KHOA HỌC CƠ BẢN
KHOA HC CHO D ÁN GII TRÌNH T VÀ PHÂN
TÍCH H I VIT NAM)
5
D ÁN NGHIÊN CU KHOA HN
N I: 2012-N II: 2016 2020, TN 2030)
I. THÔNG TIN CHUNG (TÓM TT D ÁN)
1.1. Tên D án:
Gic trình t h i Vit Nam
Tên ting Anh: Vietnam Human Genome Sequencing Project
Tên vit tt: Ting Vit - HGNV (H i Vit)
Ting Anh - VHGP
1.2.
Vin Nghiên cu H gen (Genome)
Vin Khoa hc và Công ngh Vit Nam
1.3.
1.4.
1.5.
1.6.
--
-2020)
1.7. Mc tiêu ca D án
Mc tiêu chung: Gii mã hoàn chnh h i Vi
cho các nghiên cn và ng dng trong y-c khác.
c tp th khoa hc m
thc h
Mc tiêu c th:
- Gic h gen ca mt s cá th i VN (thành viên ca mt s gia
t Nam;
6
- u trúc phân t
n cho các nhóm dân tng
i Vinh ngun gc các dân tc, quan h chng loi phát
sinh và tin hóa nhân chng hc tii Vit;
-u hi
ng, tim mm phát hin các
ch th phân t cho chu tr.
- Xây dc tp th khoa hc m gii quyt các v khoa
hc công ngh trong gi
ng, vt
nuôi, vi sinh v
- o và hp tác quc t vi các Trung tâm/ Vin nghiên cu genome
u ca th gii.
1.8. Ni dung, t chc và ti thc hin
1.8.1. Nội dung
1.8.1.1. Các ni dung khoa hc ca d án
-2015):
- trình t:
-
- (exome)
- -
- 20
2-3
G-2020):
- (exome)
-
-
7
T
- Thc hin gii mã và so sánh h i vi s ng lp trung vào
nghiên cu so sánh h gen ca mt s nhóm bnh xut hin vi tn s cao hoc các
bnh có tính cht di truyn vng trong cng, kt hp vi
nghiên cu v y u tr hoc thuu tr
cho các nhóm bnh này.
- Thc hin các nghiên cu hu h
- Nghiên cu so sánh h gen ca các nhóm dân t nghiên cu v ng di
truyi Vit Nam.
- Gii mã và phân tích h gen ca các sinh vt có giá tr kinh tc hu ca Vit
Nam. T c kh ng chu vi
u kin bt lnh tu ki
1.8.1.2. Yêu ct b và xây d h tng
Tt b cho d án và Vin Nghiên cu H c
c b u t n 201 n II t
2016-a chn, tu thuc vào ngun kinh phí
có th la chc III.
- Phương án I là phương án tối thiểu, ch có 01 thit b gii trình t th h mi,
01 h thng siêu máy tính ti thiu (512 CPU cores, 1,4 TB RAM và 500 TB storage).
Mc tiêu ci trình t và phân tích h i Vit Nam vi
quy mô t 100 500 cá th.
- Trong phương án IIt b gii trình t th h mi ca Roche
và 01 máy khi ph phân tích cu trúc và cht b gii trình t
Roche có th gii trình t n 800 nucleotide.
Ngoài mc tiêu gii trình t và phân tích h i, vi thit b gii trình t th h
mi ca Roche, chúng ta có th thc hin gii trình t các sinh vt có giá tr khác.
Cùng vi các thit b gii trình t th h mi là h thng phân tích h protein (máy
khi ph) cho phép ti h protein hc ci, t
có th tìm ra các ch th sinh hc giúp chu tr các bnh i (truyn
nhi
- Phương án III i vi mt Vin nghiên cu h gen
và hu h gen. Tng mn so v thit b gii
trình t 4 máy (có máy d ng hp máy kia
8
gp trc trc), kh ca h thc
1.8.2. Tổ chức thực hiện
Hin nay, Vin Công ngh sinh h trì Phòng thí nghim trng
m Công ngh gen thc hin các nhim v ng nghiên cu h gen hc, tin
sinh hc, h protein hc. Tuy nhiên, Phòng thí nghim trm Công ngh gen là
ho m, cho phép tt c các nhà khoa hc trong c c có
nhu cu có th n làm vic. Quy mô ca phòng thí nghim nh, quy ch hong
theo ch hch toán ph thuc Vin Công ngh sinh h thc hin
c mc tiêu và nhim v ch trì nghiên cu d án h gen phi là
mt Vin nghiên cu quc gia có tm c li Phòng thí nghim trm.
nghiên cu chuyên v h i và các sinh vt khác ca Vit
Nam, vì vy nó phi hoc lp, v m bo tính bo mt thông tin cao
y, nu d ng b v trang thit b
thành lp vin nghiên cu chuyên ngành chuyên v h gen là cp bách và cn thit.
Ngoài vic thc hin d án gii trình t h i Vit Nam, các trang thit b ca
d án còn thc hin các d án gii trình t và phân tích h gen ca nh sinh
vt khác.
Khi d c xem xét phê duyn tring thi vic thành lp
Vin Nghiên cu H gen (Genome). D án do Vin Nghiên cu H gen (Genome)
qun lý và thc hii s u hành, giám sát ca Vin Khoa hc và Công ngh
Vit Nam. Ban Qun lý d án do Vin Nghiên cu H gen (Genome) quynh thành
lp, có nhim v u hành toàn b quá trình thc hin, t án
n I (2012- n II (2016-2020),
ng phát trin 2030. n 2012-2013: ngh Vin Khoa hc và
Công ngh Vit Nam cho phép tm thi s dng mt s din tích c chc
c gii phóng ti nhà A2 hou hành
ca Vi dng. Nu cn thit, xin thuê thêm 80 100 m
2
ti Khu nhà
ng dng - Trin khai ca Vin KH&CNVN (18 Hoàng Quc Vit); Lp k hoch
xin ct và xây dng D án nhà làm vic ca Vin Nghiên cu H gen. T 2013-
2016: xây dng khu nhà làm vic mi vi mt bng t 500-1000m
2
(có th liên kt
v khác trong Vin Khoa hc và Công ngh Vit Nam).
Giai đoạn I, thành lp t chc nghiên cu mi là Vin Nghiên cu H gen
(Genome) do Ch tch Vin Khoa hc và Công ngh Vit Nam quynh thành lp,
vi quy mô v nhân s, t 20-30 (ch yu xin Ch tch Vi i t
9
Phòng Công ngh ADN ng dng, Vin Công ngh sinh ht b
u cn thi thc hin vic gii mã và phân tích h i Vit, vi mc
tiêu kn I có th gic 100 h gen ni Vio
ngun nhân lc cn thi thc hin các d án gii mã h i và các sinh vt
có giá tr kinh t và khoa hc ca Vit Nam. Thc hin vic gii mã toàn b h gen
ci Vit Nam.
Giai đoạn II, nâng cp Vin nghiên cu H nghiên
cu Quc gia (Ngh nh chính ph) thuc Vin Khoa hc và Công ngh Vit Nam,
khu vc quc t, vi quy mô v nhân lc t 50 i. Tip tu
p trang thit b phc v do vic gii mã h gen i, nghiên cu chc
sinh vt có giá tr khoa hc và kinh t ca Vit Nam.
Tip t ngun nhân l có th thc hin các d
án gii mã h gen. Tin hành gii mã h i Vit Nam, vi mc tiêu kt thúc
n II s gic 1000+ h i Vit Nam. Thc hin các nghiên cu
hu gic hin các d án gii
sinh vt có giá trnh khoa hc và kinh t ca Vit Nam.
Tầm nhìn đến năm 2030 và xa hơn: Nâng quy mô Vin Nghiên cu H gen
(Genome) lên mc 150 i, v quc t v các
c h gen hc (genomics), tin sinh hc (bioinformatics), h protein hc
thit b th h mi phc v các d án ca Vin.
Tip tc gii mã và phân tích h i Vit Nam vi s ng ln hành
các nghiên cu hu gii mã và các nghiên cu gii mã các sinh vt khác.
1.9.
1.9.1. Giai đoạn I (2012- 2015): “100 genome người Việt”
Gii mã hoàn chnh h gen mt s ph h 3 ph h, bao gm 2-3
th h, 10 -15 cá th khe mc gii mã vi s ln lp l
chc 1-2 hi Vit Nam: La chn ly 1-2
trình ti Vi cho các s liu sau này có th
làm chun tham chiu.
50 h gen hoàn chnh (lp li cao, 30X) ca các cá th thu-
nhau c-c cho nghiên cu mi
quan hng di truyn và tin hóa phân t.
u hin (exome, lp li canh nhân m
ng, tim mch
10
Tng sn 2012-2015, gic khong 100-115 genome/ exome
i Vit Nam (bao gm: 10 -15 cá th chu dân tc, 50
bnh nhân), có tp h
protein suy din t h
Vi gen (Genome) Qu
i và các sinh v
Tham gia thc hin mt s d án gii mã h gen các sinh vt khác: vi sinh vt,
cây trng, vt nuôi (kinh phí vn hành t tài, d án khác).
1.9.2. Giai đoạn II (2016- 2020): “1000 genome người Việt”
Tip tc gii mã h gen các cá th thuc 8 nhóm dân tc trong cng các
dân tc Ving s h c gii mã hoàn chnh ca c n lên
500 (+450).
Tip tc gii mã h gen (exome) các bng s exome các bnh
c gii mã lên 500 (+450).
ng cng có 1010 -1015 h i Vic gii
mã hoàn chnh và phân tích s liu chi tit.
Tip tc tham gia thc hin mt s d án gii mã h gen các sinh vt khác: vi
sinh vt, cây trng, vt nuôi (kinh phí vn hành t c tài, d án khác).
Vi gen Qu
quc ti và các sinh v h tng
phòng thí nghim cho Trung tâm/ Vin nghiên cu H c trin khai cui giai
n II, kt thúc trong 2 -
1.8.3. Tầm nhìn đến 2030 và xa hơn:
Phát trin nhanh các nghiên cu gii mã h gen cá th i Vi
con s h c gii mã lên 10
4
- 10
5
, thm chí lên 10
6
khoa hc cho
phát trin h c hc (Pharmacogenomics), h gen hc cá th (Individual
Genomics) và y hc cá nhân (Personal Medicine).
Phát tring nghiên cu ng dng và dch v ca nghiên cu h gen
i khe mnh và các loi bnh nan y.
Phát trin nhanh các nghiên gii mã h gen và ng di vi các sinh vt
c hu ca Vit Nam, bao gm: vi sinh vt, cây trng, vt nuôi.
Phát trin Vi gen Qu khu vc và quc t.
11
1.10. -2020):
1.10.1. Phương án I, phương án tối thiểu: 13 005 000 USD
T-2015): 7
- Kinh phí mua thit b gii trình t gen th h mi (Illumina Hiseq 2000): 1 h
thng = 1,2 triu USD
- Kinh phí mua h thng siêu máy tính (HPC): 1 h thng (500cores, 1,4 TB
RAM, 500 TB storage) = 1,3 triu USD
- Các thit b tha
(u tra, thu thp mi dân tc thiu s): 190 000
USD
- Kinh phí vn hành (thc hin các no, hp tác quc t): 1 265
- Kinh phí mua sm thit b ph tr
- Kinh phí xây dng h tng Phòng thí nghim ca Trung tâm/ Vin nghiên cu
H gen: 2,5 tri 2 và th 3 cn I: 2014-2015).
T-
- Mua thêm 1 máy gii trình t gen th h mu USD
- Thay th ph tùng, nâng cn trc: 0,2 triu USD
- Nâng cp h siêu máy tính: 0,8 triu USD
- Kinh phí vn hành: 0,5 tri
- Kinh phí tr thù lao cán b tham gia thc hi
- Kinh phí mua sm thit b ph tr mi: 0,4 tri
- o/ hp tác quc t: 0,1 tri
282 tring
1.10.2. Phương án II: 15 655 000 USD
Tm (2012-2015): 9
- Kinh phí mua thit b gii trình t gen th h mi (Illumina Hiseq 2000): 1 h
thng = 1,2 triu USD
- Kinh phí mua h thng siêu máy tính (HPC): 1 h thng (500 cores, 1,4 TB
RAM, 500 TB storage) = 1,3 triu USD
- Thit b gii trình t th h mi Roche FS FLX+: 700 nghìn USD
- H thng phân tích proteome (máy khi ph): 1,5 triu USD
- Các thit b tha
u tra, thu thp mi dân tc thiu s): 190 000
USD
12
- Kinh phí vn hành (thc hin các no, hp tác quc t): 1 265
- Kinh phí mua sm thit b ph tr: 1,3 tri
- Kinh phí xây dng h tng Phòng thí nghim ca Trung tâm/ Vin nghiên cu
H gen: 2,5 tri 2 và th 3 cn I: 2014-2015).
T-
- Mua thêm 1 máy gii trình t gen th h mu USD
- Thay th ph tùng, nâng cp máy mua trong c: 0,2 triu USD
- Nâng cp h siêu máy tính: 0,8 triu USD
- Kinh phí vn hành: 0,5 tri
- Kinh phí tr thù lao cán b tham gia thc hi
- Kinh phí mua sm thit b ph tr mi: 0,4 tri
- o/ hp tác quc t: 0,1 tri
282 tring
1.10.3. Phương án III, phương án tối đa: 18 390 000 USD
Tng kinh p-2015): 12
- Kinh phí mua thit b gii trình t gen th h mi (Illumina Hiseq 2000): 2 h
thng = 2,4 triu USD
- Thit b gii trình t th h mi Roche FS FLX+: 700 nghìn USD
- Kinh phí mua h thng siêu máy tính (HPC): 1 h thng (1000 cores, 3TB
RAM, 1000 TB storage) = 2,4 triu USD
- H thng phân tích proteome (máy khi ph, UHPLC, FPLC ): 1.935.000
USD
- Các thit b tha
u tra, thu thp mi dân tc thiu s): 190 000
USD
- Kinh phí vn hành (thc hin các no, hp tác quc t): 1 265
- Kinh phí mua sm thit b ph tr: 1,3 tri
- Kinh phí xây dng h tng Phòng thí nghim ca Trung tâm/ Vin nghiên cu
H gen: 2,5 tri 2 và th 3 cn I: 2014-2015).
T-
- Mua thêm 1 máy gii trình t gen th h mu USD
- Thay th ph tùng, nâng cc: 0,2 triu USD
- Nâng cp h siêu máy tính: 0,8 triu USD
- Kinh phí vn hành: 0,5 tri
13
- Kinh phí tr thù lao cán b tham gia thc hi
- Kinh phí mua sm thit b ph tr mi: 0,4 tri
- o/ hp tác quc t: 0,1 tri
282 tring
1.10. D kin t
-5 triu USD
14
II. MC TIÊU CA D ÁN
Mc tiêu chung: Gii mã hoàn chnh h i Vit Nam, làm
cho các nghiên cn và ng dng trong y-c khác. Xây
c tp th khoa hc m
c h
Mc tiêu c th:
- Gic h gen ca mt s cá th i VN (thành viên ca mt s
t Nam;
- u trúc phân t
n cho các nhóm dân tc trong công
i Vinh ngun gc các dân tc, quan h chng loi
phát sinh và tin hóa nhân chng hc tii Vit;
-u hi
ng, tim mm phát hin các ch
th phân t cho chu tr.
- Xây dc tp th khoa hc m gii quyt các v
khoa hc công ngh trong gi
ng, vt nuôi,
vi sinh v
- o và hp tác quc t vi các Trung tâm/ Vin nghiên cu h
u ca th gii.
15
III. KHOA HC CA D ÁN
3.1.
3.1.1. Dự án Genome người (Human Genome Project, HGP)
Tóm tt lch s ca d án
D án H gen i thc hin trong khoc khng t
quan khoa
hc nhà nc do M u vi khong 20 nc và vùng lãnh th tham gia. Trên
thc tc khi d c vn hành chính th
n dòng DNA (cosmid) cha tng nhim sc th riêng r c
c xây dng ti Phòng thí nghim Quc gia Los Alamos (Los Alamos National
Laboratory - LANL) và Phòng thí nghim Quc gia Lawrence Livermore (Lawrence
Livermore National Laboratory - LLNL), Hoa K
kt qu trình t ca tng nhim sc th vn tip tc tin hành cho t
D -4 t USD tin ngân nhà nc cho gii mã hoàn chnh h gen
ngi (khong 3,2 t bp), vi DNA ly t 5 cá th i din 5 chng tc ngi trên th
gi ng thi, vic gii mã h gen ng c Công ty t nhân Celera
Genomics ca M tin hành (s tii hàng t USD). Kt qu
là mi nhóm gii mã hoàn chnh 1 h gen ngng thi công b
tp chí khoa hc danh ting nht là Nature, Anh (McPherson et al., 2001), và Science,
M (Venter et al., 2001). Trình t cc tài tr t ngân sách ca các chính
ph c công khai, d liu thông tin v h gen cho toàn th gii cùng s dng,
c g chu tham chi
Mc tiêu ca d án
Mc tiêu chung ca d án là nhm gii mã tt c khon 25.000
gen ni, cung cp thông tin v cu trúc và t chc ca các gen, phc v các nghiên
c di truyn và bnh hc i. Bên c t ra mt
nhim v khác là phi gii trình t toàn b cp base trong h gen ci.
t phn ca d án H gen i, các nghiên cu song song tin hành trên các
16
sinh vn Escherichia coli và chun các k
thut và gii thích chi mã.
D án H gen c chia thành hai giai n 1 t n
n 2 t u tiên d c tin hành
c si k hoch và kéo dài thi
(Collins & Galas, 1993). Trong n này,
các mt ra bao gm:
- Lp b di truyn
Hoàn thành b v phân gii 2 -
Phát trin k thunh nhanh kiu gen;
Phát trin các du chun (marker) d s dng;
Phát trin các k thut lp b mi.
- Lp b hình th
Hoàn thành b các v u trên trình t (sequence tagged site -
STS) ca h gen i v phân gii 100 kb.
- Gii trình t DNA
Phát triu qu gii trình t mt ti vài vùng DNA
quan tâm có chiu dài hàng Mb;
Phát trin k thut gii trình t nhanh, tp trung và các h thng tích hp tt
c c t chun b khuôn DNA ti phân tích d liu;
Xây dng công sut gii trình t cho phép gii trình t vi t 50 Mb/
i cun.
- nh các gen
Phát triu qu nh các gen và sp xp các gen
t vào b vt lý hoc gii trình t.
- Phát trin k thut
M rng h tr phát trin các k thut mi tin k thut hin
ti v gii trình t u ca d án H gen
i nói chung.
- Các sinh vt mô hình
Hoàn thành b STS ca h gen chut v phân gii 300 kb;
Hoàn thành trình t h gen vi khun Escherichia coli và nm men
Saccharomyces cerevisiae ti c s
17
Tip tc gii trình t h gen Caenorhabditis elegans và Drosophila
melanogaster nhm hoàn chnh trình t C. elegans
Gii trình t mt s vùng chn lc trên DNA chut cùng v
hiên cu.
- Công ngh thông tin
Tip tc to ra, phát trin và v d liu và các công c
s d li có th d dàng truy cp các d liu, bao gm các công c tin
ích và các tiêu chui d liu và các liên k d liu;
Cng c, xây dng và tip tc phát trin các phn mm tin ích phc v các
d án h gen quy mô ln;
Tip tc phát trin các công c so sánh và gii mã thông tin ca h gen.
- Các v v c, lut pháp và xã hi
Tip tv và phát trin các la chn chính
gii quyt các v
Phát trin và ph bin các dch v th nghim
di truyn vi mc tiêu s di trà;
Khuyn khích s chp nhn s ng di truyi.
- o
Tip tc khuyo các nhà khoa hn
nghiên cu h gen.
- Chuyn giao công ngh
Khuy ng chuyn giao công ngh c trong và ngoài
nghiên cu h gen.
- Mc tiêu lâu dài
Hp tác vt lp các trung tâm v các vt liu h gen;
Chia s tt c các thông tin và vt liu trong vòng 6 tháng, bao gm gi
thông tin t d liu công khai ho hoc c hai nu phù
hp.
n th c thc hin t ng vào các ni dung sau
(Collins et al., 2003):
- Gii trình t DNA i
Hoàn thành trình t h gen hoàn chnh ci vào cu
Hoàn thành 1/3 trình t i vào cu
bao ph ít nht 90% h gen trong bn nháp dp
b c vào cu
18
Hoàn chnh toàn b trình t và cung cp các công c phân tích d liu min
phí.
- K thut gii trình t
Tip t ng vt lim giá thành ca k thut gii
trình t hin ti;
H tr nghiên cu các k thut mi có th i nhng ci ti
trong k thut gii trình t;
Phát triu qu ci tin k thu thut
gii trình t mi vào quá trình gii trình t.
- h gen i
Phát trin các k thut nhnh nhanh và trên quy mô ln và/ hoc
ghi l
DNA;
bin trong các vùng mã hóa ca phn ln các gen
c gii mã trong sun này;
To ra b SNP ca ít nht 100 000 marker;
Phát tri trí tu phc v các nghiên cu v ng trình t;
To ra các ngun min phí v mu DNA và dòng t bào.
- H gen hc ch
To ra mt b p các trình t và c hoàn
chnh mang các gen ci và ca sinh vt mô hình;
H tr nghiên cu v u cha các trình
t mã hóa các phân t không phi protein;
Phát trin k thut phân tích toàn din s biu hin ca gen;
Ci tit bin trên quy mô h gen;
Phát trin k thut phân tích protein trên quy mô ln.
- H gen hc so sánh
Hoàn thin trình t ca h gen giun tròn C. elegans
Hoàn thin trình t ca h gen rui gim Drosophila
Phát trin b kt hp gia b vt lý và b di truyn ca chut,
to ra ngun cDNA b sung t chut, và hoàn thin trình t h gen chut
nh các sinh vt mô hình hu ích khác và h tr các nghiên cu h gen
thích hp.
19
- Các v v c, lut pháp và xã hi
Kho sát các v xung quanh vic hoàn thin trình t DNA ci và
nghiên cu v s ng di truyn i;
Kho sát các v phát sinh t vic kt hp các k thut di truyn vi các
thông tin liên quan tc khe và các hong sc khe cng
ng;
Kho sát các v phát sinh t vic kt hp nhng hiu bit v h gen hc
a gen v ng hp phi lâm
sàng;
Tìm hiu xem nhng kin thc di truyn mi này s nào
vi mt lot các v v trit hc, lý luc;
Tìm hiu xem các nhân t v chng tc, dân tc và kinh t xã hi s nh
nào ti vic s dng, hiu bit và gii thích v thông tin di
truyn, s s dng các dch v di truyn và s phát trin chính sách.
- Tin sinh hc và sinh hc tính toán
Ci tin ni dung và tính thit thc c d liu;
Phát trin các công c tiên tic phát sinh, nm bt và gii
thích d liu;
Phát trin và ci tin các công c d liu v các nghiên cu chc
n;
Phát trin và ci tin các công c nhm th hin và phân tích m
ng ca trình t;
T nhm h tr u qu trong vic sn
xut các phn mm mnh và có tit khu có th c s dng
rng rãi sau này.
- o ngun nhân lc
o các nhà khoa hc thành tho trong nghiên cu h gen hc;
H tr ng s nghip khoa hc cho các nhà khoa hc nghiên cu h
gen;
Nâng cao s ng các hc gi có kin thc chuyên sâu v khoa hc h gen,
di truyn hc và c c v c, lut pháp hoc khoa hc
xã hi.
Các kt qu c ca d án
20
Hin nay, d án trên quy mô lc công ngh sinh h
c rt nhiu thành tt k thut mi, các
b di truyn, b hình th và phiên mã ca h gen ca mt vài loài sinh vt,
mt s u khoa hc song song tih
nghiên cu v c sinh hc (bioethics), và mt bn trình t hoàn chnh ca h gen
và s dng min phí cho tt c ng. D án H gen i
không ch hoàn thành tt c các m u mà tht mc các
mBng 1) (Collins et al., 2003).
Kt qu quan trng nht sau khi có bh gen ngi (2003) cho chúng
ta rt nhiu thông tin v s c trong h gen, t l mã hóa protein, s
sp xp/ phân b ca các vùng trong h gen, m t bin trong h gen
i và nhng so sánh v h gen gii vi mt s sinh vt khác.
V c, h gen i cha 3.164,7 triu nucleotide (A, C, T và G). Kích
c trung bình ca mi gen là khong 3000 nucleotide, tuy nhiên trên thc t, kích
c rt khác nhau c dài nht i
là gen mã hóa dystrophin, dài 2,4 triu nucleotide.
Bng 1. Các mu và kt qu a d án H gen i
(Collins et al., 2003)
Nhim v
Mu
Các kt qu c
Thi gian
hoàn thành
B di truyn
B v phân gii t
n 5 cM (600 1.500
marker)
B v phân gii 1
cM (3.000 marker)
Tháng 9/1994
B hình th
30.000 STS
52.000 STS
10/1998
Trình t DNA
95% vùng cha gen ca
trình t c
hoàn thành v chính
xác ti 99,99%
99% vùng cha gen ca
trình t c
hoàn thành v chính
xác 99,99%
Tháng 4/2003
Công sut và giá
thành ca trình t
hoàn chnh
500 Mb trình ti
i 0,25 USD/
nucleotide
1.400 Mb trình t
v i 0,09 USD/
nucleotide
Tháng
11/2002
ng trình t
i
Lp b
(SNP)
p b 3,7 triu
SNP
Tháng 2/2003
nh gen
Các cDNA có chiu dài
hoàn chnh
15.000 cDNA có chiu dài
hoàn chnh
Tháng 3/2003
Sinh vt mô hình
Trình t h gen hoàn
chnh ca E. coli, S.
cerevisiae, C. elegans, D.
melanogaster
Trình t h gen hoàn chnh
ca E. coli, S. cerevisiae,
C. elegans, D.
melanogaster và bn nháp
Tháng 4/2003
21
Nhim v
Mu
Các kt qu c
Thi gian
hoàn thành
trình t toàn b h gen ca
mt s loài khác bao gm
C. briggsae, D.
pseudoobscura và chut
Phân tích chc
Phát trin các k thut
m h gen
Tng hp nhanh các
oligonucleotide
1994
Các microarray DNA
1996
Bt hot toàn b h gen,
sinh vt nhân chun ( nm
men)
1999
M rng quy mô ca h
thng two-hybrid cho
-protein
V s ng gen, tng s gen trong h gen c tính khong 30 000 gen,
con s này thu so vi con s d n 140 000) da trên các
ngoi suy t các vùng giàu gen (h gen c gii thuyt cha các vùng giàu gen
và các vùng ít gen). Trong s c phát hin, có t
ch t c trình t u ging nhau tt c các
chng tc, các cá th ngi và ch khác nhau vi mt t l rt nh (0,1%) v cu trúc
h gen (hay ~3 triu/ ~3,2 t bp ca cu trúc toàn b b/ h gen). Tuy nhiên, phn
khác bit rt nh này li vm nhân chng hc ca
mt dân tc, là yu t di truyn sc khe ca c dân tc và mi cá th.
V t l mã hóa protein, ch mt phn trình t rt nh trong h gen i 2%)
là các trình t mã hóa cho protein. Các trình t lp l
n- m ít nht 50% h gen i. Các trình t lp li này mc dù
c tip nào trong vic cho là
góp phn quan trng và cng lc hc ca các nhim sc th. Bng cách tái
sp xp, nhn lp li này s sp xp li thành phn trong h gen, t o ra
các gen hoàn toàn mi, và bii và/ hoc ci to ln ti trong h
gen. Trong sut 50 tri n lp li trong h gen i
.
V s sp xp/ phân b, các vùng tp trung nhiu gen trong h gen là các vùng
c li, các vùng ít gen là các vùng DNA giàu A và T. Các
i kính hin t i d
sáng và ti trên các nhim sc th. Các gen tp trung thành các vùng ngu nhiên trong
h gen, xen gia bi các vùng DNA không mã hóa. Các vùng lp li giàu GC dài ti
22
30.000 nucleotide ng xut hin bên cnh các vùng giàu gen, to ra mt hàng rào
gia các gen và vùng DNA nc cho rng s tham gia vào các
hou hòa s biu hin ca gen. Nhim sc th 1 là nhim sc th tp trung
nhiu gen nht (2.968 gen) và nhim sc th Y là nhim sc th cha ít gen nht (429
gen).
Khi so sánh trình t h gen gii vi các sinh vt khác, n i
c phân b mt cách ngu nhiên trong h gen thì các sinh vt
khác, h gen c phân b i các gen nn dc
theo nhim sc th. Do có hing ct ni luân phiên (alternative splicing) trong
quá trình hoàn thin phân t mRNA mà, tính trung bình, s loi protein i nhiu
gp 3 ln so vi rui gim hay giun tròn. Quá trình ct ni luân phiên có th to ra
các sn phc mã hóa t cùng mt gen. S h protein i
hng vi giun, rui gim và thc v ng các thành viên trong
h gen i là ln nhc bit là trong các protein tham gia vào các quá trình
phát trin và h min dch. Các trình t lp li chim t l rt ln trong h gen i
này ch xut hin vi mt t l khá khiêm tn các
mù tc (mustard weed) (11%), giun tròn (7%) và rui gim (3%).
Mng vip li t
tring này vn xy ra các loài gm nhu này có
th góp phn vào nhng khác bin gia h i vi h gm nhm, mc dù
c tính các gen ging. Các nhà khoa h
nhiu gi thuyt gii thích v s n v mt tin hóa gii vi các loài
sinh vt khác, bao gm tuc trong các l , s giao phi gn, và
phiêu dt di truyn.
V m ng và t bin, các nhà khoa hc khong 3
triu v trí xy ra nhng sai khác v trình t i.
Thông tin này ha hn s to ra mt cuc cách mng trong vic tìm kim các v trí ca
các trình t n bnh trên nhim sc th và truy tìm lch s nhân loi. T l
t bin trong các t bào mm (tinh trùng hoc trng) là 2 nam : 1 n. T t
bin cao trong các t bào mm nam gic gii thích là do s hình thành tinh
i các t bào mm phi phân bào nhii s hình thành trng n
gii.
23
ng dng, thách th
Nhng hiu bit vô cùng hc t trình t o ti cho
nghiên cu trong các thp niên sp tng h thng hc sinh hc. Nhim v to
ln này s chuyên môn và s sáng to ca nhiu nhà khoa hc t
nhiu ngành trong c các t ch gii.
Trình t t phn quan trng vào vic tìm ra nhng gen có liên
quan ti các bnh i. Nhinh và ch ra có liên quan ti ung
nh v c, và mù lòa. Ngoài ra, vic phát hin các trình t DNA liên
quan ti các bnh ph bich, ting, viêm khn
c s h tr rt ln t các b ng c to ra trong d án
H gen i cùng vi s cng tác ca mt s
c tiêu c th trong vic phát tri liu mi.
Bên c h gen thành mt công c mi cho nghiên
cu sinh hc và y hu ch nghiên cu mt hoc mt
vài gen ti mt thn nay, vi trình t h gen hoàn chnh và các k
thut mi thc hin trên quy mô ln, h hoàn toàn có th tip cn các câu h
li git cách h thng và trên quy mô ln. Ví d, có th nghiên cu tt c các
gen trong h gen hoc tt c các bn sao phiên mã trong mt mô, mt
khi u c th hoc nghiên cu cách tha hàng chc nghìn gen và protein
phi hp, duy trì s hong ca các h th.
Bc phát trin logic tip theo ca công trình gii mã h gen ngu tiên
n ti nhiu quc gia trên th gii. Trên s s
các d liu v h gen (trình t chuc công b và s dng min phí, các quc
gia s m gen ca các dân tc, các cá th khe mnh và
mc các bnh khác nhau ca nng thi thu nhn vt liu gen (DNA) và
sn phm gen (protein) cn các dân tc, các cá th nghiên cu sâu v cu
trúc, cha chúng theo hng nghiên cu c b ng dng trong
chu tr.
24
3.1.2. Dự án Lập bản đồ kiểu gen đơn bội ở người (Haplotype map of human
genome)
D án Lp b kii quc t (hay còn gi tt là d án HapMap)
c khng t i mc tiêu phát trin mt b kii
ca h gen i, hay còn gi là b HapMap, mô t nhng ki bin
trong trình t DNA cc k vng s tr thành mt công c quan
trc s d phát hin các gen có liên quan cht ch ti sc khe, bnh tt
c i và m ng mi trong nghiên cu tr liu
( c mt s n v
HapMap.
HapMap là gì?
HapMap là mt catalogue, ghi li tt c n ph bin trong
vt cht di truyn ci. HapMap s ch trí ca chúng
trong phân t DNA, và cách thc phân b ca chúng trong qun th ni và gia
qun th i vi phn còn li ca th gii. D án HapMap quc t không s dng
thit lp mi liên h gin c th
vi mt bc li, d c thc hin nhm cung cp thông tin
giúp các nhà nghiên cu khác có th s d liên h n vi nguy
a mt bnh c th, t phòng chng,
chu tr bnh.
Chúng ta bit rng DNA trong mi t bào c i, gi
bào ca các loài sinh vt khác, là mt chuc cu to nên bi bn loi
t t
c xâu chui vi nhau trong 23 cp nhim sc th tn ti
trong mi t i. Các trình t di truyn này cha các thông tin ng ti
các tính trng sinh lý c, s mn cm vi các loi bng
ci vi các tác nhân t ng.
Trình t di truyn các cá th ng vi nhau ti 99,9%. Khi so sánh
các nhim sc th c i hoàn toàn không có quan h h hàng g i
nhau, có th thy rng các trình t DNA ca h có th ging nhau t
nucleotide. Tuy nhiên, trung bình trên mi 1200 nucleotide trình t s có 1 nucleotide
sai khác nhau. Ví d, mi, trình t ti mt v DNA có