Tải bản đầy đủ (.pdf) (412 trang)

Xây dựng cơ sở khoa học cho dự án khả thi giải trình tự và phân tích bộ gen người việt nam

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.21 MB, 412 trang )

VIỆN CÔNG NGHỆ SINH HỌC








BÁO CÁO TỔNG KẾT ĐỀ TÀI

XÂY DỰNG CƠ SỞ KHOA HỌC CHO DỰ ÁN KHẢ THI
GIẢI TRÌNH TỰ VÀ PHÂN TÍCH BỘ GEN
NGƯỜI VIỆT NAM


CNĐT : NÔNG VĂN HẢI











9175

HÀ NỘI – 2011






1

T V

B gen hay còn gi là h gen (toàn b tp hi là có mt cu trúc
ht sc tinh vi và phc tp, gm 2 thành phn: i) B c khong 3,2
t  chic gi là nucleotide hoc c1000 bp= 1
 gen ty th c ch i biu hin ca s
sng, bao gm các yu t quynh sc khe mi (khe mnh hay 
n chy, vic nghiên cu cu trúc và chtoàn
b các gen c là mt v khoa hng ng dng ht sc
quan trng.
- D án H gen i (Human Genome Project, HGP), thi gian thc hin:
-c do M u vi
khong c và vùng lãnh th tham gia. D -4 t USD tin ngân nhà
c cho gii mã hoàn chnh h gen i (~3,2 t bp), vi DNA ly t 5 cá th i
din 5 chng ti trên th ging thi, vic gii mã h gen 
   hân Celera Genomics ca M tin hành (s ti  c tính
i hàng t USD). Kt qu là mi nhóm gii mã hoàn chnh 1 h gen i,
ng thi công b p chí khoa hc danh ting nht là Nature, Anh
(McPherson et al., 2001), và Science, M (Venter et al., 2001). Trình t ca Nhóm
c tài tr t ngân sách ca các chính ph c công khai, d liu thông tin v h
gen cho toàn th gii cùng s dc g chu tham
chi
Kt qu quan trng nht sau khi có b y,
các chng tc, các cá th i gin 99,9% và ch khác nhau v mt t l

rt nh (0,1%) v cu trúc h gen (hay ~3 triu/ ~3,2 t bp ca cu trúc toàn b b/ h
gen). Tuy nhiên, phn khác bit rt nh này li vm
nhân chng hc ca mt dân tc, là yu t di truyn sc khe ca c dân
tc và mi cá th.
c phát trin logic tip theo ca công trình gii mã h gen  u tiên

 các d liu v h gen (trình t chuc công b và s dng
min phí, các qum gen ca các dân tc, các cá th
khe mnh và mc các bnh khác nhau cc mình;
2

Thu nhn vt liu gen (DNA) và sn phm gen (protein) cn các dân
tc, các cá th  nghiên cu sâu v cu trúc, chng nghiên
cng dng trong chu tr.
Mt trong nhng thành tu mi nht v nghiên cu h gen i là vic gii
mã xong h gen ca c 4 thành viên trong u tiên (gm b m, 1 con trai
và 1 con gái) ti Vin Sinh hc H thng, Seatle (Hoa K) phi hp vi mt s 
i ta phát hic các gen ng c viên ln hi
chng Miller - bnh di truyn có tính chet al., 2010).
Tin sinh hc là b môn khoa hc mi liên ngành gia sinh hc và tin hc, trong
 d liu gen khng l c thit
ln mm, công c c phát tri phân tích, x lý s
liu sinh hc, mô hình hóa, mô ph nghiên cu ch
B c ht là h gen ty th và mt s gen cha h gen
c các nhà khoa hc Vit Nam quan tâm nghiên cu t u nh
2000 tr lc bic phê duy
sinh ht s phòng thí nghim trm, các nghiên cng
c nhng kt qu c u.
- Gii mã gen, bim ci khe m tham
chiu cho các nghiên ct bin gen  i bnh;

- Gii mã các h gen i bch, ting, Alzheimer )
giúp tìm ra bn cht di truyn ca các yu t liên quan; tìm ra các ch th ch
phát tric phu tr;
- Làm ch vic gii mã h gen i, có th áp dng cho vic gii mã các tác
nhân gây b sinh v phát trin
các ng dng trong nhic rt khác nhau.
- Các chuyên ngành khoa hc s sng (sinh hc) và công ngh sinh hc hii:
sinh hc phân t, công ngh gen, h gen hc cu trúc và ch protein hc, tin
sinh hc, h gen hi, di truyn phân t, công ngh protein và enzyme, tin hóa
phân t i, nhân hc phân t
- Các chuyên ngành y hc hc, khoa hc hình s, quc phòng-an ninh: Y
hc phân t, di truyn y hc phân t, dch t hc phân t, bnh hc phân t, h gen y
hc, h protein y hc, liu pháp gen, min dch hc phân t, h gen hc cá th i,
di truyn qun th nh gen, y-c hc quân s
3

- Công ngh thông tin (các trung tâm/ h thng tính toán hin
mm chuyên dng phân tích gen và protein, các h thng mô hình, mô phng, xây
d d li
 Nhu cu phát trin khoa h khu vc và quc t: công b khoa hc có
 cao (các bài có h s ng - IF cao, ví d trong nhóm tp chí Nature);
xây dng tim l vt ch i nhp quc t.
 Nhu cu phát trin cc dù các chng tc, các
cá th ch khác nhau v cu trúc ~0,1% (hay ~3 triu/ ~3,2 t bp ca cu trúc toàn b
b/ h n khác bit rt nh này li vc
m nhân chng hc, ging nòi ca c mt dân tc, là yu t di truyn
sc khe ca mi cá th. Vì vy, vic nghiên cu h gen các cá th thuc mi dân tc
là v rt cn phát trin tip theo v B gen hi (Human
Genomicsc bit, cc phi ca
dân tc mình và không th có ai làm h, làm thay.

Vit Nam, quc gia vi trên 86 tring th 13 trên th gii v dân s)
vi 54 dân tc anh em, cn có mt chic lâu p bách và c
th v nghiên cn, nhng ng dn h gen i
Vit Nam. Tuy nhiên, vic nghiên cng b v h gen i Vit Nam (vi trang
thit b tn có) s rn kém v thi gian và chi phí và
không kh thi. Vì vy, cn có mt d m c quc gia và hi
nhp quc t thì mi thc hic.









4














A. NỘI DUNG 1
BẢN THẢO DỰ ÁN NGHIÊN CỨU KHOA HỌC CƠ BẢN
 KHOA HC CHO D ÁN GII TRÌNH T VÀ PHÂN
TÍCH H I VIT NAM)
5

D ÁN NGHIÊN CU KHOA HN
N I: 2012-N II: 2016  2020, TN 2030)
I. THÔNG TIN CHUNG (TÓM TT D ÁN)
1.1. Tên D án:
Gic trình t h i Vit Nam
Tên ting Anh: Vietnam Human Genome Sequencing Project
Tên vit tt: Ting Vit - HGNV (H i Vit)
Ting Anh - VHGP
1.2. 
Vin Nghiên cu H gen (Genome)
Vin Khoa hc và Công ngh Vit Nam
1.3. 

1.4. 

1.5. 

1.6. 
--
-2020)

1.7. Mc tiêu ca D án
Mc tiêu chung: Gii mã hoàn chnh h i Vi
cho các nghiên cn và ng dng trong y-c khác. 

c tp th khoa hc m
thc h

Mc tiêu c th:
- Gic h gen ca mt s cá th i VN (thành viên ca mt s gia
 
t Nam;
6

- u trúc phân t
n cho các nhóm dân tng
i Vinh ngun gc các dân tc, quan h chng loi phát
sinh và tin hóa nhân chng hc tii Vit;
-u hi
ng, tim mm phát hin các
ch th phân t cho chu tr.
- Xây dc tp th khoa hc m gii quyt các v khoa
hc công ngh trong gi
ng, vt
nuôi, vi sinh v
- o và hp tác quc t vi các Trung tâm/ Vin nghiên cu genome
u ca th gii.
1.8. Ni dung, t chc và ti thc hin
1.8.1. Nội dung
1.8.1.1. Các ni dung khoa hc ca d án
 -2015):
- trình t: 
-

-  (exome)



- -
 - 20 
2-3

 G-2020):
-  (exome)

                

- 
-
 
7



 T
- Thc hin gii mã và so sánh h i vi s ng lp trung vào
nghiên cu so sánh h gen ca mt s nhóm bnh xut hin vi tn s cao hoc các
bnh có tính cht di truyn vng trong cng, kt hp vi
 nghiên cu v y   u tr hoc thuu tr
cho các nhóm bnh này.
- Thc hin các nghiên cu hu h 
- Nghiên cu so sánh h gen ca các nhóm dân t nghiên cu v ng di
truyi Vit Nam.
- Gii mã và phân tích h gen ca các sinh vt có giá tr kinh tc hu ca Vit
Nam. T c kh  ng chu vi
u kin bt lnh tu ki


1.8.1.2. Yêu ct b và xây d h tng
Tt b cho d án và Vin Nghiên cu H c
  c b u t n 201 n II t
2016-a chn, tu thuc vào ngun kinh phí
có th la chc III.
- Phương án I là phương án tối thiểu, ch có 01 thit b gii trình t th h mi,
01 h thng siêu máy tính ti thiu (512 CPU cores, 1,4 TB RAM và 500 TB storage).
Mc tiêu ci trình t và phân tích h i Vit Nam vi
quy mô t 100  500 cá th.
- Trong phương án IIt b gii trình t th h mi ca Roche
và 01 máy khi ph  phân tích cu trúc và cht b gii trình t
Roche có th gii trình t        n 800 nucleotide.
Ngoài mc tiêu gii trình t và phân tích h i, vi thit b gii trình t th h
mi ca Roche, chúng ta có th thc hin gii trình t các sinh vt có giá tr khác.
Cùng vi các thit b gii trình t th h mi là h thng phân tích h protein (máy
khi ph) cho phép ti h protein hc ci, t 
có th tìm ra các ch th sinh hc giúp chu tr các bnh  i (truyn
nhi
- Phương án III i vi mt Vin nghiên cu h gen
và hu h gen. Tng mn so v thit b gii
trình t   4 máy (có máy d ng hp máy kia
8

gp trc trc), kh  ca h thc

1.8.2. Tổ chức thực hiện
Hin nay, Vin Công ngh sinh h trì Phòng thí nghim trng
m Công ngh gen thc hin các nhim v ng nghiên cu h gen hc, tin
sinh hc, h protein hc. Tuy nhiên, Phòng thí nghim trm Công ngh gen là

 ho m, cho phép tt c các nhà khoa hc trong c c có
nhu cu có th n làm vic. Quy mô ca phòng thí nghim nh, quy ch hong
theo ch  hch toán ph thuc Vin Công ngh sinh h thc hin
c mc tiêu và nhim v  ch trì nghiên cu d án h gen phi là
mt Vin nghiên cu quc gia có tm c li Phòng thí nghim trm.
 nghiên cu chuyên v h i và các sinh vt khác ca Vit
Nam, vì vy nó phi hoc lp, v m bo tính bo mt thông tin cao
y, nu d  ng b v trang thit b  
thành lp vin nghiên cu chuyên ngành chuyên v h gen là cp bách và cn thit.
Ngoài vic thc hin d án gii trình t h i Vit Nam, các trang thit b ca
d án còn thc hin các d án gii trình t và phân tích h gen ca nh sinh
vt khác.
Khi d c xem xét phê duyn tring thi vic thành lp
Vin Nghiên cu H gen (Genome). D án do Vin Nghiên cu H gen (Genome)
qun lý và thc hii s u hành, giám sát ca Vin Khoa hc và Công ngh
Vit Nam. Ban Qun lý d án do Vin Nghiên cu H gen (Genome) quynh thành
lp, có nhim v u hành toàn b quá trình thc hin, t  án
       n I (2012-   n II (2016-2020),
ng phát trin 2030.  n 2012-2013:  ngh Vin Khoa hc và
Công ngh Vit Nam cho phép tm thi s dng mt s din tích c chc
c gii phóng ti nhà A2 hou hành
ca Vi dng. Nu cn thit, xin thuê thêm 80  100 m
2
ti Khu nhà
ng dng - Trin khai ca Vin KH&CNVN (18 Hoàng Quc Vit); Lp k hoch
xin ct và xây dng D án nhà làm vic ca Vin Nghiên cu H gen. T 2013-
2016: xây dng khu nhà làm vic mi vi mt bng t 500-1000m
2
(có th liên kt
v khác trong Vin Khoa hc và Công ngh Vit Nam).

Giai đoạn I, thành lp t chc nghiên cu mi là Vin Nghiên cu H gen
(Genome) do Ch tch Vin Khoa hc và Công ngh Vit Nam quynh thành lp,
vi quy mô v nhân s, t 20-30 (ch yu xin Ch tch Vi   i t
9

Phòng Công ngh ADN ng dng, Vin Công ngh sinh ht b
u cn thi thc hin vic gii mã và phân tích h i Vit, vi mc
tiêu kn I có th gic 100 h gen ni Vio
ngun nhân lc cn thi thc hin các d án gii mã h i và các sinh vt
có giá tr kinh t và khoa hc ca Vit Nam. Thc hin vic gii mã toàn b h gen
ci Vit Nam.
Giai đoạn II, nâng cp Vin nghiên cu H  nghiên
cu Quc gia (Ngh nh chính ph) thuc Vin Khoa hc và Công ngh Vit Nam,
 khu vc quc t, vi quy mô v nhân lc t 50  i. Tip tu
p trang thit b phc v do vic gii mã h gen i, nghiên cu chc
 sinh vt có giá tr khoa hc và kinh t ca Vit Nam.
Tip t ngun nhân l có th thc hin các d
án gii mã h gen. Tin hành gii mã h i Vit Nam, vi mc tiêu kt thúc
n II s gic 1000+ h i Vit Nam. Thc hin các nghiên cu
hu gic hin các d án gii
 sinh vt có giá trnh khoa hc và kinh t ca Vit Nam.
Tầm nhìn đến năm 2030 và xa hơn: Nâng quy mô Vin Nghiên cu H gen
(Genome) lên mc 150  i, v quc t v các
 c h gen hc (genomics), tin sinh hc (bioinformatics), h protein hc
 thit b th h mi phc v các d án ca Vin.
Tip tc gii mã và phân tích h i Vit Nam vi s ng ln hành
các nghiên cu hu gii mã và các nghiên cu gii mã các sinh vt khác.

1.9. 
1.9.1. Giai đoạn I (2012- 2015): “100 genome người Việt”

 Gii mã hoàn chnh h gen mt s ph h  3 ph h, bao gm 2-3
th h, 10 -15 cá th khe mc gii mã vi s ln lp l
chc 1-2 hi Vit Nam: La chn ly 1-2
trình ti Vi cho các s liu sau này có th
làm chun tham chiu.
 50 h gen hoàn chnh (lp li cao, 30X) ca các cá th thu-
nhau c-c cho nghiên cu mi
quan hng di truyn và tin hóa phân t.
 u hin (exome, lp li canh nhân m
ng, tim mch
10

 Tng sn 2012-2015, gic khong 100-115 genome/ exome
i Vit Nam (bao gm: 10 -15 cá th  chu dân tc, 50
bnh nhân), có tp h
protein suy din t h

 Vi gen (Genome) Qu
i và các sinh v
 

 Tham gia thc hin mt s d án gii mã h gen các sinh vt khác: vi sinh vt,
cây trng, vt nuôi (kinh phí vn hành t  tài, d án khác).
1.9.2. Giai đoạn II (2016- 2020): “1000 genome người Việt”
 Tip tc gii mã h gen các cá th thuc 8 nhóm dân tc trong cng các
dân tc Ving s h c gii mã hoàn chnh ca c n lên
500 (+450).
 Tip tc gii mã h gen (exome) các bng s exome các bnh
c gii mã lên 500 (+450).
 ng cng có 1010 -1015 h i Vic gii

mã hoàn chnh và phân tích s liu chi tit.
 Tip tc tham gia thc hin mt s d án gii mã h gen các sinh vt khác: vi
sinh vt, cây trng, vt nuôi (kinh phí vn hành t c tài, d án khác).
 Vi gen Qu
quc ti và các sinh v h tng
phòng thí nghim cho Trung tâm/ Vin nghiên cu H c trin khai cui giai
n II, kt thúc trong 2 - 
1.8.3. Tầm nhìn đến 2030 và xa hơn:
 Phát trin nhanh các nghiên cu gii mã h gen cá th i Vi
con s h c gii mã lên 10
4
- 10
5
, thm chí lên 10
6
 khoa hc cho
phát trin h  c hc (Pharmacogenomics), h gen hc cá th (Individual
Genomics) và y hc cá nhân (Personal Medicine).
 Phát tring nghiên cu ng dng và dch v ca nghiên cu h gen
i khe mnh và các loi bnh nan y.
 Phát trin nhanh các nghiên gii mã h gen và ng di vi các sinh vt
c hu ca Vit Nam, bao gm: vi sinh vt, cây trng, vt nuôi.
 Phát trin Vi gen Qu khu vc và quc t.

11

1.10. -2020):
1.10.1. Phương án I, phương án tối thiểu: 13 005 000 USD
T-2015): 7 
- Kinh phí mua thit b gii trình t gen th h mi (Illumina Hiseq 2000): 1 h

thng = 1,2 triu USD
- Kinh phí mua h thng siêu máy tính (HPC): 1 h thng (500cores, 1,4 TB
RAM, 500 TB storage) = 1,3 triu USD
- Các thit b  tha
(u tra, thu thp mi dân tc thiu s): 190 000
USD
- Kinh phí vn hành (thc hin các no, hp tác quc t): 1 265

- Kinh phí mua sm thit b ph tr
- Kinh phí xây dng h tng Phòng thí nghim ca Trung tâm/ Vin nghiên cu
H gen: 2,5 tri 2 và th 3 cn I: 2014-2015).
T-
- Mua thêm 1 máy gii trình t gen th h mu USD
- Thay th ph tùng, nâng cn trc: 0,2 triu USD
- Nâng cp h siêu máy tính: 0,8 triu USD
- Kinh phí vn hành: 0,5 tri
- Kinh phí tr thù lao cán b tham gia thc hi

- Kinh phí mua sm thit b ph tr mi: 0,4 tri
- o/ hp tác quc t: 0,1 tri
  282 tring

1.10.2. Phương án II: 15 655 000 USD
Tm (2012-2015): 9 
- Kinh phí mua thit b gii trình t gen th h mi (Illumina Hiseq 2000): 1 h
thng = 1,2 triu USD
- Kinh phí mua h thng siêu máy tính (HPC): 1 h thng (500 cores, 1,4 TB
RAM, 500 TB storage) = 1,3 triu USD
- Thit b gii trình t th h mi Roche FS FLX+: 700 nghìn USD
- H thng phân tích proteome (máy khi ph): 1,5 triu USD

- Các thit b  tha
u tra, thu thp mi dân tc thiu s): 190 000
USD
12

- Kinh phí vn hành (thc hin các no, hp tác quc t): 1 265

- Kinh phí mua sm thit b ph tr: 1,3 tri
- Kinh phí xây dng h tng Phòng thí nghim ca Trung tâm/ Vin nghiên cu
H gen: 2,5 tri 2 và th 3 cn I: 2014-2015).
T-
- Mua thêm 1 máy gii trình t gen th h mu USD
- Thay th ph tùng, nâng cp máy mua trong c: 0,2 triu USD
- Nâng cp h siêu máy tính: 0,8 triu USD
- Kinh phí vn hành: 0,5 tri
- Kinh phí tr thù lao cán b tham gia thc hi

- Kinh phí mua sm thit b ph tr mi: 0,4 tri
- o/ hp tác quc t: 0,1 tri
  282 tring

1.10.3. Phương án III, phương án tối đa: 18 390 000 USD
Tng kinh p-2015): 12 
- Kinh phí mua thit b gii trình t gen th h mi (Illumina Hiseq 2000): 2 h
thng = 2,4 triu USD
- Thit b gii trình t th h mi Roche FS FLX+: 700 nghìn USD
- Kinh phí mua h thng siêu máy tính (HPC): 1 h thng (1000 cores, 3TB
RAM, 1000 TB storage) = 2,4 triu USD
- H thng phân tích proteome (máy khi ph, UHPLC, FPLC ): 1.935.000
USD

- Các thit b  tha
u tra, thu thp mi dân tc thiu s): 190 000
USD
- Kinh phí vn hành (thc hin các no, hp tác quc t): 1 265

- Kinh phí mua sm thit b ph tr: 1,3 tri
- Kinh phí xây dng h tng Phòng thí nghim ca Trung tâm/ Vin nghiên cu
H gen: 2,5 tri 2 và th 3 cn I: 2014-2015).
T-
- Mua thêm 1 máy gii trình t gen th h mu USD
- Thay th ph tùng, nâng cc: 0,2 triu USD
- Nâng cp h siêu máy tính: 0,8 triu USD
- Kinh phí vn hành: 0,5 tri
13

- Kinh phí tr thù lao cán b tham gia thc hi

- Kinh phí mua sm thit b ph tr mi: 0,4 tri
- o/ hp tác quc t: 0,1 tri
  282 tring

1.10. D kin t
-5 triu USD

14

II. MC TIÊU CA D ÁN

Mc tiêu chung: Gii mã hoàn chnh h i Vit Nam, làm
 cho các nghiên cn và ng dng trong y-c khác. Xây

c tp th khoa hc m
 c h

Mc tiêu c th:
- Gic h gen ca mt s cá th i VN (thành viên ca mt s

t Nam;
- u trúc phân t
n cho các nhóm dân tc trong công
i Vinh ngun gc các dân tc, quan h chng loi
phát sinh và tin hóa nhân chng hc tii Vit;
-u hi
ng, tim mm phát hin các ch
th phân t cho chu tr.
- Xây dc tp th khoa hc m gii quyt các v
khoa hc công ngh trong gi
ng, vt nuôi,
vi sinh v
- o và hp tác quc t vi các Trung tâm/ Vin nghiên cu h
u ca th gii.

15

III.  KHOA HC CA D ÁN

3.1. 
3.1.1. Dự án Genome người (Human Genome Project, HGP)
 Tóm tt lch s ca d án
D án H gen i thc hin trong khoc khng t
 quan khoa

hc nhà nc do M u vi khong 20 nc và vùng lãnh th tham gia. Trên
thc tc khi d c vn hành chính th 
n dòng DNA (cosmid) cha tng nhim sc th riêng r c
c xây dng ti Phòng thí nghim Quc gia Los Alamos (Los Alamos National
Laboratory - LANL) và Phòng thí nghim Quc gia Lawrence Livermore (Lawrence
Livermore National Laboratory - LLNL), Hoa K
kt qu trình t ca tng nhim sc th vn tip tc tin hành cho t
D -4 t USD tin ngân nhà nc cho gii mã hoàn chnh h gen
ngi (khong 3,2 t bp), vi DNA ly t 5 cá th i din 5 chng tc ngi trên th
gi ng thi, vic gii mã h gen ng   c Công ty t nhân Celera
Genomics ca M tin hành (s tii hàng t USD). Kt qu
là mi nhóm gii mã hoàn chnh 1 h gen ngng thi công b 
tp chí khoa hc danh ting nht là Nature, Anh (McPherson et al., 2001), và Science,
M (Venter et al., 2001). Trình t cc tài tr t ngân sách ca các chính
ph c công khai, d liu thông tin v h gen cho toàn th gii cùng s dng,
c g chu tham chi
 Mc tiêu ca d án
Mc tiêu chung ca d án là nhm gii mã tt c khon 25.000
gen ni, cung cp thông tin v cu trúc và t chc ca các gen, phc v các nghiên
c di truyn và bnh hc  i. Bên c t ra mt
nhim v khác là phi gii trình t toàn b  cp base trong h gen ci.
t phn ca d án H gen i, các nghiên cu song song tin hành trên các
16

sinh vn Escherichia coli và chun các k
thut và gii thích chi mã.
D án H gen c chia thành hai giai n 1 t n
n 2 t   u tiên d c tin hành
 c si k hoch và kéo dài thi
(Collins & Galas, 1993). Trong n này,

các mt ra bao gm:
- Lp b di truyn
 Hoàn thành b v phân gii 2 - 
 Phát trin k thunh nhanh kiu gen;
 Phát trin các du chun (marker) d s dng;
 Phát trin các k thut lp b mi.
- Lp b hình th
 Hoàn thành b các v u trên trình t (sequence tagged site -
STS) ca h gen i v phân gii 100 kb.
- Gii trình t DNA
 Phát triu qu  gii trình t mt ti vài vùng DNA
quan tâm có chiu dài hàng Mb;
 Phát trin k thut gii trình t nhanh, tp trung và các h thng tích hp tt
c c t chun b khuôn DNA ti phân tích d liu;
 Xây dng công sut gii trình t cho phép gii trình t vi t 50 Mb/
i cun.
- nh các gen
 Phát triu qu  nh các gen và sp xp các gen
t vào b vt lý hoc gii trình t.
- Phát trin k thut
 M rng h tr phát trin các k thut mi tin k thut hin
ti v gii trình t u ca d án H gen
i nói chung.
- Các sinh vt mô hình
 Hoàn thành b STS ca h gen chut v phân gii 300 kb;
 Hoàn thành trình t h gen vi khun Escherichia coli và nm men
Saccharomyces cerevisiae ti c s
17

 Tip tc gii trình t h gen Caenorhabditis elegans và Drosophila

melanogaster nhm hoàn chnh trình t C. elegans 
 Gii trình t mt s vùng chn lc trên DNA chut cùng v
hiên cu.
- Công ngh thông tin
 Tip tc to ra, phát trin và v d liu và các công c 
s d li có th d dàng truy cp các d liu, bao gm các công c tin
ích và các tiêu chui d liu và các liên k d liu;
 Cng c, xây dng và tip tc phát trin các phn mm tin ích phc v các
d án h gen  quy mô ln;
 Tip tc phát trin các công c so sánh và gii mã thông tin ca h gen.
- Các v v c, lut pháp và xã hi
 Tip tv và phát trin các la chn chính
 gii quyt các v 
 Phát trin và ph bin các dch v th nghim
di truyn vi mc tiêu s di trà;
 Khuyn khích s chp nhn s ng di truyi.
- o
 Tip tc khuyo các nhà khoa hn
nghiên cu h gen.
- Chuyn giao công ngh
 Khuy    ng chuyn giao công ngh c trong và ngoài
nghiên cu h gen.
- Mc tiêu lâu dài
 Hp tác vt lp các trung tâm v các vt liu h gen;
 Chia s tt c các thông tin và vt liu trong vòng 6 tháng, bao gm gi
thông tin t d liu công khai ho  hoc c hai nu phù
hp.
n th c thc hin t ng vào các ni dung sau
(Collins et al., 2003):
- Gii trình t DNA  i

 Hoàn thành trình t h gen hoàn chnh ci vào cu
 Hoàn thành 1/3 trình t i vào cu
  bao ph ít nht 90% h gen trong bn nháp dp
b c vào cu
18

 Hoàn chnh toàn b trình t và cung cp các công c phân tích d liu min
phí.
- K thut gii trình t
 Tip t ng vt lim giá thành ca k thut gii
trình t hin ti;
 H tr nghiên cu các k thut mi có th i nhng ci ti
trong k thut gii trình t;
 Phát triu qu  ci tin k thu thut
gii trình t mi vào quá trình gii trình t.
-  h gen i
 Phát trin các k thut nhnh nhanh và trên quy mô ln và/ hoc
ghi l
DNA;
  bin trong các vùng mã hóa ca phn ln các gen
c gii mã trong sun này;
 To ra b SNP ca ít nht 100 000 marker;
 Phát tri trí tu phc v các nghiên cu v ng trình t;
 To ra các ngun min phí v mu DNA và dòng t bào.
- H gen hc ch
 To ra mt b p các trình t và c hoàn
chnh mang các gen ci và ca sinh vt mô hình;
 H tr nghiên cu v u cha các trình
t mã hóa các phân t không phi protein;
 Phát trin k thut phân tích toàn din s biu hin ca gen;

 Ci tit bin trên quy mô h gen;
 Phát trin k thut phân tích protein trên quy mô ln.
- H gen hc so sánh
 Hoàn thin trình t ca h gen giun tròn C. elegans 
 Hoàn thin trình t ca h gen rui gim Drosophila 
 Phát trin b kt hp gia b vt lý và b di truyn ca chut,
to ra ngun cDNA b sung t chut, và hoàn thin trình t h gen chut

 nh các sinh vt mô hình hu ích khác và h tr các nghiên cu h gen
thích hp.
19

- Các v v c, lut pháp và xã hi
 Kho sát các v xung quanh vic hoàn thin trình t DNA ci và
nghiên cu v s ng di truyn  i;
 Kho sát các v phát sinh t vic kt hp các k thut di truyn vi các
thông tin liên quan tc khe và các hong sc khe cng
ng;
 Kho sát các v phát sinh t vic kt hp nhng hiu bit v h gen hc
    a gen v     ng hp phi lâm
sàng;
 Tìm hiu xem nhng kin thc di truyn mi này s  nào
vi mt lot các v v trit hc, lý luc;
 Tìm hiu xem các nhân t v chng tc, dân tc và kinh t xã hi s nh
 nào ti vic s dng, hiu bit và gii thích v thông tin di
truyn, s s dng các dch v di truyn và s phát trin chính sách.
- Tin sinh hc và sinh hc tính toán
 Ci tin ni dung và tính thit thc c d liu;
 Phát trin các công c tiên tic phát sinh, nm bt và gii
thích d liu;

 Phát trin và ci tin các công c  d liu v các nghiên cu chc
n;
 Phát trin và ci tin các công c nhm th hin và phân tích m 
ng ca trình t;
 T   nhm h tr u qu trong vic sn
xut các phn mm mnh và có tit khu có th c s dng
rng rãi sau này.
- o ngun nhân lc
 o các nhà khoa hc thành tho trong nghiên cu h gen hc;
 H tr ng s nghip khoa hc cho các nhà khoa hc nghiên cu h
gen;
 Nâng cao s ng các hc gi có kin thc chuyên sâu v khoa hc h gen,
di truyn hc và c c v c, lut pháp hoc khoa hc
xã hi.
 Các kt qu c ca d án
20

Hin nay, d án trên quy mô lc công ngh sinh h
c rt nhiu thành tt k thut mi, các
b di truyn, b hình th và phiên mã ca h gen ca mt vài loài sinh vt,
mt s u khoa hc song song tih
nghiên cu v c sinh hc (bioethics), và mt bn trình t hoàn chnh ca h gen
 và s dng min phí cho tt c ng. D án H gen i
không ch hoàn thành tt c các m u mà tht mc các
mBng 1) (Collins et al., 2003).
Kt qu quan trng nht sau khi có bh gen ngi (2003) cho chúng
ta rt nhiu thông tin v s c trong h gen, t l mã hóa protein, s
sp xp/ phân b ca các vùng trong h gen, m t bin trong h gen
i và nhng so sánh v h gen gii vi mt s sinh vt khác.
V c, h gen i cha 3.164,7 triu nucleotide (A, C, T và G). Kích

c trung bình ca mi gen là khong 3000 nucleotide, tuy nhiên trên thc t, kích
c rt khác nhau  c dài nht  i
là gen mã hóa dystrophin, dài 2,4 triu nucleotide.
Bng 1. Các mu và kt qu a d án H gen i
(Collins et al., 2003)
Nhim v
Mu
Các kt qu c
Thi gian
hoàn thành
B di truyn
B v phân gii t
n 5 cM (600  1.500
marker)
B v phân gii 1
cM (3.000 marker)
Tháng 9/1994
B hình th
30.000 STS
52.000 STS
10/1998
Trình t DNA
95% vùng cha gen ca
trình t   c
hoàn thành v  chính
xác ti 99,99%
99% vùng cha gen ca
trình t   c
hoàn thành v  chính
xác 99,99%

Tháng 4/2003
Công sut và giá
thành ca trình t
hoàn chnh
500 Mb trình ti
 i 0,25 USD/
nucleotide
1.400 Mb trình t  
v  i 0,09 USD/
nucleotide
Tháng
11/2002
 ng trình t
i
Lp b   
  
(SNP)
 p b  3,7 triu
SNP
Tháng 2/2003
nh gen
Các cDNA có chiu dài
hoàn chnh
15.000 cDNA có chiu dài
hoàn chnh
Tháng 3/2003
Sinh vt mô hình
Trình t h gen hoàn
chnh ca E. coli, S.
cerevisiae, C. elegans, D.

melanogaster
Trình t h gen hoàn chnh
ca E. coli, S. cerevisiae,
C. elegans, D.
melanogaster và bn nháp
Tháng 4/2003
21

Nhim v
Mu
Các kt qu c
Thi gian
hoàn thành
trình t toàn b h gen ca
mt s loài khác bao gm
C. briggsae, D.
pseudoobscura và chut
Phân tích chc

Phát trin các k thut 
m h gen
Tng hp nhanh các
oligonucleotide
1994
Các microarray DNA
1996
Bt hot toàn b h gen,
sinh vt nhân chun ( nm
men)
1999

M rng quy mô ca h
thng two-hybrid cho
-protein

V s ng gen, tng s gen trong h gen c tính khong 30 000 gen,
con s này thu so vi con s d n 140 000) da trên các
ngoi suy t các vùng giàu gen (h gen c gii thuyt cha các vùng giàu gen
và các vùng ít gen). Trong s c phát hin, có t
ch t c trình t u ging nhau  tt c các
chng tc, các cá th ngi và ch khác nhau vi mt t l rt nh (0,1%) v cu trúc
h gen (hay ~3 triu/ ~3,2 t bp ca cu trúc toàn b b/ h gen). Tuy nhiên, phn
khác bit rt nh này li vm nhân chng hc ca
mt dân tc, là yu t di truyn sc khe ca c dân tc và mi cá th.
V t l mã hóa protein, ch mt phn trình t rt nh trong h gen i 2%)
là các trình t mã hóa cho protein. Các trình t lp l
n- m ít nht 50% h gen i. Các trình t lp li này mc dù
c tip nào trong vic cho là
góp phn quan trng và cng lc hc ca các nhim sc th. Bng cách tái
sp xp, nhn lp li này s sp xp li thành phn trong h gen, t o ra
các gen hoàn toàn mi, và bii và/ hoc ci to ln ti trong h
gen. Trong sut 50 tri n lp li trong h gen i
.
V s sp xp/ phân b, các vùng tp trung nhiu gen trong h gen là các vùng
c li, các vùng ít gen là các vùng DNA giàu A và T. Các
i kính hin t i d
sáng và ti trên các nhim sc th. Các gen tp trung thành các vùng ngu nhiên trong
h gen, xen gia bi các vùng DNA không mã hóa. Các vùng lp li giàu GC dài ti
22

30.000 nucleotide ng xut hin bên cnh các vùng giàu gen, to ra mt hàng rào

gia các gen và vùng DNA nc cho rng s tham gia vào các
hou hòa s biu hin ca gen. Nhim sc th 1 là nhim sc th tp trung
nhiu gen nht (2.968 gen) và nhim sc th Y là nhim sc th cha ít gen nht (429
gen).
Khi so sánh trình t h gen gii vi các sinh vt khác, n i
c phân b mt cách ngu nhiên trong h gen thì  các sinh vt
khác, h gen c phân b i các gen nn dc
theo nhim sc th. Do có hing ct ni luân phiên (alternative splicing) trong
quá trình hoàn thin phân t mRNA mà, tính trung bình, s loi protein  i nhiu
gp 3 ln so vi  rui gim hay giun tròn. Quá trình ct ni luân phiên có th to ra
các sn phc mã hóa t cùng mt gen. S h protein  i
hng vi  giun, rui gim và thc v ng các thành viên trong
h gen  i là ln nhc bit là trong các protein tham gia vào các quá trình
phát trin và h min dch. Các trình t lp li chim t l rt ln trong h gen i
 này ch xut hin vi mt t l khá khiêm tn  các
 mù tc (mustard weed) (11%), giun tròn (7%) và rui gim (3%).
Mng vip li t 
tring này vn xy ra  các loài gm nhu này có
th góp phn vào nhng khác bin gia h i vi h gm nhm, mc dù
c tính các gen ging. Các nhà khoa h
nhiu gi thuyt gii thích v s n v mt tin hóa gii vi các loài
sinh vt khác, bao gm tuc trong các l , s giao phi gn, và
phiêu dt di truyn.
V m ng và t bin, các nhà khoa hc khong 3
triu v trí xy ra nhng sai khác v trình t i.
Thông tin này ha hn s to ra mt cuc cách mng trong vic tìm kim các v trí ca
các trình t n bnh trên nhim sc th và truy tìm lch s nhân loi. T l
t bin trong các t bào mm (tinh trùng hoc trng) là 2 nam : 1 n. T t
bin cao trong các t bào mm  nam gic gii thích là do s hình thành tinh
i các t bào mm phi phân bào nhii s hình thành trng  n

gii.


23

 ng dng, thách th
Nhng hiu bit vô cùng hc t trình t o ti cho
nghiên cu trong các thp niên sp tng h thng hc sinh hc. Nhim v to
ln này s   chuyên môn và s sáng to ca nhiu nhà khoa hc t
nhiu ngành trong c các t ch gii.
Trình t t phn quan trng vào vic tìm ra nhng gen có liên
quan ti các bnh  i. Nhinh và ch ra có liên quan ti ung
nh v c, và mù lòa. Ngoài ra, vic phát hin các trình t DNA liên
quan ti các bnh ph bich, ting, viêm khn
c s h tr rt ln t các b ng  c to ra trong d án
H gen i cùng vi s cng tác ca mt s 
c tiêu c th trong vic phát tri liu mi.
Bên c h gen  thành mt công c mi cho nghiên
cu sinh hc và y hu ch nghiên cu mt hoc mt
vài gen ti mt thn nay, vi trình t h gen hoàn chnh và các k
thut mi thc hin trên quy mô ln, h hoàn toàn có th tip cn các câu h
li git cách h thng và trên quy mô ln. Ví d, có th nghiên cu tt c các
gen trong h gen hoc tt c các bn sao phiên mã trong mt mô, mt
khi u c th hoc nghiên cu cách tha hàng chc nghìn gen và protein
 phi hp, duy trì s hong ca các h th.
Bc phát trin logic tip theo ca công trình gii mã h gen ngu tiên
n ti nhiu quc gia trên th gii. Trên s s
các d liu v h gen (trình t chuc công b và s dng min phí, các quc
gia s m gen ca các dân tc, các cá th khe mnh và
mc các bnh khác nhau ca nng thi thu nhn vt liu gen (DNA) và

sn phm gen (protein) cn các dân tc, các cá th  nghiên cu sâu v cu
trúc, cha chúng theo hng nghiên cu c b ng dng trong
chu tr.

24

3.1.2. Dự án Lập bản đồ kiểu gen đơn bội ở người (Haplotype map of human
genome)
D án Lp b kii quc t (hay còn gi tt là d án HapMap)
c khng t i mc tiêu phát trin mt b kii
ca h gen i, hay còn gi là b HapMap, mô t nhng ki bin
trong trình t DNA cc k vng s tr thành mt công c quan
trc s d phát hin các gen có liên quan cht ch ti sc khe, bnh tt
c  i và m  ng mi trong nghiên cu tr liu
(    c mt s    n v
HapMap.

 HapMap là gì?
HapMap là mt catalogue, ghi li tt c n ph bin trong
vt cht di truyn ci. HapMap s ch  trí ca chúng
trong phân t DNA, và cách thc phân b ca chúng trong qun th ni và gia
qun th i vi phn còn li ca th gii. D án HapMap quc t không s dng
 thit lp mi liên h gin c th
vi mt bc li, d c thc hin nhm cung cp thông tin
giúp các nhà nghiên cu khác có th s d liên h n vi nguy
a mt bnh c th, t   phòng chng,
chu tr bnh.
Chúng ta bit rng DNA trong mi t bào c i, gi
bào ca các loài sinh vt khác, là mt chuc cu to nên bi bn loi
t t

c xâu chui vi nhau trong 23 cp nhim sc th tn ti
trong mi t i. Các trình t di truyn này cha các thông tin ng ti
các tính trng sinh lý c, s mn cm vi các loi bng
ci vi các tác nhân t ng.
Trình t di truyn các cá th ng vi nhau ti 99,9%. Khi so sánh
các nhim sc th c i hoàn toàn không có quan h h hàng g i
nhau, có th thy rng các trình t DNA ca h có th ging nhau t  
nucleotide. Tuy nhiên, trung bình trên mi 1200 nucleotide trình t s có 1 nucleotide
sai khác nhau. Ví d,  mi, trình t ti mt v  DNA có

×