Tải bản đầy đủ (.pdf) (231 trang)

Nhập môn tin sinh học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.63 MB, 231 trang )

Draft version - Confidential

Mục lục
Danh sách ký hiệu và kí tự viết tắt......................................................................... 6
Một số các thuật ngữ thường dùng ....................................................................... 7
iới thiệu ................................................................................................................... 9
hương 1.

iới thiệu về sinh học phân tử ....................................................... 12

1.1.

Axít nuclêic và Nuclêơtít ....................................................................... 12

1.2.

Prơtêin và axít amin ............................................................................... 15

1.3.
1.4.

en và mối quan hệ giữa chuỗi

D

và chuỗi prơtêin ................... 16

Tập các kí hiệu nuclêơtít/axít amin theo

P


............................... 18

1.5.

hi m sắc th và hệ gen ........................................................................ 19

1.6.

uá trình biến đổi biến đổi

1.7.

........................................................ 20

Bài tập chương ........................................................................................ 24

hương 2.
2.1.
2.2.

D

ơ sở dữ liệu sinh học phân tử ...................................................... 26
iới thiệu ................................................................................................. 26

Trung tâm thông tin công nghệ sinh học

2.3.

SDL


ucleotide của

oa Kỳ ............................. 28

B .................................................................. 30

2.3.1.

iới thiệu ........................................................................................... 30

2.3.2.

ịnh dạng dữ liệu............................................................................. 31

2.3.3. Tìm kiếm dữ liệu .............................................................................. 34
2.3.4. Tải dữ liệu về máy tính người dùng .............................................. 37
2.4.
2.5.

ịnh dạng dữ liệu chuẩn F ST ......................................................... 38
CSDL Protein của

B ......................................................................... 40

2.6.

SDL Structure của

B ..................................................................... 41


2.7.

SDL PubMed của

B ...................................................................... 42

2.8.

SDL

B ...................................................................... 43

2.9.

enome của

Bài tập chương ........................................................................................ 44

hương 3. Sắp hàng hai chuỗi ........................................................................... 46
Giáo trình Nhập mơn tin sinh học.

1


Draft version - Confidential

3.1.

iới thiệu ................................................................................................. 46


3.2.

Thuật toán sắp hàng hai chuỗi ............................................................. 50

3.3.

Sắp hàng địa phương hai chuỗi (local pairwise alignment) ............ 53

3.4.

Sắp hàng hai chuỗi prôtêin ................................................................... 57

3.5.

Bài tập chương ........................................................................................ 59

hương 4. Tìm kiếm trong cơ sở dữ liệu bằng BL ST .................................. 64
4.1.

iới thiệu ................................................................................................. 64

4.2.

Thuật toán BL ST .................................................................................. 65

4.3.

ệ thống trực tuyến BL ST ................................................................. 67


4.3.1.

hương trình trực tuyến nucleotide blast .................................... 68

4.3.2.

hương trình trực tuyến protein blast .......................................... 75

4.4.

Bài tập chương ........................................................................................ 77

hương 5. Sắp hàng đa chuỗi ............................................................................ 80
5.1.

iới thiệu bài toán .................................................................................. 80

5.1.1.

uá trình biến đổi của các chuỗi

D

......................................... 80

5.1.2. Sắp hàng đa chuỗi ............................................................................ 81
5.1.3.

i m giống nhau của một đa chuỗi sắp hàng .............................. 82


5.1.4. Sự thương thích giữa các bắt c p hai chuỗi .................................. 84
5.2.

Thuật toán quy hoạch động giải bài toán sắp hàng đa chuỗi .......... 86

5.3.

Thuật toán

5.4.

Thuật toán sắp hàng l y tiến (aggressive alignment) ....................... 92

gôi sao ............................................................................... 89

5.4.1.

iới thiệu ........................................................................................... 92

5.4.2.

i m giống nhau giữa hai đa sắp hàng ........................................ 93

5.4.3. Sắp hàng hai đa sắp hàng ................................................................ 94
5.4.4. Thuật toán .......................................................................................... 94
5.5.

ác định dạng dữ liệu đa sắp hàng ..................................................... 96

5.5.1.


ịnh dạng dữ liệu lustalW ........................................................... 96

5.5.2.

ịnh dạng dữ liệu Phylip ................................................................ 98

Giáo trình Nhập mơn tin sinh học.

2


Draft version - Confidential

5.5.3.
5.6.

hương trình chuy n đổi định dạng dữ liệu ............................... 99

Một số phương pháp sắp hàng đa chuỗi phổ biến .......................... 100

5.6.1. Phương pháp lustalW ................................................................. 100
5.6.2. Phương pháp Muscle ..................................................................... 103
5.7.

Bài tập chương ...................................................................................... 107

hương 6. Xây dựng cây phân lồi ................................................................. 112
6.1.


iới thiệu bài tốn ................................................................................ 112

6.2.

Cây phân loài ........................................................................................ 115

6.2.1.

iới thiệu về cây ............................................................................. 115

6.2.2. Duyệt trên cây ................................................................................. 116
6.2.3.

u tr c phân nhánh ..................................................................... 117

6.2.4. So sánh hai c u tr c phân nhánh ................................................. 119
6.3.

Tiêu chuẩn cực ti u số lư ng biến đổi .............................................. 121

6.4.

Phương pháp duyệt tìm cây phân lồi theo tiêu chuẩn MP .......... 122

6.5.

Phương pháp xây dựng cây từng bước (Stepwise addition) ......... 127

6.6.


ịnh dạng dữ liệu

6.6.1.

ewick .................................................................. 131

iới thiệu ......................................................................................... 131

6.6.2. Xây dựng xâu bi u di n cây có gốc theo chuẩn

ewick .......... 132

6.6.3. Xây dựng xâu bi u di n cây không gốc theo chuẩn
6.6.4.

ewick ... 133

ác lỗi thường g p ......................................................................... 134

6.7.

ác chương trình bi u di n cây .......................................................... 134

6.8.

ói phần mềm xây dựng cây phân loài P YL P............................. 135

6.9.

Bài tập chương ...................................................................................... 136


hương 7. Xây dựng cây phân loài theo phương pháp khoảng cách ........ 139
7.1.

iới thiệu ............................................................................................... 139

7.2.

Tiêu chuẩn khoảng cách bình phương nh nh t (least squares) ... 141

7.3.

Phương pháp

7.4.

Bài tập chương ...................................................................................... 155

eighbor-Joining ......................................................... 145

Giáo trình Nhập mơn tin sinh học.

3


Draft version - Confidential

hương 8. Mơ hình biến đổi nuclêơtít ............................................................ 158
8.1.


t v n đề .............................................................................................. 158

8.2.

Mơ hình biến đổi nuclêơtít .................................................................. 159

8.2.1. Mơ hình hóa q trình biến đổi nuclêơtít ................................... 159
8.3.

Một số mơ hình biến đổi nuclêơtít ..................................................... 163

8.3.1. Mơ hình biến đổi nuclêơtít ukes-Cantor .................................... 163
8.3.2. Mơ hình biến đổi nuclêơtít Kimura 1 8 (K8 ) .......................... 164

8.3.3. Mơ hình biến đổi nuclêơtít F81 ..................................................... 166
8.3.4. Mơ hình biến đổi nuclêơtít
8.3.5. Mơ hình biến đổi

KY85 .............................................. 167

T ................................................................... 168

8.4.

Ước lư ng khoảng cách di truyền...................................................... 171

8.5.

Bài tập chương ...................................................................................... 173


hương . Mơ hình biến đổi axít amin ........................................................... 176
9.1.

iới thiệu ............................................................................................... 176

9.2.

Phương pháp đếm ................................................................................ 177

9.3.

Phương pháp cực đại h p lý............................................................... 183

9.4.

Một số mơ hình biến đổi axít amin thường dùng ............................ 187

9.4.1. BLOSUM .......................................................................................... 187
9.4.2. Mơ hình biến đổi axít amin W

................................................ 188

9.4.3. Mơ hình biến đổi axít amin L ..................................................... 189
9.4.4. Ma trận biến đổi axít amin FL

................................................... 190

9.4.5. Ma trận biến đổi axít amin MtMam ............................................. 191
9.5.


Bài tập chương ...................................................................................... 192

hương 1 . Xây dựng cây phân loài theo tiêu chuẩn cực đại h p lý ........ 194
10.1.

iới thiệu bài tốn ............................................................................ 194

10.2.

Tính giá trị h p lý ............................................................................. 195

10.2.1. Tính giá xác su t với cây có một đ nh trong ............................. 195
10.2.2. Tính xác su t với cây tổng quát .................................................. 196
Giáo trình Nhập mơn tin sinh học.

4


Draft version - Confidential

10.3.

Duyệt tồn bộ tìm cây theo tiêu chuẩn cựu đại h p lý ............... 198

10.4.

Phương pháp gần đ ng ................................................................... 199

10.5.


Phần mềm xây dựng cây phát sinh loài theo tiêu chuẩn ML ..... 200

10.5.1. IQPNNI .......................................................................................... 200
10.5.2. PhyML ............................................................................................ 204
10.6.

Bài tập chương................................................................................... 207

hương 11. Prôtêin và chuẩn đốn c u tr c bậc cao của Prơtêin ............... 209

11.1.

iới thiệu ............................................................................................ 209

11.2.

huẩn đoán c u tr c bậc hai của prôtêin ...................................... 210

11.3.

Phương pháp hou-Fasman ........................................................... 212

11.4.

Phương pháp

11.5.

OR ........................................................................... 218


ác phương pháp khác .................................................................... 222

11.5.1. Phương pháp mạng nơron P D ................................................ 222
11.5.2. Phương pháp P

D T

.......................................................... 224

11.6.

gân hàng dữ liệu prôtêin PDB (Protein Data Bank) ................. 226

11.7.

Bài tập chương................................................................................... 227

Giáo trình Nhập mơn tin sinh học.

5


Draft version - Confidential

Danh sách ký hiệu và kí tự viết tắt
Tập các kí tự, ví dụ

là tập các nuclêơtít

Chuỗi nuclêơtít/chuỗi axít amin

Tập các đa chuỗi
Số lư ng các chuỗi
ộ dài đa sắp hàng
Cây phân loài
ML

ực đại h p lý (maximum likelihood)

MP

ực ti u số lư ng biến đổi (maximum parsimony)
Ma trận tốc độ biến đổi tức thì giữa các nuclêơtít hay axít amin
Véctơ tần số xu t hiện của các nuclêơtít hay axít amin
Ma trận hệ số hốn đổi (exchangeability matrix) giữa các nuclêơtít
hay giữa các axít amin.
Ma trận khoảng cách giữa các chuỗi

Giáo trình Nhập mơn tin sinh học.

6


Draft version - Confidential

Một số các thuật ngữ thường dùng
Bioinformatics

Tin sinh học

Molecular biology


Sinh học phân tử

Nucleic acid

Axít nuclêic

DNA

ADN

RNA

ARN

Nucleotide

Nuclêơtít

Protein

Prơtêin

Amino acid

Axít amin

Gene

Gen


Genome

ệ gen

Chromosome

Nhi m sắc th

Accession number

Số hiệu truy cập

Substitution

Thay thế/biến đổi

Mutation

Biến đổi

Transcription

Phiên mã

Translation

Dịch mã

Maximum likelihood


ực đại h p lý

Maximum parsimony

ực ti u số lư ng biến đổi

Phylogenetic tree

Cây phân lồi

Model

Mơ hình

Sequence
Pairwise alignment

huỗi
Sắp hàng hai chuỗi/bắt c p hai chuỗi (động từ)
ai chuỗi sắp hàng/bắt c p (danh từ)

Giáo trình Nhập mơn tin sinh học.

7


Draft version - Confidential

Local pairwise alignment


Sắp hàng/bắt c p địa phương hai chuỗi

Multiple sequence alignment

Sắp hàng đa chuỗi (động từ)
a chuỗi sắp hàng/đa sắp hàng (danh từ)

Rate matrix

Ma trận tốc độ biến đổi

Instantaneous substitution rate matrix

Ma trận tốc độ biến đổi tức thì

Exchangeability matrix

Ma trận hệ số hốn đổi

Frequency vector

Véctơ tần số xu t hiện

Distance matrix

Ma trận khoảng cách

Giáo trình Nhập môn tin sinh học.


8


Draft version - Confidential

Giới thiệu
Tin sinh học là một lĩnh vực khoa học có tính ứng dụng cao trong cuộc sống,
đ c biệt là trong lĩnh nông nghiệp và vực y-dư c. Tin sinh học là lĩnh vực khoa
học liên ngành, trong đó chủ đạo là sinh học phân tử và tin học. Về cơ bản, tin
sinh học tập trung vào nghiên cứu và áp dụng các phương pháp c ng như các kĩ
thuật trong tin học đ giải quyết các bài tốn trong sinh học phân tử.
iáo trình này đư c thiết kế cho sinh viên (học viên cao học) ngành công
nghệ thông tin và công nghệ sinh học. iáo trình c ng cung c p các kiến thức bổ
ích cho những người đang làm việc liên quan đến lĩnh vực cơng nghệ sinh học ở
Việt am. iáo trình ch yêu cầu người đọc có những kiến thức và hi u biết r t cơ
bản tin học, sử dụng máy tính, và mạng internet.
làm đư c việc trên, giáo trình tập trung vào giới thiệu các khái niệm, các
bài toán cơ bản và quan trọng trong sinh học phân tử c ng như trong tin sinh học.
ác phương pháp cơ bản đ giải quyết các bài toán trong tin sinh học đư c trình
bày chi tiết kèm theo các ví dụ minh họa đ người đọc có th d dàng hi u mà
không yêu cầu kiến thức chuyên sâu về sinh học phân tử hay tin học. Giáo trình
c ng tập trung giới thiệu những phương pháp và phần mềm hiện đại nh t đ giải
quyết các bài toán đã nêu, qua đó gi p người đọc có khả năng sử dụng các
phương pháp c ng như các phần mềm một cách hiệu quả nh t đ phân tích dữ
liệu.
iáo trình đư c chia thành 11 chương với nội dung từ d đến khó và đư c
tổ chức như sau:
hương 1 trình bày các khái niệm cơ bản trong sinh học phân tử như
nuclêơtít, axít amin, chuỗi nuclêơtít, chuỗi axít amin, nhi m sắc th , hệ gen, và đ c
biệt là q trình biến đổi của các nuclêơtít. hương này sẽ gi p cho người đọc,

đ c biệt là sinh viên công nghệ thông tin, làm quen với sinh học phân tử và tin
sinh học một cách đơn giản và nhanh chóng.
hương 2 giới thiệu với người đọc các hệ thống thông tin về dữ liệu sinh
học phân tử, tài liệu tham khảo, c ng như các công cụ phân tích dữ liệu đư c sử
dụng phổ biến trên thế giới. hương này đ c biệt tập trung vào giới thiệu hệ
thống thông tin về công nghệ sinh học của oa Kỳ (NCBI), qua đó gi p nguời đọc
Giáo trình Nhập mơn tin sinh học.

9


Draft version - Confidential

hi u và có khả năng khai thác dữ liệu từ
nh t.

B một cách nhanh chóng và hiệu quả

hương 3 trình bày bài tốn cơ bản và quan trọng trong sinh học phân tử và
tin sinh học là sắp hàng hai chuỗi. Thuật toán quy hoạch động đ giải quyết bài
tốn trên đư c trình bày chi tiết cùng với các ví dụ minh họa sẽ gi p người đọc
hi u bài toán và phương pháp giải một cách nhanh chóng và chính xác.
hương 4 trình bày bài tốn tìm kiếm các chuỗi giống nhau trong cơ sở dữ
liệu. Thuật tốn (chương trình phần mềm) phổ biến nh t, BL ST, sẽ đư c trình
bày và hướng dẫn sử dụng đ người đọc có th hi u và thực hành một cách
nhanh chóng việc tìm kiếm các chuỗi giống nhau cao trong cơ sở dữ liệu.
hương 5 trình bày bài tốn sắp hàng đa chuỗi. Các thuật toán cơ bản đ
giải quyết bài toán trên đư c trình bày tiết ở ở phần đầu của chương. Phần cuối
của chương giới thiệu cho người đọc các thuật toán và chương trình phần mềm
(hướng dẫn sử dụng) tốt nh t hiện nay đ giải quyết bài tốn đó.

hương 6 trình bày bài tốn xây dựng cây phân lồi. ây là bài toán quan
trọng gi p ch ng ta hi u về mối quan hệ c ng như quá trình tiến hóa của các lồi
sinh vật. hương này c ng trình bày cho người đọc tiêu chuẩn cực ti u số lư ng
biến đổi đ chọn cây phân loài tốt nh t. ác thuật toán cơ bản cùng với các ví dụ
minh họa sẽ gi p người đọc d dàng nắm vững đư c thuật toán. Phần cuối của
chương sẽ giới thiệu cho người đọc gói phần mềm phổ biến, P YL P, đ xây
dựng cây phân loài theo tiêu chuẩn cực ti u số lư ng biến đổi.
hương 7 trình bày các phương pháp xây dựng cây phân lồi dựa vào ma
trận khoảng cách giữa các loài. Phương pháp phổ biến nh t, eighbor- oining, sẽ
đư c trình bày và minh họa cụ th trong chương này.
hương 8 trình bày mơ hình biến đổi nuclêơtít sử dụng chuỗi Markov. ác
mơ hình biến đổi nuclêơtít khác nhau sẽ đư c giới thiệu đ người đọc hi u và có
th sử dụng các mơ hình này vào phân tích dữ liệu nuclêơtít một cách h p lý
nh t.
hương trình bày mơ hình biến đổi axít amin. hương này tập trung trình
bày các phương pháp ước lư ng mơ hình biến đổi axít amin từ các tập dữ liệu
axít amin đầu vào. ác mơ hình biến đổi axít amin quan trọng sẽ đư c giới thiệu
đ người đọc hi u và có th sử dụng các mơ hình này vào phân tích dữ axít amin
một cách h p lý nh t.
hương 10 trình bày phương pháp xây dựng cây phân lồi theo tiêu chuẩn
cực đại h p lý. Phần đầu của chương sẽ tập trung vào cách tính giá trị h p lý cho
một cây phân loài đối với một đa chuỗi sắp hàng. Phần cuối của chương sẽ giới
Giáo trình Nhập môn tin sinh học.

10


Draft version - Confidential

thiệu cho người đọc các thuật toán và phần mềm đang đư c sử dụng phổ biến đ

xây dựng cây phân loài theo tiêu chuẩn cực đại h p lý.
hương 11 c ng là chương cuối cùng của giáo trình này sẽ trình bày về
prơtêin và c u tr c của prơtêin. Bài tốn chuẩn đốn c u tr c bậc hai của prôtêin,
c ng như các phương pháp cơ bản đ giải quyết bài tốn đó đư c trình bày chi
tiết cho người đọc. Phần cuối của chương sẽ giới thiệu các thuật toán và phần
mềm đang đư c sử dụng phổ biến đ giải quyết bài toán trên.
Người đọc sẽ đư c trang bị các kiến thức và kĩ năng cơ bản sau đây:







Các kiến thức cơ bản về sinh học phân tử và tin sinh học.
Các bài toán cơ bản và quan trọng trong tin sinh học như tìm kiếm chuỗi
giống nhau, sắp hàng đa chuỗi, xây dựng cây phân loài,…
Biết và khai thác đư c dữ liệu từ các cơ sở dữ liệu công nghệ sinh học
dùng chung trên thế giới, đ c biệt là các cơ sở dữ liệu của
B.
i u và có khả năng minh họa bằng ví dụ (ho c lập trình) các thuật tốn
cơ bản đ giải quyết các bài toán quan trọng trong tin sinh học đư c nêu
trong giáo trình.
Biết và sử dụng đư c các phần mềm hiện đại nh t đ giải quyết các bài
toán quan trọng như là tìm kiếm các chuỗi từ SDL, sắp hàng đa chuỗi,
xây dựng cây phân loài,…

Tác giả hy vọng rằng, giáo trình này sẽ gi p một phần nh vào việc phát
tri n lĩnh vực tin sinh học ở Việt am; c ng như trang bị những kiến thức về tin
sinh học cơ bản và quan trọng cho những người đang làm việc liên quan đến lĩnh

vực công nghệ sinh học ở Việt am.

Giáo trình Nhập mơn tin sinh học.

11


Draft version - Confidential

hương 1. Giới thiệu về sinh học phân tử
Sinh học phân tử (molecular biology) là một nhánh của sinh học (biology),
tập trung nghiên cứu các sinh vật ở mức độ phân tử. ụ th là, sinh học phân tử
tập trung giải mã (sequecing) và phân tích các chuỗi nuclêơtít (chuỗi ADN), các
chuỗi axít amin (chuỗi prơtêin), c ng như một số loại dữ liệu sinh học phân tử
khác của các loài sinh vật đ hi u đư c c u tr c, chức năng, đ c đi m, q trình
tiến hóa, c ng như mối quan hệ và tương tác giữa ch ng. Sự phát tri n mạnh mẽ
của công nghệ giải mã các chuỗi ADN, c ng như các phương pháp tính tốn hiện
đại đ phân tích dữ liệu sinh học phân tử đã gi p sinh học phân tử phát tri n
mạnh mẽ cả về cơ sở lý thuyết c ng như các ứng dụng thực tế. Trong chương này,
chúng tôi tập trung giới thiệu các kiến thức cơ bản trong sinh học phân tử đ
người đọc có th d dàng hi u và nắm vững các bài toán trong sinh học phân tử,
c ng như trong tin sinh học ở các chương sau.
1.1.

Axít nuclêic và Nuclêơtít

Axít nuclêic (nucleic acid) là một đại phân tử sinh học (large biological
molecule) mang thông thông tin di truyền mã hóa các chức năng, và đ c đi m của
mọi sinh vật sinh vật sống. xít nuclêic gồm hai loại:
D ( xít Deoxyribo

Nuclêic (ADN) và ARN (Axít Ribo Nuclêic).
Thành phần cơ bản c u tạo nên chuỗi axít nuclêic là các phân tử hóa học
nuclêotít (nucleotide). Chuỗi ADN chứa loại nuclêơtít khác nhau là: Adenine,
Cytosine, Guanine, và Thymine. huỗi
có thành phần tương tự như chuỗi
ADN, ngoại trừ nucleotide Thymine đư c thay thế bởi nucleotide racil. Tức là,
chứa 4 loại nucleotide: Adenine, Cytosine, Guanine, và Uracil.
u tr c, tên
đầy đủ, và tên viết tắt của năm loại nuclêơtít đư c mơ tả ở Bảng 1.1.

Giáo trình Nhập mơn tin sinh học.

12


Draft version - Confidential

Tên đầy đủ Tên viết tắt

Adenine

A

Cytosine

C

Guanine

G


Thymine

T

Uracil

U

C u trúc

Bảng 1.1: Tên đầy đủ, tên viết tắt và cấu trúc của năm loại nuclêơtít.
Giáo trình Nhập mơn tin sinh học.

13


Draft version - Confidential

Hình 1.1: Cấu trúc xoắn kép của một chuỗi ADN.

Các nuclêơtít trên chuỗi ADN liên kết với nhau đ tạo thành một chuỗi có
c u tr c xoắn kép như Hình 1.1 (c u tr c xoắn kép của chuỗi ADN đư c tìm ra
bởi hai nhà khoa học Watson và rick vào năm 1853). C u tr c xoắn kép của
chuỗi ADN gồm 2 s i liên kết với nhau: s i thứ nh t có chiều từ 5’ đến 3’; s i thứ
hai có chiều ngư c lại từ 3’ đến 5’. ác nuclêơtít ở s i thứ nh t sẽ liên kết với các
nuclêơtít ở s i thứ hai (và ngư c lại) theo ngun tắc:




Nuclêơtít A ln liên kết với nuclêơtít T
Nuclêơtít ln liên kết với nuclêơtít C.

Do vậy, thơng tin về một chuỗi ADN đư c bi u di n bằng một chuỗi các nuclêơtít
nằm trên một s i (các nuclêơtít nằm trên s i cịn lại có th suy luận dựa theo quy
tắc trên).
đơn giản và hiệu quả, một chuỗi ADN sẽ đư c bi u di n bởi một
xâu kí tự chứa 4 loại kí tự: A, C, G, và T (tên viết tắt của 4 loại nuclêơtít). Ví dụ
“CAGTTGACGGCGAACCGTGCGAGCAGACGGTCGTT “ là một chuỗi ADN. Với

Giáo trình Nhập mơn tin sinh học.

14


Draft version - Confidential

cách bi u di n này, thông tin về các chuỗi ADN có th đư c lưu giữ, tìm kiếm, và
trao đổi một cách đơn giản d dàng.
1.2.

Prơtêin và axít amin

Prơtêin/chuỗi prơtêin (protein) là loại dữ liệu phổ biến và quan trọng trong
sinh học phân tử, nó quyết định đến chức năng, quá trình phát tri n, c ng như
các bệnh tật của các sinh vật sống. Prôtêin đư c c u tạo bởi một chuỗi các axít
amin (amino acid), trong đó mỗi axít amin là một h p ch t hữu cơ đư c c u tạo
bởi ba thành phần chính là: nhóm amin (NH2), nhóm cacboxyl (COOH) và nhóm
R quyết định tính ch t của axít amin (xem Hình 1.2).


Hình 1.2: Minh họa cấu trúc của một axít amin

Trong tự nhiên có 2 loại axít amin khác nhau như miêu tả Bảng 1.2. Mỗi
axít amin có tên đầy đủ, tên viết tắt 3 kí tự và tên viết tắt 1 kí tự. Thơng thường,
ch ng ta hay sử dụng tên viết tắt một kí tự đ bi u di n một axít amin.
huỗi axít amin có th đư c bi u di n bằng một xâu kí tự chứa 2 loại kí tự
khác nhau, là tên viết tắt của 2 loại axít amin khác nhau. Ví dụ,
“ESPQIRRDMGRLCATWPSKDSEDGAGTALRAATPLTANGATTTGLSVTLAPK
CQTNWDECWSSPCQNGGTCVDGVAYYNCTCPEGFSGSNCEENVDE” là một
chuỗi axít amin. Với cách bi u di n này, ch ng ta có th d dàng lưu giữ các chuỗi
axít amin trong các cơ sở dữ liệu nhằm phục vụ nhiều mục đích khác nhau.
Giáo trình Nhập môn tin sinh học.

15


Draft version - Confidential

STT Tên axít amin Tên viết tắt (3 ký tự) Tên viết tắt (1 ký tự)
1
Alanine
Ala
A
2
Arginine
Arg
R
3
Asparagine
Asn

N
4
Aspartic
Asp
D
5
Cysteine
Cys
C
6
Glutamine
Gln
Q
7
Glutamic
Glu
E
8
Glycine
Gly
G
9
Histidine
His
H
10
Isoleucine
Ile
I
11

Leucine
Leu
L
12
Lysine
Lys
K
13
Methionine
Met
M
14 Phenylalanine
Phe
F
15
Proline
Pro
P
16
Serine
Ser
S
17
Threonine
Thr
T
18
Tryptophan
Trp
W

19
Tyrosine
Tyr
Y
20
Valine
Val
V
Bảng 1.2: Danh sách 20 loại axít amin trong tự nhiên.
1.3.

Gen và mối quan hệ giữa chuỗi ADN và chuỗi prôtêin

huỗi ADN mang thông tin di truyền xác định các chức năng và đ c đi m
của sinh vật, trong khi prơtêin quyết định đến các chức năng, và q trình phát
tri n của sinh vật. Vậy mối liên hệ giữa chuỗi ADN và chuỗi prôtêin như thế nào?
Thông tin chứa trên chuỗi D chính là các hướng dẫn đ tạo ra các prôtêin. Mỗi
prôtêin đư c tạo ra từ một đoạn ADN nằm trên chuỗi ADN thơng qua q trình
tổng h p prơtêin (Hình 1.3). oạn ADN nằm trên chuỗi ADN mang thông tin
hướng dẫn tổng h p prôtêin đư c đư c gọi là đoạn gen/gen. Lưu ý, không phải t t
cả các đoạn nằm trên chuỗi ADN đều là đoạn gen.

Giáo trình Nhập mơn tin sinh học.

16


Draft version - Confidential

Hình 1.3: Q trình tổng hợp prơtêin từ đoạn ADN


Q trình tổng h p prơtêin từ ADN đư c chia thành hai giai đoạn: Phiên mã
(transcription) và dịch mã (translation) như minh họa trong Hình 1.3.




iai đoạn phiên mã: oạn gen nằm trên chuỗi ADN mang thông tin hướng
dẫn tổng h p prôtêin đư c biến đổi đổi thành đoạn ARN. oạn ARN có
nội dung giống hệt đoạn gen, ngồi trừ nuclêơtít Thymine (T) bị biến đổi
thành nuclêơtít racil. Ví dụ đoạn gen
“ T
T TT
T
” qua q trình phiên mã sẽ bị biến đổi
thành đoạn ARN “
”.
uá trình dịch mã: oạn ARN sẽ đư c dịch mã thành đoạn axít amin theo
quy tắc mỗi bộ ba nuclêơtít liên tiếp (gọi là một codon) trên đoạn ARN sẽ
đư c mã hóa thành một axít amin theo quy tắc ghi trong Bảng 1.3.

Trong số 64 bộ ba, ch có 61 bộ ba mã hóa axít amin; cịn 3 codon khơng mã
hóa axít amin mà là tín hiệu kết th c q trình dịch mã. M c dù có 61 bộ ba mã
hóa axít amin, một số bộ ba cùng mã hóa một axít amin, cho nên ch có 2 loại axít
amin trong tự nhiên. Ví dụ đoạn ARN “
GAG CCA ACU AUU GAU

thơng qua q trình dịch mã sẽ tạo ra chuỗi axít amin “P PT D ”. Lưu ý, trong số
61 bộ ba mã hóa axít amin, có một số bộ ba là tín hiệu bắt đầu quá trình dịch mã
(start codon). Bộ ba “AUG” mã hóa axít amin Met (M) là bộ ba phổ biết nh t đ

bắt đầu q trình dịch mã.
Giáo trình Nhập mơn tin sinh học.

17


Draft version - Confidential

T

C

Axít
Codon
amin
TTT
Phe
TCT
TTC
Phe
TCC
T
TTA
Leu
TCA
TTG
Leu
TCG
CTT
Leu

CCT
CTC
Leu
CCC
C
CTA
Leu
CCA
CTG
Leu
CCG
ATT
Ile
ACT
ATC
Ile
ACC
A
ATA
Ile
ACA
ATG
Met
ACG
GTT
Val
GCT
GTC
Val
GCC

G
GTA
Val
GCA
GTG
Val
GCG
Bảng 1.3: Quy tắc mã hóa một
Codon

1.4.

A

G

Axít
Axít
Axít
Codon
Codon
amin
amin
amin
Ser
TAT
Tyr
TGT
Cys T
Ser

TAC
Tyr
TGC
Cys C
Ser
TAA STOP TGA STOP A
Ser
TAG STOP TGG
Trp G
Pro
CAT
His
CGT
Arg T
Pro
CAC
His
CGC
Arg C
Pro
CAA
Gln
CGA
Arg A
Pro
CAG
Gln
CGG
Arg G
T

Thr
AAT
Asn
AGT
Ser
C
Thr
AAC
Asn
AGC
Ser
Thr
AAA
Lys
AGA
Arg A
Thr
AAG
Lys
AGG
Arg G
Ala
GAT
Asp
GGT
Gly T
Ala
GAC
Asp
GGC

Gly C
Ala
GAA
Glu
GGA
Gly A
Ala
GAG
Glu
GGG
Gly G
bộ ba nuclêơtít (codon) thành một axít amin

Tập các kí hiệu nuclêơtít/axít amin theo IUPAC

Trong q trình giải mã và phân tích các chuỗi nuclêơtít hay các chuỗi axít
amin, có nhiều vị trí trên chuỗi mà ch ng ta khơng xác định chính xác loại
nuclêơtít hay axít amin tại đó.
IUPAC (International Union of Pure ADN pplied hemistry) đã quy định
cách bi u di n các trạng thái gộp của hai hay nhiều nuclêơtít như ở Bảng 1.4.

Tên viết tắt
R
Y
K
M
S
Giáo trình Nhập mơn tin sinh học.

Tên đầy đủ

G ho c A
T ho c C
G ho c T
A ho c C
G ho c C
18


Draft version - Confidential

W
B
D
H
V
N

A ho c T
G ho c T ho c C
G ho c A ho c T
A ho c hoăc T
G ho c C ho c A
A ho c G ho c C ho c T

Bảng 1.4: Biểu diễn các trạng thái gộp của các nuclêơtít

Tương tự, P
quy định tập các kí tự bi u di n cho các trạng thái gộp của
các axít amin như ở Bảng 1.5.


Tên viết tắt (1 ký tự)
Tên đầy đủ
Z
Glutamine ho c Glutamic
X
Một trong 20 loại axít amin
B
Asparagine ho c Aspartic
U
Một trong 20 loại axít amin
Bảng 1.5: Biểu diễn các trạng thái gộp của các axít amin

1.5.

Nhiễm sắc thể và hệ g n

hi m sắc th (chromosome) là một c u tr c trong tế bào chứa hai loại
thông tin là chuỗi ADN và các prơtêin histone có nhiệm vụ kết h p/đóng gói và
điều ki n các chức năng của chuỗi ADN. ộ dài của chuỗi ADN trong một
chromosome có th từ vài nghìn cho đến hàng trăm triệu nuclêơtít. Số lư ng
nhi m sắc th trong mỗi sinh vật có th khác nhau. Ví dụ, lồi người có 23 c p
nhiệm sắc th với tổng độ dài lên tới 3 t nuclêơtít (xem Hình 1.4).
Tập h p t t cả các nhi m sắc th của một sinh vật đư c gọi là h gen của sinh
vật đó (Hình 1.4 là hệ gen người với 23 c p nhi m sắc th ). ệ gen sẽ mang tồn
bộ thơng tin di truyền quyết định đến chức năng và đ c đi m của sinh vật. Một hệ
gen có th chứa nhiều gen khác nhau. Ví dụ hệ gen người chứa khoảng 25 nghìn
gen khác nhau. Hai hệ gen của hai cá th của cùng một lồi (ví dụ của hai người
khác nhau) thường r t giống nhau. Sự khác nhau giữa hệ gen của hai cá th sẽ tạo
ra sự khác nhau giữa hai cá th đó.


Giáo trình Nhập mơn tin sinh học.

19


Draft version - Confidential

Hình 1.4: Hệ g n người g m 2 c p nhiễm sắc thể
1.6.

Quá trình biến đổi biến đổi ADN

Theo thuyết tiến hố của Darwin [1] thì các lồi sinh vật đều tiến hóa từ một
tổ tiên chung (xem minh họa ở Hình 1.5). ệ gen của các sinh vật bị biến đổi theo
thời gian trong quá trình tiến hóa dưới tác động của của nhiều yếu tố khác nhau
và có th dẫn đến việc tạo ra các loài sinh vật mới.
Hai chuỗi tương đ ng (homologous s qu nc s): ai chuỗi ADN (hay hai
đoạn ADN) của hai sinh vật khác nhau đư c gọi là tương đồng (homology) nếu
như ch ng cùng tiến hóa từ một chuỗi ADN tổ tiên chung. Lưu ý, hai chuỗi ADN
tương đồng thì thường tương đối giống nhau, tuy nhiên hai chuỗi ADN giống
nhau chưa chắc đã là hai chuỗi tương đồng. hi tiết hơn, hai nuclêơtít ở hai chuỗi
ADN tương đồng đư c gọi là tương đồng nếu ch ng cùng tiến hóa từ một
nuclêơtít tổ tiên chung.

Giáo trình Nhập môn tin sinh học.

20


Draft version - Confidential


Hình 1.5: Minh họa quá trình tiến hóa của các lồi từ một tổ tiên chung
Tương tự nhu hai chuỗi D , hai prơtêin của hai lồi sinh vật khác nhau
đư c gọi là tương đồng nếu ch ng đư c mã hóa từ hai đoạn ADN tương đồng.
hi tiết hơn, hai axít amin trên hai prơtêin của hai loài sinh vật khác nhau đư c
gọi là tương đồng nếu ch ng cùng tiến hóa từ một axít amin tổ tiên chung.
Q trình biến đổi của các chuỗi ADN: Trong q tiến hóa, các nuclêơtít
trên chuỗi D (hay các axít amin trên chuỗi axít amin) có th bị biến đổi. Ba
phép biến đổi chính là:




Thay thế (mutation): Một nuclêơtít bị thay thế bằng một nuclêơtít khác.
Xố (deletion): Một nuclêơtít bị xố kh i chuỗi ADN; độ dài của chuỗi
ADN giảm đi một.
Chèn (insertion): Một nuclêơtít mới đư c chèn vào chuỗi ADN; độ dài của
chuỗi ADN tăng lên một.

Giáo trình Nhập mơn tin sinh học.

21


Draft version - Confidential

Hình 1.6: Quá trình biến đổi giữa hai chuỗi ADN

Hình 1.6 minh họa quá trình biến đổi của hai chuỗi = “
T

T” và =

T
” từ một chuỗi ADN tổ tiên chung
= “
T
T”. Ta th y
nuclêơtít C ở vị trí thứ 2 của chuỗi
bị xóa kh i chuỗi ; và nuclêơtít T ở vị trí
thứ 8 của chuỗi
bị thay thế bằng nuclêơtít G ở chuỗi .
Khi so sánh trực tiếp hai chuỗi




và , chúng ta nhận th y:

Tại vị trí thứ 2 có một phép biến đổi giữa hai chuỗi
và ; ho c một
nuclêơtít đã bị xóa kh i chuỗi ; ho c nuclêơtít đã đư c chèn thêm với
chuỗi . Do khơng có thơng tin về chuỗi ADN tổ tiên chung
, chúng ta
khơng th xác định chính xác đư c phép biến đổi nào đã di n ra ở vị trí
này, vì vậy người ta gọi phép biến đổi này là phép biến đổi chèn/xóa
(indel).
Tại vị trí thứ 8 có một phép thay thế nuclêơtít giữa hai chuỗi
và .
Nuclêơtít T ở chuỗi đư c thay thế bằng nuclêơtít G ở chuỗi , ho c ngư c
lại.


Các phép biến đổi trên chuỗi ADN trong q trình tiến hóa sẽ làm cho hệ gen
của các loài sinh vật khác nhau cả về nội dụng c ng độ dài. Các cá th của cùng
một lồi (ví dụ hai người) c ng có hệ gen khác nhau. Tuy nhiên, sự khác biệt về
hệ gen giữa hai cá th của cùng một lồi thường r t nh . Ví dụ, sự khác biệt giữa
hệ gen của hai người vào khoảng .1%. hính sự khác biệt .1% này tạo ra sự
khác biệt giữa hai người khác nhau.
Giáo trình Nhập mơn tin sinh học.

22


Draft version - Confidential

Biến đổi giữa hai chuỗi prôtêin: ác biến đổi nuclêotít trên các chuỗi ADN
trong q trình tiến hóa sẽ dẫn đến các biến đổi trên các chuỗi axít amin mà
chúng mã hóa. Các biến đổi giữa hai chuỗi prơtêin c ng có th xu t hiện trong
q trình tổng h p prơtêin từ các chuỗi ADN. Ví dụ hai chuỗi ADN tương đồng
= “ T
T TT
T
” và
= “CCTGAGCCAACTGAT" sẽ mã
hóa hai prơtêin tương ứng = “P PT D ” và = “PEPTV” (xem Bảng 1.6).

Chuỗi ADN
Chuỗi ADN
Chuỗi prôtêin
Chuỗi prôtêin


1
2
3
4
5
6
7
CCT GAG CCA ACT ATT GAT GAA
CCG GAG CCA ACT ATT GTT   
P
P

E
E

P
P

T
T

I
I

D
V

E



Bảng 1.6: Các biến đổi giữa hai chuỗi ADN và hai chuỗi prôtêin tương ứng
của chúng.

So sánh hai chuỗi ADN
nhận th y:






và hai chuỗi prôtêin tương ứng

của chúng, ta

Có một phép thay thế nuclêơtít ở vị trí thứ 3 của codon thứ nh t giữa hai
chuỗi ADN và . Tuy nhiên, phép thay thế này khơng dẫn đến sự biến
đổi của hai axít amin do ch ng mã hóa (cả hai codon
T và
đều mã
hóa axít amin P).
Có một phép thay thế nuclêơtít ở vị trí thứ 2 của codon thứ 6 giữa hai chuỗi
ADN và . Phép thay thế này dẫn đến sự biến đổi của hai axít amin do
ch ng mã hóa tương ứng; axít amin D trên prơtêin bị thay thế bởi axít
amin V trên chuỗi prơtêin , ho c ngư c lại.
Có một phép chèn/xóa codon ở vị trí thứ 7 giữa hai chuỗi ADN và .
Phép chèn/xóa này dẫn đến một phép chèn/xóa axít amin ở vị trí thứ 7 giữa
hai chuỗi prơtêin tương ứng và . o c axít amin đư c chèn vào vị trí
thứ 7 trên chuỗi prơtêin ; ho c một axít amin đã bị xóa kh i vị trí thứ 7
trên chuỗi prơtêin .


Tóm lại, sự biến đổi của các chuỗi ADN có th dẫn đến sự biến đổi của các
chuỗi axít amin do ch ng mã hóa. ác biến đổi này có th làm thay đổi c u tr c,
chức năng của các chuỗi prôtêin của các lồi sinh vật.
Giáo trình Nhập mơn tin sinh học.

23


Draft version - Confidential

1.7.
1.

Bài tập chương

ai chuỗi ADN như thế nào thì đư c gọi là tương đổi với nhau. Phân biệt khái
niệm tương đồng và khái niệm giống nhau giữa hai chuỗi ADN.

2. Liệt kê, giải thích và cho ví dụ về các phép biến đổi khác nhau đối với một
nuclêơtít trên một chuỗi ADN.
3. Cho hai chuỗi ADN
= “A

TT” và

= “ GGTGGGCCCTG
Hãy tìm các phép biến đổi khi so sánh hai chuỗi này.
4. Cho hai chuỗi ADN
=“

=“

TT” và
T

T

ãy tìm các phép biến đổi khi so sánh hai chuỗi này.
5. Một axít min đư c tạo ra từ một bộ ba nuclêơtít, vậy tại sao trong tự nhiên ch
có 2 loại axít amin khác nhau?
6. Liệt kê t t cả các loại axít amin trong tự nhiên, với mỗi axít amin hãy liệt kê t t
cả các bộ ba nuclêơtít mã hóa cho axít amin đó.
7. Trình bày q trình biến đổi từ ADN sang prơtêin?
ADN đều đư c biến đổi thành prơtêin hay khơng?
8. Tìm và trình bày các thông tin sau:





ộ dài và số lư
ộ dài và số lư
ộ dài và số lư
ộ dài và số lư

ng gen trong bộ gen của con người
ng gen trong bộ gen của con chuột
ng gen trong bộ gen của con chó
ng gen trong bộ gen của cây l a


9. Tìm và trình bày các thơng tin sau:





Số lư
Số lư
Số lư
Số lư

ng nhi
ng nhi
ng nhi
ng nhi

m sắc th
m sắc th
m sắc th
m sắc th

trong bộ gen của con người
trong bộ gen của con chuột
trong bộ gen của con chó
trong bộ gen của cây lúa

10. Cho đoạn gen
Giáo trình Nhập mơn tin sinh học.

24


ó phải t t cả các đoạn


Draft version - Confidential

=“
T T TT
TTT T T
TTTT CGCCCCCGTTCCCTGGGTGTT
T T TT”. Hãy tìm chuỗi axít amin tương tứng với đoạn này.
11. Cho chuỗi prôtêin
prôtêin trên.

= “P P”, hãy liệt kê t t cả các đoạn gen có th mã hóa

12. Cho chuỗi prôtêin
prôtêin trên.

= “T D”, hãy liệt kê t t cả các đoạn gen có th mã hóa

13. Viết chương trình biến đổi đoạn gen thành chuỗi axít amin tương ứng. Dữ liệu
vào từ file văn bản “ADN_protein.in” chứa một chuỗi nucleotít với độ dài b t
kì (chương trình không phân biệt chữ in hoa và chữ in thường; loại b các kí
trắng).
Dữ liệu đưa ra file văn bản “ADN_protein.out” chuỗi prôtêin tương ứng với
đoạn gen đầu vào. ếu chuỗi đầu vào chứa các kí tự khơng phải là bi u di n
cho các nuclêơtít, thì chương trình thơng báo lỗi ra màn hình.
Ví dụ:
ADN_protein.in

ADN_protein.out
CAGTTGACGGCGAACCGT QLTANR

Giáo trình Nhập mơn tin sinh học.

25


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×