Tải bản đầy đủ (.docx) (62 trang)

Thực hành Tin sinh hoc ứng dụng(1 6)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.49 MB, 62 trang )

Bài giảng
TIN SINH HỌC ỨNG DỤNG
PHẦN 1. GIỚI THIỆU CHUNG
CHƯƠNG 1. GIỚI THIỆU VỀ BIOINFORMATICS
1.1.

Khái niệm

Tin sinh học là một ngành khoa học ứng dụng toán học (thống kê) và khoa học máy tính vào
lĩnh vực sinh học (sinh học phân tử và y học). Thuật ngữ tin sinh học lần đầu tiên được Paulien
Hogeweg giới thiệu năm 1979 dùng để mô tả những nghiên cứu về các quá trình trong các hệ thống
sinh học. Vào cuối những năm 1980, thuật ngữ này được đưa vào lĩnh vực di truyền học (genetics)
và nghiên cứu genome (genomics) liên quan đến việc xác định trình tự, quản lý, phân tích và khai
thác các CSDL sinh học. Tin sinh học hiện liên quan đến xây dựng và phát triển các cơ sở dữ liệu,
các thuật toán, thống kê và các kỹ thuật máy tính để giải quyết các vấn đề liên quan đến lý thuyết và
thực nghiệm trong việc quản lý và phân tích các dữ liệu sinh học. Mô phỏng và dự đoán sự tương
tác giữa các phân tử và các quá trình sinh học là một hướng của tin sinh học đang ngày càng được
tập trung nghiên cứu và ứng dụng rộng rãi.

Biology

Mathematics

Computer
science

Bioinformatics

Hình 1: Tin sinh học và mối liên hệ giữa các lĩnh vực
1.2.


Nền tảng sinh học cho sự ra đời và phát triển của bioinformatics

Một trong những nền tảng quan trọng trong sinh học là việc phát hiện ra bên trong mỗi tế bào chứa
vật chất di truyền là DNA. Phân tử DNA mã hóa cho mRNA và các loại RNA khác. Protein được
dịch mã từ phân tử mRNA sẽ thực hiện vô vàn chức năng sinh học kể trong đó bao gồm cả việc điều
hòa hoạt động của các gene và các protein cũng như các quá trình sinh học. Lấy người làm ví dụ
minh họa, cơ thể chúng ta được tạo nên bởi khoảng 1012 tế bào, trong đó, mỗi tế bào chứa 23 cặp
NST. Đến nay có khoảng 23.000 gene ( 1) được phát hiện ở người. Kết quả xác định trình tự cho
thấy kích thước genome người khoảng 3,2.109 cặp nucleotide. Đến nay chúng ta hiểu một cách cơ
bản là trình tự các gene mã hóa cho các RNA và protein (thông qua quá trình dịch mã) nhưng chúng

1

International Human Genome Sequencing Consortium (2004). "Finishing the euchromatic sequence of the
human genome.". Nature 431 (7011): 931–45. Bibcode






Năm
1930
1951
1953
1954
1955
1970
1972
1973

1974
1975

ta thiếu rất nhiều thông tin cần thiết để hiểu thấu đáo được vai trò của DNA trong những bệnh nhất
định hoặc chức năng của hàng ngàn protein do các gene tạo ra.
Các phương pháp hiện nay đang được dùng bao gồm thu thập, lưu trữ, cho phép truy cập tìm kiếm,
phân tích và nghiên cứu các mối liên quan giữa các dữ liệu trong các cơ sở dữ liệu khổng lồ và phức
tạp được nhóm lại vào trong một lĩnh vực nghiên cứu được gọi là tin sinh học. Như vậy, mục tiêu
của tin sinh học là cung cấp cho các nhà khoa học các phương tiện và công cụ để giải thích:
Các quá trình sinh học phổ biến hiện nay
Các rối loạn chức năng của những quá trình này dẫn đến các bệnh tật
Các hướng tiếp cận để cải thiện hoặc tìm ra các thuốc điều trị mới
Việc sử dụng các kỹ thuật này đã tăng lên rất nhanh chóng thể hiện ở số lượng các nguồn CSDL,
các công cụ phân tích, các dịch vụ cũng như nhu cầu và quy mô sử dụng tin sinh học. Quá trình này
sẽ dẫn đến đòi hỏi các nhà tin sinh học, khoa học máy tính cần phải phát triển để nâng cao độ chính
xác và giảm thời gian cho các nhà nghiên cứu sinh học.
Tin sinh học là một lĩnh vực nghiên cứu đa ngành, ở mức độ nhất định, nó được đặt trên nền tảng
của sinh học phân tử (nguồn cung cấp CSDL cần phân tích), khoa học máy tính (cung cấp các phần
cứng cho việc phân tích và mạng lưới máy tính để so sánh, đối chiếu các kết quả phân tích), các
thuật toán để phân tích dữ liệu. Ba yếu tố này có vai trò sống còn đối với tin sinh học. Ngay sinh
học phân tử, bản thân nó cũng là một lĩnh vực tương đối mới được dựa trên nền tảng của nhiều môn
khoa học cơ bản mà quan trọng nhất là di truyền học, hóa sinh học, vi sinh học, tế bào học… Dưới
đây là một vài điểm mốc lịch sử quan trọng cho sự phát triển của sinh học phân tử và tin sinh học:
Phát minh
Tiselius đưa ra kỹ thuật điện di để phân tách protein trong dung dịch
Pauling và Corey đề xuất cấu trúc xoắn alpha và phiến gấp nếp beta
Watson và Crick đề xuất mô hình chuỗi xoắn kép DNA dựa trên dữ liệu thu được tử kết quả
phân tích nhiễu xạ tia X của Franklin and Wilkins
Nhóm nghiên cứu của Perutz đã phát triển phương pháp dùng nguyên tử nặng (heavy atom)
để giải quyết khó khăn trong việc kết tinh protein.

Trình tự của protein đầu tiên được phân tích là insulin ở bò bởi F. Sanger.
Thuật toán của Needleman-Wunsch cho việc căn trình tự (alignment) được công bố.
Phân tử DNA tái tổ hợp được tạo ra bởi Paul Berg và nhóm nghiên cứu của mình.
Cơ sở dữ liệu Protein được công bố bởi Brookhaven
Vint Cerf và Robert Kahn phát triển phương thức giao tiếp máy tính TCP làm nền tảng cho
internet.
Điện di 2 chiều được phát triển bởi P. H. O'Farrell (J. Biol. Chem., 250: 4007-4021, 1975).
Phương pháp Southern blot được mô tả và công bố bởi E. M. Southern (J. Mol. Biol., 98: 503517, 1975).

1977

Cở dữ liệu protein, PDB, chính thức ra đời () is published (Bernstein, F.C.;
Koetzle, T.F.; Williams, G.J.B.; Meyer, E.F.; Brice, M.D.; Rodgers, J.R.; Kennard, O.; Shimanouchi,
T.; Tasumi, M.J.; J. Mol. Biol., 1977, 112:, 535).

1980

1981
1982
1985
1986

Maxam và Walter Gilbert (Harvard) và Frederick Sanger (U.K. Medical Research Council)
công bố phương pháp xác định trình tự DNA.
Trình tự genome hoàn chỉnh của một sinh vật (FX174) được công bố. Genome chứa 5,386
cặp base mã hóa cho 9 protein.
Phương pháp NMR đa chiều (multi-dimensional NMR) đã được sử dụng để xác định cấu
trúc protein
Thuật toán Smith-Waterman để căn trình tự đã được công bố
Genetics Computer Group (GCG) đã tạo ra nhiều công cụ phân tích trong sinh học phân tử

tại trung tâm Công nghệ sinh học Wisconsin thuộc trường đại học Wisconsin.
Thuật toán FASTP được công bố
Phản ứng PCR được mô tả bởi Kary Mullis và cộng sự
Thuật ngữ “Genomics" xuất hiện lần đầu tiên để mô tả lĩnh vực khoa học liên quan đến việc


1987

1988

1990

1991
1997
1998
2000
2001
2004
2004
2008

1.3.

(i)
(ii)
(iii)
(iv)

lập bản đồ, xác định trình tự và phân tích các gene. Thuật ngữ được đưa ra bởi
Thomas Roderick, sau này là tên của một tạp chí nổi tiếng: Genomes.

CSDL SWISS-PROT được tạo ra bởi phòng sinh hóa y học (Department of Medical
Biochemistry) của trường đại học Geneva và ngân hàng CSDL châu Âu EMBL ra
đời (European Molecular Biology Laboratory).
NST nhân tạo của nấm men (YAC) được giới thiệu (David T. Burke, et. al., Science, 236: 806-812).
Bản đồ vật lý của E.coli được công bố (Y. Kohara, et. al., Cell 51: 319-337).
Ngôn ngữ lập trình Perl (Practical Extraction Report Language) được phát triển bởi Larry
Wall.
NCBI (National Center for Biotechnology Information) được thành lập ở viện nghiên cứu
ung thư quốc gia (National Cancer Institute).
Dự án xác định genome người được khởi động (Commission on Life Sciences, National
Research Council. Mapping and Sequencing the Human Genome, National
Academy Press: Washington, D.C.), 1988.
Thuật toán FASTA dùng để so sánh trình tự được công bố bởi Pearson và Lupman.
Des Higgins và Paul Sharpe công bố phát triển chương trình CLUSTAL
Chương trình BLAST ra đời (Altschul, et. al.)
Molecular Applications Group được thành lập ở California bởi Michael Levitt và Chris Lee.
Sản phẩm của công ty là Look and SegMod được dùng để thiết kế các mô hình phân
tử và protein.
InforMax được thành lập ở Bethesda, MD. Sản phẩm của công ty hướng tới là các phần
mềm, chương trình phân tích trình tự, quản lý và phân tích CSDL, tìm kiếm, hiện thị
dữ liệu bằn đồ họa, thiết kế dòng (clone construction), mapping và thiết kế mồi.
Viện nghiên cứu ở Geneva (Research institute in Geneva/ CERN) công bố tạo ra phương
thức make-up cho World Wide Web.
Genome của E.coli (4.7 Mbp) được công bố
Genom của Caenorhabditis elegans và nấm men bánh mì được công bố.
Swiss Institute of Bioinformatics được thành lập dưới dạng hiệp hội nghiên cứu phi lợi
nhận
Genome của Pseudomonas aeruginosa (6.3 Mbp) được công bố
Genome của Arabidopsis thaliana (100 Mb) được xác định trình tự
Genome Drosophila melanogaster (180Mb) được xác định trình tự

Genome người có kích thước 3,000 Mbp được công bố
Bản nháp genome của chuột, Rattus norvegicus, đã được công bố
Thế hệ xác định trình tự mới chính thức ra đời khởi đầu với kỹ thuật 454 sequencing
Các dự án xác định trình tự genome 1000 loài
/>Vai trò của bioinformatics trong nghiên cứu sinh học (2 tiết)

Trong một vài thập kỉ gần đây, sự phát triển nhanh chóng các lĩnh vực genomic và công
nghệ sinh học phân tử đã tạo ra một khối lượng thông tin rất lớn. Sự ra đời của tin sinh học cùng với
sự phát triển các thuật toán kết hợp với khoa học máy tính sẽ làm sáng tỏ bản chất của các quá trình
sinh học. Vai trò của tin sinh học có thể tóm tắt một cách ngắn gọn như sau:
Thu thập, tổ chức và quản lý các dữ liệu sinh học (database);
Phát triển các công cụ tìm kiếm dữ liệu (search tools, data mining)
Phân tích trình tự (sequence analysis), mô tả genome (genome annotation), so sánh genome
(genomic comparison);
Mô phỏng cấu trúc, mô phỏng tương tác phân tử (molecular interaction modelling), dự đoán cấu
trúc protein (prediction of protein structure);


(v)
(vi)
(vii)
(viii)
(ix)

Phân tích chức năng protein (protein function analysis), tương tác protein và các con đường chuyển
hóa (protein interactions and metabolism pathways), mô hình hóa các hệ thống sinh học (modeling
biological systems), phân tích mô hình biểu hiện gene (analysis of gene expression profile),
Phân tích trình tự genome để phát hiện các đột biến, ung thư, xác định được vai trò của các gene và
hướng tới các liệu pháp điều trị (genome analysis and treatment);
Phân tính mối quan hiện tiến hóa, di truyền quần thể dựa trên các phần mềm và công cụ máy tính;

Phân tích hình ảnh quy mô lớn (high-throughput image analysis),
Phát triển các thuật toán, phần mềm để giải quyết nhu cầu của các nhà khoa học trong lĩnh vực sinh
học.
Phân tích trình tự (sequence analysis)
Phân tích trình tự là quá trình bao gồm nhiều thao tác liên quan đến việc tìm kiếm các dữ
liệu trình tự, so sánh các trình tự với nhau và kết hợp với các công cụ khác để tìm ra những thông
tin cần thiết nằm trong chuỗi trình tự cần phân tích. Những thông tin này bao gồm: sự tương đồng,
các vùng hoạt động chức năng (domain), các vùng đặc trưng (motif), sự định vị của các gene trong
genome (gene finding), các yếu tố điều hòa hoạt động gene (promoter, intron, exon, vùng cấu trúc
điều hòa phiên mã).
Năm 1977, trình tự genome đầu tiên được xác định là của phage Φ-X174, từ đó đến nay
genome của hàng nghìn sinh vật đã được xác định trình tự và lưu giữ trong các ngân hàng gene. Các
công cụ tin sinh học đã được dùng phổ biến trong phân tích trình tự chẳng hạn như: BLAST,
FASTA và các biến thể của chúng, các chương trình so sánh trình tự (sequence alignment), ngoài ra
còn rất nhiều các công cụ hỗ trợ khác (các công cụ của Expasy để phân tích các trình tự amino
acid).
Mô tả genome (genome annotation)
Về khía cạnh nghiên cứu genome, mô tả genome là quá trình đánh dấu các trình tự DNA
(gene) và gắn các đặc điểm sinh học vào những trình tự DNA đó. Hệ thống phần mềm cho phép mô
tả genome đầu tiên được Dr. Owen White xây dựng vào năm 1995.Đối tượng đầu tiên là vi khuẩn
Haemophilus influenzae. Ông đã xây dựng hệ thống này với mục tiêu ban đầu là để tìm ra các gene,
các tRNA trong genome và các đặc điểm khác sau đó gắn những chức năng sinh học đã biết vào các
yếu tố này. Đến nay có nhiều hệ thống mô tả genome, về căn bản là như nhau nhưng có sự khác
nhau về thuật toán và chương trình máy tính.
So sánh genome
Trọng tâm của so sánh genome là thiết lập sự tương ứng hoặc mối liên hệ giữa các gene
(orthology analysis) hoặc các đặc điểm genome ở các sinh vật khác nhau. Đó là những bản đồ
tương tác giữa các genome cho phép phát hiện được các quá trình tiến hóa dẫn đến sự khác nhau
hoặc biến đổi giữa hai genome.
Các sự kiện tiến hóa phức tạp xảy ra ở nhiều mức độ khác nhau dẫn đến tiến hóa về mặt

genome. Ở mức độ thấp nhất, các đột biến điểm làm thay đổi genome ở những nucleotide đơn lẻ. Ở
mức độ cao hơn, sự lặp đoạn, đảo đoạn, mất đoạn, thay đổi vị trí các trình tự DNA trong NST (gene
nhảy, transposable elements) làm thay đổi về mặt tổ chức vật lý của genome. Cuối cùng toàn bộ
genome tham gia vào những quá trình lai, lưỡng bội hóa và tương tác cộng sinh nội bào dẫn đến sự
phân loài nhanh chóng. Tính phức tạp của tiến hóa genome dẫn đến sự khó khăn trong việc phát
triển các thuật toán cũng nhưng mô hình toán học để mô phỏng chính xác. Vì vậy cho đến nay các
thuật toán chỉ mang tính hợp lý nhất (heuristic) chứ không phải là chính xác nhất (precise). Các
thuật toán và mô hình đang dùng phổ biến hiện nay bao gồm: heuristics, approximation algorithms,
parsimony models, Markov Chain Monte Carloalgorithms, Bayesian analysis, probabilistic models.
Xây dựng và mô phỏng cấu trúc
Dự đoán cấu trúc phân tử protein là một trong những ứng dụng quan trọng của
bioinformatics. Trình tự amino acid của một phân tử protein (cấu trúc sơ cấp), có thể suy diễn từ


trình tự nucleotide của gene mã hóa tương ứng. Để mô phỏng cấu trúc người ta cần những thông tin
cụ thể về protein, tốt nhất là cấu trúc kết tinh của phân tử protein. Trong những trường hợp khó kết
tinh hoặc chỉ có trình tự amino acid người ta có thể so sánh trình tự amino acid của một protein
hoặc polypeptide với những protein khác đã biết trong CSDL sử dụng các thuật toán để tìm ra sự
tương đồng, từ đó đưa ra cấu trúc mô phỏng tương đối của các protein chưa biết. Tuy nhiên, có
nhiều trường hợp cấu trúc giống nhau nhưng trình tự amino acid lại rất khác nhau. Vì thế cho đến
nay chưa có thuật toán hoặc chương trình máy tính nào giải quyết được vấn đề này. Sự mô phỏng
chỉ mang tính tương đối và có tính chất tham khảo.
Một ví dụ về sự tương đồng (homology) giữa haemoglobin của người và của các cây họ đậu
(leghemoglobin). Cả hai đều được dùng để vận chuyển oxy trong cơ thể. Mặc dù vậy hai protein
này có trình tự amino acid hoàn toàn khác nhau nhưng cấu trúc của chúng là giống nhau một cách
đặc biệt, điều đó cũng phản ánh mối quan hệ giữa cấu trúc và hoạt động chức năng.
Mô phỏng tương tác phân tử
Mô phỏng tương tác phân tử là việc đưa ra các mô hình để mô tả bản chất của sự tương tác
khi hai hay nhiều phân tử tiếp xúc với nhau trong đó bao gồm vị trí, nhóm tương tác và cơ chế hình
thành những tương tác liên quan đến những thay đổi về nhiệt động học, thay đổi trạng thái phân tử

(thay đổi điện tích, trao đổi các điện tử, chuyển dịch các nhóm liên kết), thay đổi cấu hình và trạng
thái hình học không gian của phân tử. Các tương tác phân tử bao gồm: protein-protein/peptide,
enzyme-cơ chất, ligand-chất tương tác (thuốc). Thuật ngữ thường sử dụng hiện nay là docking và
thuật toán tương ứng của nó là docking algorithms.
Các kỹ thuật được dùng để hỗ trợ bao gồm: phân tích nhiễu xạ tia X (X-ray crystallography), phân
tích cộng hưởng từ hạt nhân protein (protein nuclear magnetic resonance spectroscopy protein
NMR). Một trong những câu hỏi quan trọng là liệu chỉ cần phân tích cấu trúc phân tử (3D) để dự
đoán sự tương tác phân tử hay cần phải làm thực nghiệm cụ thể cho tương protein-protein (protein–
protein interaction experiments) hoặc protein–protein docking?
Dự đoán cấu trúc protein (prediction of protein structure)
Dự đoán cấu trúc protein dựa vào những thông tin sau: trình tự amino acid, kết quả khối phổ
(MS), kết tinh và phân tích nhiễu xạ tia X, các đặc điểm sinh học tương đồng (chẳng hạn dựa vào sự
giống nhau trên cơ sở cùng thực hiện chức năng sinh học, hoặccác enzyme xúc tác một kiểu phản
ứng, loại hoặc nhóm cơ chất…).
Các thuật toán phát triển dựa vào việc tính toán các liên kết hóa học, khả năng hình thành các liên
kết, tương tác giữa các phân tử, phân tích nhiệt động học, năng lượng tự do, năng lượng liên kết để
xây dựng lên các mô hình cấu trúc không gian. Tuy nhiên, hiện nay việc phân tích mối liên hệ và so
sánh giữa các cấu trúc và chức năng đã biết vẫn được coi là nền tảng để dự đoán cấu trúc các
protein. Chính vì vậy, những protein mới
Phân tích biểu hiện gene (analysis of gene expression)
Các CSDL về mRNA, cDNA, EST giúp phát hiện sự biểu hiện hoặc mức độ biểu hiện của
các gene. Các cơ sở dữ liệu về protein microarray và khối phổ (MS) hỗ trợ rất nhiều cho việc phân
tích hoặc phát hiện sự có mặt của một protein nào đó ở một mẫu sinh học. Việc so sánh và đối chiếu
các CSDL này cho phép rút ngắn thời gian. Tuy nhiên quá trình này đòi hỏi thuật toán phức tạp khi
xử lý khối lượng mẫu lớn (high through put analysis), sự nhiễu số liệu do các sai số gặp phải trong
thực nghiệm.
Từ phân tích trình tự genome đến việc điều trị (from genome to therapy)
Một trong những nguyên nhân chính dẫn đến ung thư là việc tích lũy các đột biến. Phân tích
lượng lớn các trình tự có thể xác định được những đột biến tiềm ẩn ở các gene khác nhau có liên
quan đến ung thư. Bioinfomatics phát triển các hệ thống phân tích tự động để quản lý, lưu giữ các

thông tin từ đó cho phép các thao tác tìm kiếm, so sánh và đối chiếu giữa các gene, genome để phát


hiện sự đa hình (chẳng hạn các cơ sở dữ liệu dbVar, dbSNP, CancerChromosome). Kết quả những
phân tích này giúp cho việc điều trị và chẩn đoán dễ dàng hơn. Một ví dụ điển hình là sự khác nhau
trong việc đáp ứng hoặc phản ứng với các thuốc điều trị ở mỗi người.
Các kỹ thuật mới đang được áp dụng như so sánh các oligonuclotide (oligonucleotide
analysis), so sánh sự khác biệt ở mức độ nucleotide để tìm ra các đột biến điểm (single-nucleotide
polymorphism arrays). Phương pháp này cho phép phân tích đồng thời hàng trăm nghìn vị trí khác
nhau trong genome. Đối với những genome lớn việc phân tích hàng tỉ ký tự tạo ra các dự liệu lên tới
hàng tỉ byte (tetrabytes), việc phát triển các thuật toán để đáp ứng yêu cầu này là một trong những
nội dung đặt ra cho bioinformatics. Thuật toán đang dùng hiện nay là Hidden Markov model,
change-point analysis methods.
Nghiên cứu sinh học tiến hóa (Computational evolutionary biology)
Sinh học tiến hóa nghiên cứu nguồn gốc và hậu duệ của của các loài cũng như những thay
đổi theo thời gian. Công nghệ thông tin và tin sinh học hỗ trợ các nhà nghiên cứu sinh học ở nhiều
khía cạnh, bao gồm:
- Phát hiện được sự tiến hóa ở nhiều sinh vật nhờ vào việc so sánh, tìm ra sự thay đổi DNA
của chúng hơn là kiểm tra các đặc điểm sinh lý hoặc phân loại dựa vào mô tả hình thái.
- So sánh toàn bộ genome cho phép nghiên cứu sự phức tạp lớn hơn trong các sự kiện tiến
hóa, chẳng hạn như: lặp đoạn, trao đổi vật chất di truyền hoặc lấy một phần vật chất di
truyền của một loài (nhưng không phải là hậu duệ của loài đó horizontal gene transfer hoặc
lateral gene transfer: biến nạp, cộng sinh, tái tổ hợp genome, chuyển gene) (phân biệt với
vertical gene transfer).
- Xây dựng các mô hình máy tính để dự đoán đầu ra (hệ quả) của các quần thể theo thời gian.
- Theo dõi và chia sẻ thông tin của một số lượng lớn các loài và cá thể.
- Xây dựng bức tranh tổng thể về cây phát sinh chủng loại.
Phân tích hình ảnh quy mô lớn
Công nghệ máy tính hiện nay cùng với các thí nghiệm phân tích tự động quy mô lớn tạo ra một số
lượng hình ảnh cũng như dung lượng vô cùng lớn. Ngoài như những hình ảnh phân tích chứa đựng

nhiều thông tin như: ảnh phân tích các mẫu, mô bệnh, ảnh chụp trong y học, lâm sàng. Những hình
ảnh này cần được lưu giữ, đối chiếu và so sánh để chắt lọc thông tin phục vụ cho chân đoán và điều
trị. Các thuật toán được xây dựng nhằm giải quyết những đòi hỏi trên trong một thời gian ngắn là
không thể thiếu. Một số ví dụ:
- Các hình ảnh mang tính định lượng với độ tin cậy cao, vị trí các bào quan, các mô bệnh…
- Phân tích định lượng các đặc điểm bên trong hình ảnh (bào quan, kích thước, hình dạng, vị
trí phân bố…)
- Hiện thị các hình ảnh phân tích lâm sàng
- Xác định các mô hình, hình mẫu real-time của dòng khí vận chuyển trong phổi động vật, sự
vận chuyển của các chất qua màng tế bào, mô (drug delivery).
- Dự đoán kích thước của các hạt, vón cục xảy ra trong quá trình phẫu thuật (real-time
imaginery) và quá trình hồi phục sau bị thương ở các động mạch.
- Quan sát tập tính của các động vật trong phòng thí nghiệm
- Phân tích các hình ảnh hồng ngoại để xác định hoạt động trao đổi chất
- Phân biệt các hiện tượng clone overlapping của các đoạn DNA trong khi so sánh các clone
với nhau.
- Phân tích các hình ảnh huỳnh quang (các kỹ thuật xác định trình tự thế hệ mới).
Phân tích chức năng protein
Các CSDL MS, trình tự, cấu trúc, tương tác protein-protein, protein docking là nền tảng để
phân tích chức năng protein. Việc so sánh trình tự, căn trình tự hỗ trợ rất đắc lực để phát hiện các
motif, domain, (mô hình) pattern để phát hiện và phân tích chức năng các protein. Các họ protein
hoặc các protein cùng thực hiện chức năng cũng được phát hiện dựa trên những cơ sở so sánh này.


Tương tác protein và các con đường chuyển hóa
Tương tác giữa các protein (enzyme) liên quan đến rất nhiều quá trình sinh học (xúc tác,
điều hòa, ức chế). Các con đường chuyển hóa đòi hỏi có sự tương tác rất chặt chẽ và phức tạp của
các protein. Hiện nay, nghiên cứu xây dựng mô hình tương tác giữa các protein cũng gắn liên với
việc phân tích các mô hình biểu hiện gene. Khi những mối quan hệ này được làm sang tỏ chúng ta
sẽ biết được vai trò của các gene, protein và các cơ chế điều hòa sự biểu hiện của các gene tham gia

trong các mạng lưới. Sự rối loạn hoặc thay đổi các mối quan hệ tương tác sẽ dẫn đến những bệnh
tật. Việc điều trị các bệnh dựa trên cơ sở hiểu biết mối liên hệ nhiều yếu tố sẽ có hiệu quả rất lớn.
Hiên nay, đây cũng là hướng được các nhà sinh học, tin sinh học đang tập trung nghiên cứu.
Mô hình hóa các hệ thống sinh học (Modeling biological systems)
Đòi hỏi sự kết hợp giữa sinh học hệ thống (system biology) và toán sinh học (mathematical
biology). Ví dụ như các hệ thống dưới tế bào (cellular subsystems) bao gồm các chất trao đổi và các
enzymes tham gia hình thành các con đường trao đổi chất, các con đường dẫn truyền tín hiệu, điều
hòa hoạt động gene. Tất cả những quá trình này cần được phân tích và hiện thị trong phức hợp của
các thành phân bên trong tế bào (bào quan). Ngoài ra với sự hỗ trợ của bioinformatics và
computational biology, sự sống nhân tạo, ảo liên quan đến quá trình tiến hóa có thể được mô phỏng.
Thuật toán và các thách thức trong khoa học máy tính
Phát triển thuật toán mới nhằm: Rút ngắn thời gian phân tích (giảm thiểu sử dụng tài nguyên
máy tính) và nâng cao độ tin cậy của các phân tích, mô phỏng.
Phát triển các phần mềm và công cụ phân tích (Software and tools)
Các phần mềm và công cụ phân tích tập trung vào các nhóm chính sau đây:
- Các công cụ tìm kiếm trình tự tương đồng và tương tự (homology and similarity tools)
Trình tự tương đồng (homology): giữa các trình tự DNA hoặc các tính trạng phân tích có
cùng nguồn gốc, quan hệ tiến hóa từ một tổ tiên chung. Mức độ giống nhau (similarity) giữa
hai (các) trình tự có thể được xác định liệu sự tương đồng là thực sự hay là ngẫu nhiên.
- Các công cụ thuộc nhóm này nhằm xác định sự giống nhau giữa một trình tự mới đưa vào
(novel query sequence) với cấu trúc và chức năng chưa biết với toàn bộ CSDL đã được
biết.Nhóm này bao gồm các công cụ chính: FASTA, BLAST và các biến thể của chúng (xem
các chương sau).
- Phân tích chức năng protein
Phân tích chức năng bao gồm: Xác định chức năng và lập bản đồ của các thành phần chức
năng (phần mã hóa và không mã hóa của gene tương ứng) trong genome. Nhóm này bao
gồm các chương trình cho phép so sánh trình tự protein (query) với các CSDL protein thứ
cấp chứa thông tin về các motif, domain. Những kết quả tìm kiếm có mức độ giống lớn nhất
cho phép dự đoán chức năng hóa sinh học của protein chưa biết.
- Phân tích cấu trúc

Các nhóm công cụ cho phép so sánh các cấu trúc chưa biết (query) với các CSDL cấu trúc
đã biết. Chức năng của một protein có thể xác định chính xác hơn khi so sánh cấu trúc của
nó hơn là chỉ trình tự amino acid. Vì cấu trúc tương tự nhau thường gắn liền với sự tương
ứng về chức năng hoạt động (homologs). Việc xác định cấu trúc protein dạng 2D/3D có ý
nghĩa vô cùng quan trọng để nghiên cứu chức năng của nó. Công việc này đi kèm với việc
tinh sạch và kết tinh protein, kết hợp với các phương pháp phân tích tinh thể.
- Phân tích trình tự
Các công cụ thuộc nhóm này cho phép thực hiện các phân tích sâu hơn về trình tự chưa biết
(query) bao gồm: phân tích tiến hóa, xác định đột biến, các vùng ưa nước (hydropathy
regions), CpG islands, và xu hướng sử dụng các thành phần base trong các mã di truyền
(compositional biases). Những kết quả phân tích này sẽ hỗ trợ cho các nghiên cứu làm sáng
tỏ chức năng của trình tự chưa biết.


1.4.

Nhiệm vụ và các hướng nghiên cứu của Bioinformatic

Vào giai đoạn đầu của cuộc cách mạng genomics, tin sinh học tập trung vào việc tập hợp và
lưu giữ các thông tin, cơ sở dữ liệu sinh học để hình thành các ngân hàng cơ sở dữ liệu (chủ yếu là
trình tự amino acid, nucleotide). Quá trình này liên quan đến việc thiết kế mạng lưới CSDL liên kết
và phát triển các giao diện webnhờ đó các nhà nghiên cứu vừa có thể truy cập vào các cơ sở dữ liệu
vừa có thể đăng ký thêm các trình tự, dữ liệu mới hoặc các dữ liệu đã được chỉnh sửa, bổ sung. Xuất
phát từ nhu cầu của các nhà khoa học về việc tìm kiếm và phân tích dữ liệu (data mining) đã dẫn
đến việc phát triển các công cụ tìm kiếm kết hợp với việc so sánh các dữ liệu. Việc sử dụng các
chương trình FASTA, BLAST, căn trình tự (sequence alignment); lắp ráp các trình tự (genome
assembly);tìm kiếm gene trong genome (gene finding), phân tích các domain trong phân tử protein
và xác định cấu trúc của chúng đã trở thành những thao tác thông thường hàng ngày của các nhà
nghiên cứu. Những ứng dụng ở mức cao hơn và phức tạp hơn như: xác định được vị trí và vai trò
của gene trên các nhiễm sắc thể (position cloning);so sánh cấu trúc ba chiều của các protein,dự đoán

cấu trúc protein và các tương tác protein-protein;nhận dạng mô hình (pattern recognition);dự đoán
mô hình biểu hiện gene (gene expression profile prediction)đang trở nên phổ biến ở những phòng
nghiên cứu mạnh.
Từ kết quả của các nghiên cứu về xác định vai trò các gene và tương tác gene, nhà khoa học
có thể so sánh các hoạt động của những tế bào bình thường và những tế bào bị bệnh. Để làm được
điều nàycần thiết phải có sự kết hợp và đối chiếu giữa cáccơ sở dữ liệu sinh học để tạo thành một
bức tranh tổng thể và diễn đạt được các mối liên hệ của các hoạt động qua đó sẽ nghiên cứu được
các con đường chuyển hóa (metabolomics). Đây cũng là một trong những thách thức rất lớn của các
nhà tin sinh học.

Hình 2. Mối liên hệ giữa transcriptomics, proteomics và các con đường chuyển hóa (metabolomics)
(Goodacre (2005) J Exp Bot 56: 245)
Hướng phát triển cao hơn nữa là xây dựng được các mô hình và sự tương tác giữa các mô
hình chuyển hóa trên cơ sở này sẽ làm sáng tỏ được các mô hình biểu hiện gene, sự tương tác giữa
các gene và nhóm các gene. Những kết quả này sẽ góp phần trong việc điều khiển sự hoạt động của
gene và phát triển các liệu pháp điều trị hiệu quả.


Hình 3. Mạng lưới các gene liên quan đến các bệnh ở người
(The human disease network. PNAS. vol. 104, no. 21, 8685–8690)
Nghiên cứu để phát triển thuật toán, phần mềm và các công cụ phân tích mới (software and
tools) chẳng hạn: hỗ trợ trong việc xác định sự có mặt và vị trí của các gene trong một trình tự DNA
hay trên NST, dự đoán cấu trúc protein và chức năng của chúng hoặc phân tích, sắp xếp các nhóm
trình tự protein thành một họ gồm các trình tự có liên quan.
Các công cụ chính của Bioinformatics (Bioinformatics tools)
BLAST
BLAST là chữ viết tắt của (Basic Local Alignment Search Tool). Đây là nhóm công cụ cho
phép so sánh các trình tự DNA và protein với các trình tự khác có trong CSDL. Hiện nay có một số
biến thể của BLAST như: PSI-BLAST, PHI-BLAST. Ngoài ra còn có một số công cụ BLAST đặc
biệt áp dụng cho các genome người, vi sinh vật, ký sinh trùng sốt rét và các genome khác. Các công

cụ hỗ trợ để phát hiện các trình tự có lẫn với trình tự của vector (đặc biệt khi đăng ký vào ngân hàng
gene), các trình tự globulin miễn dịch, và các trình tự concensus (concensus sequence) ở người.
FASTA
Là một công cụ tìm kiếm CSDL được sử dụng để so sánh trình tự nucleotide hoặc amino
acid với một CSDL trình tự. Chương trình này dựa vào thuật toán tìm kiếm trình tự nhanh bởi
Lipman và Pearson. Đây cũng là thuật toán đầu tiên được dùng để tìm kiếm các trình tự giống nhau
trong CSDL.
EMBOSS
EMBOSS được viết tắt từ (European Molecular Biology Open Software Suite), là một tổ hợp các
phần mềm phân tích nguồn mở miễn phí ứng dụng trong lĩnh vực sinh học phân tử. Có khoảng hơn
100 chương trình ứng dụng để so sánh trình tự, tìm trình tự trong CSDL, tìm kiếm các mô hình
(pattern), tìm kiếm domain, motif trong phân tử protein bằng cách so sánh trình tư amino acid, so


sánh trình tự nucleotide để phát hiện các pattern, phân tích tần suất sử dụng bộ mã (codon bias
analysis)…
Một danh sách các ứng dụng có thể tìm ở địa chỉ:
/>Clustalw
ClustalW là chương trình dung để so sánh các trình tự DNA và protein. Mục đích là để tìm
ra các vùng trình tự giống nhau và khác nhau. Trên cơ sở đó hỗ trợ cho nhiều ứng dụng khác như:
phân tích domain, motif, pattern, xây dựng mối quan hệ tiến hóa.
RasMol
Đây là công cụ nghiên cứu rất hiệu quả để hiện thị cấu trúc DNA, protein và các phân tử
nhỏ. Protein Explorer là một dạng biến thể dễ sử dụng của RasMol.
Chương trình ứng dụng chuyên ngành bioinformatics
- JAVA: Do bản chất Java là chương trình độc lập vì vậy nó là một thành phần quan trọng của
bioinformatics (BioJava)
- Perl: Sử dung để xử lý các dữ liệu sinh học ( BioPerl)
- BioXML: Là một phần của dự án BioPerl, là nguồn để tập hợp các tài liệu dạng XML và
DTD

Xây dựng các CSDL tài liệu, tạp chí phục vụ nghiên cứu
Các CSDL như:
- Bài báo, tạp chí (pubmed);
- Hệ thống phân loại, khóa phân loại (taxon);
- Sách (book);
- Bài báo, tạp chí, tài liệu lien quan đến các phản ứng sinh hóa (pubchembioassay);
- Các tài liệu liên quan đến các hợp chất hóa học (Pubchem compounds);
- Các tài liệu về các chất hóa học (pubchem substances);
- Các cơ sở dữ liệu: genomics, proteomics, metabolomics, microarray gene expression và
phylogenetics.
Thông tin chứa đựng bên trong các CSDL sinh học bao gồm: tên gene, trình tự gene, vị trí
của gene trên NST hoặc genome (locus tag), cấu trúc và chức năng của các gene, hậu quả của các
đột biến gene đó, các gene liên quan (họ gene) và cấu trúc của chúng (nếu là protein, RNA...)
Dữ liệu bao gồm: Các trình tự gene, các mô tả về đặc điểm của gene (gene mã hóa cho
mRNA, tRNA, rRNA…), thuật ngữ phân loại (nguồn gốc của gene, sinh vật chứa gene đó), các
trích dẫn (bài báo liên quan đến gene, protein…) và các bảng số liệu (nếu có).
Kiểu định dạng CSDL
Các dạng định dạng của dữ liệu sinh học gồm nhiều loại: chữ, dữ liệu trình tự, cấu trúc
protein và các liên kết (link), ví dụ:
- Dạng chữ: PubMed và OMIM.
- Dạng trình tự: GenBank (DNA) và UniProt (protein).
- Dạng cấu trúc: PDB, SCOP, và CATH.
Những vấn đề liên quan đến CSDL protein
Việc phát triển CSDL cấu trúc protein thường rất khó khăn và chậm (so với trình tự DNA) vì
cấu trúc 3 chiều (three dimension/3D) của protein rất khó xác định. Để xác định cấu trúc 3 chiều
của một phân tử protein người ta phải tách riêng hay tinh sạch protein đó, tiếp đó là tìm các điều
kiện phù hợp để cho protein kết tinh sau đó sử dụng các kỹ thuật xác định cấu trúc, chẳng hạn như
dung tia X (X-ray crystallography), cộng hưởng từ hạt nhân (NMR spectroscopy. Mặc dù vậy, các
dữ liệu có thể được truy cập thông qua các thành viên của wwPDB (PDBe, PDBj và RCSB PDB,
SCOP (structural classification of Protein)) và CATH.



Các CSDL đặc thù loài
Một số CSDL đặc thù loài đã được công bố, chủ yếu dùng cho nghiên cứu. Chẳng hạn:
Colibase (CSDL cho E.coli). Các CSDL khác như Flybase cho Drosophila và WormBase cho các
bọn giun tròn (Caenorhabditis elegans và Caenorhabditis briggsae). Ngoài ra còn có các CSDL
khác cho lúa (Oryza sativa), Arabidopsis…
1.5.

Xu hướng phát triển của bioinformatics

Xu hướng của bioinformatics tập trung vào các hướng sau:
- Phát triển các thuật toán và máy tính(Algorithms and computational challenges)
- Phân tích chức năng protein (Protein function)
- Tương tác protein và các con đường chuyển hóa(Protein interactions and pathways)
- Áp dụng trong lâm sàng và nghiên cứu (Clinical and research applications): tìm thuốc mới,
dự đoán rủi ro, nguy cơ.
Các xu hướng hiện nay của Bioinformatics
- Thuật toán: 27%
- Machine learning: 21%
- Thống kê: 18%
- Sinh học: 10%
- CSDL: 10%
- Các hướng khác: 14%

Các chủ đề nghiên cứu hiện nay:
- Phương pháp: 26%
- Phân tích trình tự (motif, domain), so sánh trình tự : 25%
- Mô phỏng cấu trúc protein: 19%
- Mô hình cấu trúc và điều hòa hoạt động gene: 12%

- Phân tích trình tự liên quan đến tiến hóa: 12%
- Mô phỏng và xây dựng mạng lưới trao đổi chất (metabolome): 6%
Kỹ năng và yếu tố con người để phát triển bioinformatics:
- Cả hai lĩnh vực: sinh học và tin học
- Cần sử dụng chung 1 ngôn ngữ
- Biết được những vấn đề cần quan tâm ở cả 2 lĩnh vực
- Hội tụ được khoa học máy tính và phần mềm: đặt vấn đề và phát triển thuật toán
Bioinformatics: thú vị, hấp dẫn, mới, thách thức, có thể truy cập được, lĩnh vực có thể mở rộng
nghiên cứu, có sự ảnh hưởng nhiều, cơ hội cho người làm máy tính.
Những chủ đề cần khám phá:
- Các kỹ thuật CSDL cho dữ liệu Bioinformatics
- Di truyền phân tử (nền tảng chủ yếu thuộc về lĩnh vực sinh học)
- So sánh trình tự, mô hình mẫu (patterns), profiles
- Phát hiện các pattern
- Gene expression arrays
- Xây dựng cấu trúc protein (nền tảng chủ yếu thuộc về lĩnh vực sinh học)


-

Xây dựng hình học không gian (lập thể) của protein (kỹ thuật máy tính và các công cụ)
Dự đoán cấu trúc protein
Xây dựng mạng lưới hóa sinh học, metabolome (nền tảng chủ yếu thuộc về lĩnh vực sinh
học)
Xây dựng các con đường trao đổi chất, các con đường điều hòa và tín hiệu điều hòa gene:
CSDL, kỹ thuật máy tính và các công cụ

Tóm tắt chương 1
Tin sinh học là một lĩnh vực khoa học mới có sự kết hợp chặt chẽ của sinh học mà chủ yếu
là di truyền học, sinh học phân tử với các công cụ thống kê, toán học và khoa học máy tính. Chương

1 giới thiệu khái niệm, vai trò của tin sinh học cũng như các công cụ phục vụ cho những vấn đề
nghiên cứu của sinh học phân tử hiện đại chẳng hạn như tìm kiếm các trình tự sinh học tương đồng
hoặc giống nhau trong các ngân hàng cơ sở dữ liệu, mô phỏng và dự đoán sự tương tác giữa các
phân tử, phát hiện các mô hình biểu hiện gene và các mối liên hệ giữa các gene…Các nội dung
chính của tin sinh học cũng như xu hướng phát triển của lĩnh vực này cũng được đề cập qua đó giúp
sinh viên có một cái nhìn bao quát về một lĩnh vực khoa học mang tính ứng dụng, hỗ trợ đắc lực
cho các nhà nghiên cứu trong các lĩnh vực di truyền phân tử, sinh học phân tử, y học…
Câu hỏi ôn tập chương 1

1.
2.
3.
4.
5.

Trình bày khái niệm tin sinh học.
Hãy nêu tóm tắt vai trò của tin sinh học trong nghiên cứu sinh học.
Trình tự sinh học là gì? Hãy nêu một vài ví dụ về việc phân tích trình tự sinh học.
Thế nào so sánh trình tự? Mục đích của việc so sánh trình tự để làm gì?
Tại sao phải nghiên cứu cấu trúc các đại phân tử ? tin sinh học hỗ trợ như thế nào trong việc
dự đoán cấu trúc phân tử.
6. Những hiểu biết về vai trò của các gene, mối liên hệ giữa các gene có vai trò như thế nào
trong y học hiện đại?
7. Thế nào là mối quan hệ tiến hóa giữa các sinh vật? Tin sinh học sẽ hỗ trợ gì trong nghiên
cứu tiến hóa.
8. Hãy nêu nhiệm vụ và các hướng nghiên cứu của tin sinh học hiện nay.
9. Hãy nêu những chủ đề đang được các nhà tin sinh học tập trung nghiên cứu.
10. Để trở thành những nhà nghiên cứu trong lĩnh vực tin sinh học chúng ta cần phải có những
tiêu chuẩn gì?



CHƯƠNG 2

NỀN TẢNG SINH HỌC CỦA TIN SINH HỌC
2.1. Axit nucleic và protein
Axit nucleic và protein là hai đại phân tử sinh học đóng vai trò quan trọng trong thế giới
sống. Axit deoxyribonuleotide nucleic (DNA) mang thông tin di truyền và axit ribonucleic (RNA)
liên quan đến quá trình sinh tổng hợp protein và tham gia vào điều hòa hoạt động sống của tế bào.
Đơn vị cấu tạo nên axit nucleic là các nucleotide và protein là các amino acid.
2.2. Cấu trúc của axit nucleic
DNA và RNA (ribonucleic acid) được cấu tạo bởi các đơn phân là nucleotide và
ribonucleotide. Trong phân tử DNA, mỗi nucleotide được cấu tạo bởi gốc axit phosphoric, một phân
tử đường pentose và một base. Các nucleotide nối với nhau bởi liên kết phosphodiester giữa nhóm
5’PO4 của phân tử đường pentose của một nucleotide và nhóm 3’OH của phân tử đường pentose
một nucleotide tiếp theo. Vì vậy phân tử axit nucleic bao giờ cũng tồn tại đầu 5’PO4 và 3’OH. Theo
quy ước đối với một axit nucleic bao giờ cũng viết theo hướng 5‘ đến 3‘ theo chiều từ trái sang
phải.

Hình 4. Cấu trúc DNA
(Applied Bioinformatics)


Axit nucleic được cấu tạo bởi 5 loại base khác nhau: cytosine (C), uracil (U), thymine (T),
adenine (A) và guanine (G). Tuy nhiên, U chỉ có mặt trong phân tử RNA và C chỉ có mặt trong
DNA. Phân tử DNA và RNA không chỉ khác nhau về thành phần base mà còn khác nhau về phân tử
đường. RNA có đường ribose trong khi đó DNA chứa đường 2-deoxyribose. Phân tử DNA gồm 2
chuỗi polynucleotide xoắn với nhau theo hướng đối song. Phân tử DNA có thể tồn tại dưới dạng
sợi đơn (ssDNA) và dạng sợi kép (dsDNA). Trong phân tử DNA, hai sợi được gắn với nhau qua
liên kết hydro giữa các base. Hai liên kết hydro giữa A và T và 3 liên kết hydro giữa C và G. Hai sợi
DNA bổ sung với nhau do đó nếu biết trình tự của một sợi sẽ suy ra trình tự của sợi còn lại.

Lưu trữ thông tin di truyền

Trình tự các base mang thông tin mã hóa cho các protein. Phân tử protein được cấu tạo bởi
20 amino acid và mỗi amino acid được mã hóa bởi 1 bộ ba gồm 3 nucleotide tương ứng trên phân
tử DNA. Mỗi bộ ba như vậy được gọi là một bộ mã (codon). Mỗi sinh vật có xu hướng sử dụng các
bộ mã khác nhau. Chẳng hạn ở prokaryote một số loài dùng bộ mã khác với các sinh vật eukaryote.
Mã di truyền của genome ti thể cũng có một số khác biệt so với mã di truyền của genome trong
nhân.

Hình 4. Mã di truyền
Mối quan hệ giữa DNA, RNA và protein được mô tả trong luận thuyết trung tâm (Crick
1970)


Hình 5. Luận thuyết trung tâm
Dòng thông tin được chuyển một chiều từ genome đến proteome. Ngoại trừ số quá trình
phiên mã ngược từ RNA sang DNA ở một số RNA virus. Toàn bộ thông tin di truyền chứa trong
nhân hoặc kiểu nhân của một sinh vật được gọi là genome. Ngoại trừ các retrovirus, thông tin di
truyền được chứa đựng trong các trình tự base của phân tử DNA. Thông tin này được chuyển từ
DNA sang mRNA nhờ quá trình phiên mã. Toàn bộ các bản phiên mã mRNA của một sinh vật
được gọi là transcriptome. Quá trình tổng hợp protein từ mRNA được gọi là dịch mã (translation).
Toàn bộ protein có thể được dịch mã từ transcriptome được gọi là proteome. Như vậy trình tự
amino acid trong phân tử protein được quyết định bởi trình tự DNA và dòng thông tin được chuyển
từ DNA đến protein thông qua mRNA.
Genome của eukaryote và prokaryote có nhiều điểm khác biệt. Ở prokaryote thông tin di
truyền được mã hóa trên một đoạn DNA liên tục, trong khi đó ở eukaryote, các trình tự mã hóa
(exon) được ngăn cách bởi các trình tự không mã hóa (intron). Ngoài ra, ở eukaryote, sự phiên mã
từ DNA thành mRNA trưởng thành cũng phức tạp hơn nhiều chẳng hạn các intron được loại bỏ
trong quá trình phân cắt mRNA (mRNA splicing). Cũng chính vì quá trình này từ một gene ban đầu
có thể hình thành nên nhiều mRNA và hệ quả sẽ tạo ra nhiều protein tương ứng. Điều này giải thích

tại sao genome ở sinh vật bậc cao chứa một số lượng gene nhất định, chẳng hạn ở người có khoảng
25.000 gene, tuy nhiên số lượng protein thực tế được tạo ra lớn hơn nhiều, khoảng 1 triệu protein
(Claverie 2001, Venter et al. 2001).


Hình 6. Cấu trúc vùng gene của prokaryote và eukaryote
Cấu trúc phân tử protein
Cấu trúc sơ cấp
Các phân tử protein là các đại phân tử sinh học được cấu thành từ khoảng 20 loại amino acid.
Trong điều kiện nhất định phân tử protein sẽ cuộn gấp lại hình thành cấu trúc 3 chiều mang đầy đủ
các đặc điểm và chức năng sinh học. Các gốc amino acid trong chuỗi polypeptide sẽ quyết định
những đặc điểm hóa học như tính kị nước, phân cực, acid, base của phân tử protein. Cấu trúc sơ cấp
của phân tử protein hay còn gọi là cấu trúc bậc 1 là trật tự sắp xếp của amino acid trong chuỗi
polypeptide. Cấu trúc bậc 1 sẽ quyết định các cấu trúc không gian của phân tử protein.
Trong phân tử protein, amino acid nối với nhau tạo thành chuỗi polypeptide. Các amino acid
được nối với nhau thông qua liên kết amide của nhóm α carboxyl với nhóm α amino của amino acid
tiếp theo. Chính vì vậy chuỗi polypeptide có 2 đầu N và C tận cùng. Theo quy ước về chiều, đầu N
ở bên tay trái và đầu C ở bên phải.


Hình 7. Các amino acid trong phân tử protein
Cấu trúc bậc 2
Thuật ngữ cấu trúc bậc 2 để chỉ những vùng không gian cục bộ trên chuỗi polypeptide. Cấu
trúc bậc hai liên quan đến sự có mặt của các xoắn alpha (α-helix) và phiến gấp nếp beta (β-strand)
và các cấu trúc vòng xoắn (loop). Cơ sở của việc hình thành các cấu trúc này là do các đặc điểm
hình học của các gốc của các amino acid trong chuỗi polypeptide. Vào những năm 1930 và 1940,
Linus Pauling và Robert Corey đã mô tả các liên kết peptide là dạng cấu trúc phẳng, cứng (không
xoay). Như vậy, một chuỗi polypeptide có thể được xem như là một chuỗi các trình tự nối với nhau
và nằm trên một mặt phẳng.
Thành phần tiếp theo trong cấu trúc bậc 2 là xoắn alpha, phiến beta và các vòng xoắn. Cấu

trúc xoắn alpha và phiến beta được giữ ổn định nhờ liên kết hydro. Phiến beta có thể có 2 dạng song
song và đối song (hình...)


Hình 8. Cấu trúc bậc 2 của một phân tử protein
Xoắn alpha và phiến beta. Cầu disulfide làm ổn định cấu trúc bậc 3 và các vùng liên quan đến
hoạt tính xúc tác (màu vàng).
Cấu trúc bậc 3 và bậc 4
Cấu trúc bậc 3 được hình thành từ việc sắp xếp và gấp nếp tiếp theo từ các thành phần cấu trúc bậc
2. Những polypeptide có chiều dài lớn hơn 200 amino acid thường tự gấp nếp với nhau thành một
số đơn vị được gọi là domain. Cấu trúc bậc 4 là dạng cấu trúc tiếp theo từ cấu trúc bậc 3 và các
protein có cấu trúc bậc 4 thường được hình thành từ nhiều chuỗi polypeptide (subunit).
Trong cấu trúc bậc 4 sự tương tác giữa các amino acid bao gồm liên kết hydro giữa các chuỗi
peptide, cầu disulfide giữa các gốc cystein, các liên kết ion giữa các nhóm tích điện của các gốc
(chuỗi bên) và tương tác kị nước.

2.3. Genome và nghiên cứu genome (genomics)

2.3.1. Genome
Theo sinh học phân tử và di truyền phân tử hiện đại (Ridley, M. 2006), genome là toàn bộ
thông tin di truyền của một sinh vật. Các thông tin di truyền được mã hóa trong DNA hoặc RNA
(đối nhiều loại virus). Lấy genome người làm một ví dụ, về mặt giải phẫu, nếu coi genome là một
cuốn sách thì cuốn sách này được chia thành 23 chương (tương ứng với 23 cặp NST). Mỗi chương
chứa 48 đến 250 triệu chữ tiên tục (A,C,G,T). Toàn bộ cuốn sách có hơn 3,2 tỉ chữ và được đặt
trong nhân của tế bào.
Dự án xác định trình tự genome đầu tiên hoàn tất năm 1977 bởi Fred Sanger. Ông và cộng
sự đã xác định trình tự phage Φ-X174, chứa 5386 base. Genome của vi khuẩn đầu tiên được xác
định trình tự là Haemophilus influenzae vào năm 1995. Vài tháng sau genome của eukaryote đầu
tiên được xác định trình tự là của nấm men Saccharomyces cerevisiae (gồm 16 NST) sau gần 10
năm thực hiện. Sự phát triển của công nghệ đã làm tăng nhanh chóng số lượng genome của các loài

được xác định trình tự.
2.3.2. Nghiên cứu genome (genomic research)
Các nghiên cứu liên quan đến genome không đơn thuần chỉ là việc tổng kết các genome đã
được xác định trình tự hay các chỉ ra các gene có trong một genome cũng như các tính trạng liên
quan. Nghiên cứu genome bao gồm cả việc so sánh kích thước genome, số lượng NST (karyotype),
trật tự các gene, tần suất sử dụng codon, thành phần GC, và các cơ chế dẫn đến sự đa dạng về


genome ngày nay. Gần đây nghiên cứu genome cũng bao gồm cả việc so sánh nhiều genome để
phát hiện ra các vùng bảo thủ trong genome. Các kết quả này thường được biểu diễn dưới dạng đồ
họa thông qua các trình duyệt genome hay genome browser.
Genome học (genomics) là một môn học gắn liền với di truyền học. Genomics liên quan đến
việc nghiên cứu genome của các sinh vật bao gồm xác định trình tự DNA của toàn bộ genome và
lập bản đồ di truyền có mức phân giải cao (khoảng cách giữa các marker rất gần nhau). Ngoài ra,
việc nghiên cứu các hiện tượng xảy ra bên trong genome chẳng hạn như: hiện tượng ưu thế lai
(heterosis), sự tác động lấn át của các gene (epistasis), sự ảnh hưởng của một gene lên nhiều gene
(pleiotropy) và sự tương tác giữa các locus và các allele bên trong genome. Khác với việc nghiên
cứu vai trò và chức năng của những gene đơn lẻ trong sinh học phân tử và di truyền phân tử cũng
như y, sinh học hiện đại, genomics nghiên cứu mối quan hệ tổng thể của các thành phần trong
genome. Trừ khi những nghiên cứu từng gene đơn lẻ có vai trò quan trọng trong việc làm sáng tỏ
các đặc tính di truyền, các con đường và phân tích thông tin gắn liền với chức năng được coi là một
phần trong nghiên cứu genome.
Việc lặp genome (genome duplication) đóng vai trò chủ yếu trong việc hình thành các
genome khác nhau. Việc lặp geneome có thể dao động từ phạm vi hẹp (những đoạn lặp lại ngắn,
short tandem repeat) hoặc lặp lại cả gene hoặc cả cụm gene, lặp cả NST và thậm chí toàn bộ
genome. Những sự kiện này có thể là nền tảng để tạo ra đặc tính di truyền mới, làm cơ sở của tiến
hóa. Trao đổi gene theo chiều ngang (horizontal gene transfer) có vai trò quan trọng trong việc giải
thích sự giống nhau lạ kì giữa các phần nhỏ trong các genome của hai sinh vật không có mối liên
quan.Việc trao đổi gene này cũng tương đối phổ biến giữa các vi sinh vật trong đó hiện tượng
kháng kháng sinh ở các vi sinh vật là một ví dụ điển hình. Vật chất di truyền được chuyển từ

genome ti thể và lục lạp vào NST ở các tế bào eukaryote cũng là một ví dụ cho hiện tượng này.
Genome người (human genome)
Năm 2001, bản nháp đầu tiên của genome người được công bố. Vào năm 2007, dự án xác
định trình tự genome người hoàn tất với tỉ lệ lỗi rất nhỏ (khoảng 1/20.000 base). Có thể truy cập các
phiên bản lắp ráp trình tự genome người bằng cách dùng UCSC Genome Browser, Ensembl.
Nghiên cứu genome bacterophage (bacteriophage genomics)
Bacteriophages đóng vai trò quan trọng trong nghiên cứu di truyền vi khuẩn và sinh học
phân tử. Về mặt lịch sử, chúng được sử dụng để xác định cấu trúc gene và nghiên cứu cơ chế cũng
như mô hình điều hòa hoạt động gene. Do genome có kích thước nhỏ và không chứa ỉntron nên
bacteriophase được lựa chọn để xác định trình tự đầu tiên. Tuy nhiên, nghiên cứu về bacteriophage
không mở ra sự cách mạng về genome (cuộc cách mạng về genome bắt đầu từ việc xác định trình tự
các vi khuẩn). Trình tự genome của các bacteriophage thường được xác định thông bằng việc đọc
trình tự trực tiếp. Phân tích genome vi khuẩn cho thấy một phần đáng kể DNA vi khuẩn chứa các
trình tự tiền phage (prophage) và dạng giống như prophage (prophage-like). Như vậy, việc khai thác
thông tin trong CSDL của bacteriophage góp phần giải thích được vai trò của prophage trong việc
hình thành dạng genome của vi khuẩn.
Nghiên cứu genome vi khuẩn lam (Cyanobacteria genomics)
Hiện tại có 24 vi khuẩn lam được xác dịnh trình tự. 15 trong số chúng được phân lập từ
biển. Có 6 chủng thuộc chi Prochlorococcus, 7 chủng thuộc chi nước mặn Synechococcus,
Trichodesmium erythraeum IMS101 và Crocosphaera watsonii WH8501. Một số nghiên cứu đã cho
thấy các trình tự này có thể được sử dụng rất hữu ích trong việc suy diễn các đặc tính sinh lý và sinh
thái của vi khuẩn lam ở biển. Tuy nhiên, có rất nhiều dự án xác định trình tự genome đang được
thực hiện trong số đó có các dạng phân lập thuộc chi Prochlorococcus và Synechococcus (ở biển),
Acaryochloris và Prochloron, một dạng khuẩn lam dạng sợi có khả năng cố định nitrogen
Nodularia spumigena, Lyngbya aestuarii và Lyngbya majuscul cũng như tác động của
bacteriophage lên vi khuẩn lam ở biển. Như vậy, việc nghiên cứu genome đóng vai trò quan trọng


trong việc giải thích nguồn gốc tiến hóa của các sinh vật và các quá trình sinh học chẳng hạn như
quang hợp.

Sinh vật
Vi khuẩn cổ
Archaeoglobus Fuligidus
Vi khuẩn
Escherichia coli
Bacillus subtilis
Haemophilus influenzae
Mycoplasma Genitalium
Sinh vật nhân thực
Yeast (Saccharomyces cerevisiae)
Roundworm (Caenorhabditis elegans)
Arabidopsis thaliana
Drosophila melanogaster
Rice (Oryza sativa)
Maize (Zea mays)
Humans (Homo sapiens)
Barley (Hordeum vulgare)

Số lượng gene Genome (Mb)

Số NST

2,493

2.2

1

4,408
4,212

1,791
503

4.64
4.21
1.83
0.58

1
1
1
1

6,548
20,000
26,000
16,000
20,000
20,000
20,000
20,000

12.8
97
13.0
180
415
2,500
3,300
5,300


16
6
5
4
12
10
23
7

Mối quan hệ giữa C-value và số lượng gene:
Giá trị C (C-value) là hàm lượng DNA của một sinh vật. Giá trị này có sự biến động rất lớn
ở các loài. Không có mối liên hệ rõ ràng nào giữa C-value và số lượng gene của sinh vật. Ở các
genome phức tạp, tỉ lệ các trình tự DNA không mã hóa (non-coding DNA) không mang thông tin di
truyền để mã hóa RNA càng lớn. Ở người, DNA không mã hóa chiếm tới gần 75% genome. Nghịch
lý giá trị C (C-value paradox) để chỉ mối quan hệ không tỉ lệ giữa kích thước genome và số lượng
gene.


2.3. Phát hiện gene và xác định chức năng gene trong genome

Hình 10. Tổ chức genome người
Sau khi các dự án xác định trình tự genome kết thúc, kết quả thu được là các chuỗi trình tự
được sắp xếp trong các nhiễm sắc thể. Vấn đề tiếp theo là phải “giải mã“ thông tin chứa đựng trong
các chuỗi trình tự đó. Việc giải mã thông tin thực chất là để trả lời những câu hỏi như: (i) genome
của sinh vật có bao nhiêu gene, (ii) các gene đó phân bố ở đâu trên các nhiễm sắc thể, (iii) chức
năng của các gene đó là gì, (iv) cơ chế điều hòa động của các gene đó như thế nào ...
Để trả lời những câu hỏi này đòi hỏi rất nhiều thời gian, công sức và trong một số trường
hợp chưa thể tìm ra đáp án cho những câu hỏi đó. Có nhiều hướng tiếp cận để „giải mã“ genome,
trong đó các công cụ tin sinh học có vai trò rất lớn. Chẳng hạn để xác định số lượng gene người ta

phải dựa vào các đặc điểm của gene bao gồm: trình tự mã hóa (coding sequence) hay các khung đọc
mở (open reading frame), trình tự promoter, các trình tự nối giữa exon và intron cũng như các trình
tự điều khiển hoạt động của gene (các vùng 5‘ UTR, 3’UTR)... So sánh genome, so sánh trình tự
DNA là những thao tác quan trọng đầu tiên để phát hiện cũng như dự đoán chức năng của gene.
Việc lập bản đồ vật lý dựa trên cơ sở trật tự các gene và thông tin đã biết của các gene.
Thông tin này sẽ được hiển thị dưới dạng đồ họa ở các genome browser. Xác định chức năng của
gene được coi là một trong những thách thức với các nhà nghiên cứu genome. Mặc dù thông tin về
trình tự, cấu trúc và chức năng sinh học của các gene, các trình tự sinh học được công bố ngày càng
nhiều nhưng việc dự đoán chức năng của các gene thường rất phức tạp. Có nhiều hướng tiếp cận
cho bài toán này trong đó có thể tiếp cận từ genome hoặc từ sản phẩm gene (protein) hoặc kiểu
hình. Giả sử người ta muốn biết tính trạng chiều cao cây, khả năng kháng sâu bệnh, màu sắc hoa
hay hàm lượng protein trong sữa do gene nào mã hóa. Nếu tính trạng cần nghiên cứu là đơn gene thì
sẽ tương đối đơn giản. Tuy nhiên nếu tính trạng đó do nhiều gene quy định (tính trạng số lượng) thì
công việc này sẽ trở lên cô cùng phức tạp. Vấn đề là làm thế nào để chỉ rõ được gene (các gene)
nào, phân bố ở đâu trong genome (trên NST) trực tiếp mã hóa hoặc tham gia vào quá trình hình
thành nên tính trạng đó. Ngoài ra, mô hình hoạt động hoặc cơ chế, điều kiện biểu hiện của các gene
đó như thế nào?


Trên thực tế cho dù sử phương pháp nào hay hướng tiếp cận nào thì cuối cùng vẫn phải xác
nhận lại có đúng gene đó tham gia vào việc hình thành tính trạng đó không. Việc kiểm chứng này
thực sự là một câu hỏi vô cùng nan giải đặc biệt ở những tính trạng di truyền số lượng ở các đối
tượng sinh vật bậc cao bởi vì các kỹ thuật knock out, knock down, ức chế sự biểu hiện gene bằng
RNAi không phải lúc nào cũng có thể áp dụng. Một hướng tiếp cận khác để xác định chức năng của
gene như kỹ thuật microarray nhằm phát hiện sự xuất hiện hoặc thay đổi mức độ biểu hiện của các
mRNA trong những điều kiện nhất định cũng góp phần vào việc nhận diện và nghiên cứu chức năng
gene. Những nghiên cứu so sánh genome, so sánh trình tự, so sánh cấu trúc (data mining and
analysis) cũng là một xu hướng và là thao tác đầu tiên khi các cơ sở dữ liệu chứa thông tin về các
trình tự sinh học ngày càng nhiều. Tuy nhiên mức độ chính xác và tin cậy của các thông tin đưa ra
phụ thuộc rất nhiều vào các thuật toán và mức độ phong phú của thông tin trong các cơ sở dữ liệu.

Số lượng gene của các sinh vật
Ở người, lúc ban đầu người dự đoán genome chứa khoảng từ 50.000 đến 100.000 gene. Gần
đây số lượng gene được phát hiện vào khoảng 20.000. Chuột và ruồi cũng có số lượng gene tương
tự. Giun tròn có khoảng 13 000 và lúa có hơn 46.000. Những trình tự mã hóa protein chiếm khoảng
1–2% genome người. Một lượng lớn còn lại cũng được phiên mã bao gồm các introns,
retrotransposons và các RNA không mã hóa (noncoding RNA). Tổng số protein ước tính trên toàn
sinh giới (Earth's proteome) khoảng 5 triệu trình tự.
Cấu trúc gene

Hình 11. Sơ đồ cấu trúc một gene ở prokaryote
Ở prokaryote, về mặt quy ước đầu 5’ của gene được đặt ở bên trái, đầu 3’ ở bên phải. Cấu trúc một
gene điển hình được minh họa dưới đây.

Hình 12. Sơ đồ cấu trúc vùng trình tự promoter của prokaryote


Hình 13. Cấu trúc gene của eukaryote (trên) và vùng promoter (dưới)
2.4. Hoạt động chức năng của gene và điều hòa hoạt động của gene

Hoạt động chức năng của gene là một quá trình phức tạp, có sự tham gia của rất nhiều thành
phần của tế bào. Ở prokaryote, hoạt động chức năng và điều hòa hoạt động của gene tương đối đơn
giản. Tuy nhiên ở eukaryote điều hòa hoạt động của gene vô cùng phức tạp liên quan đến nhiều quá
trình từ cấu trúc nhiễm sắc thể liên quan đến các cơ chế epigenetics (methyl hóa, acetyl hóa,
phosphoril hóa), khởi đầu phiên mã, phiên mã, cải biến sau phiên mã, dịch mã, cải biến sau dịch mã
và vận chuyển hướng đích. Nghiên cứu hoạt động của một gene đã phức tạp thì điều hòa hoạt động
của một con đường chuyển hóa (metabolomic pathway) còn phức tạp hơn nhiều, có sự tham gia của
rất nhiều gene và tương tác của nhiều protein, enzyme khác trong tế bào. Chính vì vậy nghiên cứu
hoạt động chức năng của gene cần có sự so sánh và đối chiếu với nhiều cơ sở dữ liệu và nhiều
genome khác nhau.



Hình 14. Các quá trình điều hòa hoạt động gene ở eukaryote

2.5. Proteome và lĩnh vực nghiên cứu protein (proteomics)

Proteome được coi là toàn bộ các protein được biểu hiện bởi một genome, tế bào, mô hoặc
các sinh vật ở một thời điểm hoặc điều kiện nhất định. Xét về mức độ đang dạng, proteome lớn hơn
nhiều so với genome, đặc biệt ở sinh vật nhân chuẩn. Nói cách khác số lượng protein lớn hơn nhiều
so với số lượng các gene có trong genome. Nguyên nhân là do các hiện tượng phân cắt, sửa chữa
tiền mRNA (pre-mRNA) của các gene và quá trình cải biến sau dịch mã chẳng hạn như phosphoryl
hóa, glycosyl hóa. Nếu so với dữ liệu về genome chủ yếu là trình tự DNA, RNA thì dữ liệu về
proteome phức tạp hơn bởi vì ngoài trình tự amino acid còn có các dữ liệu cấu trúc, chức năng và
sự tương tác giữa các protein.
Lĩnh vực nghiên cứu proteome (proteomics) liên quan đến nhiều kỹ thuật phức tạp như tách
chiết, tinh sạch protein, phân tích protein bằng điện di 2 chiều, các kỹ thuật phân tích khối phổ, so
sánh sự đồng dạng giữa các mảnh peptide, so sánh trình tự amino acid... Proteomics bao gồm nội
dung quan trọng là nghiên cứu cấu trúc và nghiên cứu chức năng. Những thông tin về trình tự
amino acid, cấu trúc và chức năng giúp các nhà nghiên cứu giải thích được bản chất của các quá
trình sinh học, cơ chế của các quá trình rối loạn, bệnh tật và nhận dạng và dự đoán chức năng của
những protein mới.
2.6. Tiến hóa và bản chất phân tử của quá trình tiến hóa ở các sinh vật

2.6.1. Đột biến và tích lũy đột biến
Đột biến được coi như là vật liệu ban đầu của tiến hóa, mặc dù cơ chế và nguyên nhân của
tiến hóa đến nay vẫn còn nhiều tranh cãi. Xét trên quan điểm đột biến, đây là con đường dẫn đến
việc hình thành allele mới hoặc các vùng có chức năng điều hòa bị thay đổi hoặc tạo mới. Các đột
biến thường gây ra những hậu quả nghiêm trọng nhưng cũng có đột biết thuộc dạng trung tính hoặc
không ảnh hưởng đến kiểu hình (đột biến trong các vùng DNA không mã hóa/ non-coding DNA)



Hầu hết các đột biến trong cấu trúc gene đều tác động đến sản phẩm protein (hoặc dẫn đến
sự đa dạng về sản phẩm protein do quá trình phân cắt, ghép nối exon của mRNA. Những thay đổi
về mặt tiến hóa liên quan đến hàng loạt thay đổi cấu trúc và chức năng. Ở đây, câu hỏi đặt ra là tại
sao những thay đổi nhỏ trong các gene do đột biến, đặc biệt là đột biến điểm, lại dẫn đến sự phân
biệt loài này với loài khác. Để trả lời câu hỏi này cần phải xem xét ở cả hai khía cạnh không gian và
thời gian. Không gian ở đây là những áp lực chọn lọc đặt lên những cá thể bị đột biến. Thời gian là
hệ quả của một quá trình chọn lọc tự nhiên lâu dài. Không gian và thời gian có mối quan hệ chặt
chẽ với nhau nếu áp lực chọn lọc quá mạnh thì trong một thời gian ngắn đã có thể hình thành những
loài mới hoặc dẫn đến tuyệt chủng.
2.6.2. Sự lặp gene và genome (gene/genome duplication)
Các đột biến có thể gây nguy hiểm trong một cặp base của các gene có thể không ảnh hưởng
gì nếu như các gene này trước đó đã được lặp (tạo ra 1 hoặc một số bản copy). Sự lặp gene trong
một cơ thể lưỡng bội tạo ra thêm một cặp gene cùng tồn tại vì thế một cặp vẫn hoạt động chức năng
bình thường, cặp còn lại bị đột biến hoặc hình thành các dạng tổ hợp khác nhau.
Vậy lợi ích của quá trình này là gì? Theo thời gian, một bản copy có thể hình thành nên một
chức năng mới, làm nền tảng cho việc thích nghi trong quá trình tiến hóa. Ngay cả khi 2 bản copy
của gene đó tồn tại theo kiểu paralogous, tức là có trình tự và chức năng tương tự nhau, sự tồn tại
của các bản copy tạo ra sự dư thừa. Điều này giải thích tại sao trong một số trường hợp chuột hoặc
nấm men bị knock out thường có ảnh hưởng không quá nặng nề (mild effect) lên kiểu hình. Chức
năng của các gene bị knock out có thể bị trung hòa bởi một dạng paralog tương ứng của nó.
Sau khi gene được lặp, sự mất ngẫu nhiên của những gene này ở một khoảng thời gian sau
đó trong một nhóm con cháu khác nhau từ sự mất trong một nhóm khác có thể tạo ra một rào cản
(post-zygotic isolating mechanism)trong quá trình giao phối, sinh sản giữa chúng. Những rào cản
này có thể dần dần gây ra sự phân loài: sự tiến hóa thành 2 loài khác nhau từ một một tổ tiên ban
đầu.
Bằng chứng:
- Các gene paralogous. Các gene trong một loài có thể tăng lên bởi sự lặp gene của một gene tổ
tiên. Chẳng hạn gene mã hóa cho các thụ thể khứu giác.
- Lặp toàn bộ genome, ví dụ: hiện tượng đa bội ở thực vật hạt kín, bằng chứng về sự tiến hóa của
động vật có xương sống liên quan đến ít nhất 2 bản copy của toàn bộ genome. Ví dụ ở cả 2 loài

động vật không xương sống Drosophila, và ngành dây sống Amphioxus chứa 1 cụm gene đơn
HOX trong khi chuột và người có 4 cụm.
2.6.3. Các đột biến trong vùng điều hòa
Mặc dù về mặt số lượng gene có thể nói là như nhau ở tất cả các tế bào, tuy nhiên không
phải tất cả các gene đều được biểu hiện như nhau ở tất cả các tế bào. Chỉ có một (một số) gene được
biểu hiện, sự khác biệt này phụ thuộc vào sự tương tác của các tín hiệu ngoại bào, các yếu tố phiên
mã, và một số gene nhất định.
Có nhiều bằng chứng cho rằng các đột biến trong vùng điều khiển đóng vai trò quan trọng
trong tiến hóa. Chẳng hạn: Người có một gene (LCT) mã hóa cho lactase, enzyme này đóng vai trò
phân giải lactose. Hầu hết mọi người trên thế giới gene này đều hoạt hóa ở trẻ nhỏ nhưng sẽ không
hoạt động ở người lớn. Tuy nhiên, những người bắc âu và 3 bộ tộc châu Phi gene này vẫn hoạt động
vì trong khẩu phần ăn của họ vẫn dùng sữa. Nguyên nhân là do có một đột biến trong vùng điều
khiển gene lactose cho phép nó vẫn được biểu hiện. Những dạng đột biến trong 4 trường hợp ở trên
là những ví dụ của đột biến hội tụ (convergent mutation).
Gene Prx1 mã hóa cho một yếu tố phiên mã quyết định cho sự hình thành chân trước ở động
vật có vú. Khi chuột có vùng enhancer của gene Prx1 bị thay thế bởi vùng enhancer tương ứng của
dơi (chân trước sẽ là đôi cánh), khi đó các chân trước dài hơn 6% so với bình thường. Như vậy, một
sự thay đổi về hình thái không được điều khiển bởi sự thay đổi protein Prx1 nhưng lại do sự thay
đổi về mức độ biểu hiện của gene này.


×