BÀI GIẢNG ĐIỆN TỬ
ỨNG DỤNG TIN HỌC
TRONG SINH HỌC
(Informatics applycation in biology)
Người soạn: Lê Phương Chung
Bộ môn CNSH – Viện CNSH & MT
1
Mở đầu
Giới thiệu về tin học và ứng dụng tin
học trong sinh học
“The two technologies that will
shape the next century are
biotechnology and information
technology”
Bill Gates
2
Sự ra đời của tin sinh học
Buổi bình minh của trình tự: Trình tự Protein, trình tự axit
nucleic
Sự xuất hiện của các thông tin về cấu trúc, chức năng và
trình tự của protein, DNA dẫn tới nhu cầu quản lý, so sánh
và dự đoán cấu trúc và chức năng của sinh vật
Sự phát triển của các ngành khoa học khác đặc biệt là
công nghệ thông tin, máy tính.
3
Bio (Sinh học) + informatics (Khoa học tính toán) = Bioinformatics
(Giải quyết các bài toán sinh học bằng việc sử dụng các phương pháp
của khoa học tính toán)
Tin sinh học (Bioinformatic) có thể hiểu là một
ngành khoa học phân tích và dự đoán đặc tính của đối
tượng sinh học, trên cơ sở tích hợp năng lực hoạt động hữu
cơ của 3 lĩnh vực khoa học công nghệ:
- khoa học sinh học
- năng lực quản trị và xử lý số liệu của máy tính
- tổ chức quản lý khai thác dữ liệu thông tin trên quy mô
toàn cầu
Các từ đồng nghĩa: Computational biology,
Computational molecular biology, Biocomputing
4
5
6
7
8
Vai trò của Tin sinh học
Tập hợp, lưu trữ, sắp xếp, truy xuất và chia sẻ cơ sở
dữ liệu.
Hỗ trợ cho việc tìm kiếm, phân tích, xử lý và dự
đoán các kết quả nghiên cứu.
Hỗ
trợ trong các nghiên cứu về cấu trúc không gian
phân tử.
Hỗ trợ trong nghiên cứu đa dạng và tiến hoá của sinh
vật
9
Xu hướng phát triển của Tin sinh học
Quản
lý cơ sở dữ liệu
Phân
tích, biên dịch dữ liệu
Phát
triển các thuật toán
Các
cấu trúc cơ sở dữ liệu
Thiết
kế các giao diện và hiển thị
10
Tài liệu tham khảo
1) Nguyễn Văn Cách (2006) Tin sinh học, Nxb. Khoa học và Kỹ thuật, Hà
nội.
2) Arthur M. L. (2002) Introduction to Bioinformatics, Published in the United
States by Oxford University Press Inc., New York
3) Baxevanis,A. D. and Francis Ouellette, B.F. (2001) Bioinformatics a
Practical guide to the Analysis of Genes and Protein, John Wiley & Sons,
INC.
4) Bryan B. (2001) Bioinformatics Computing, Pretice Hall Pub
5) David W.M (2003) Bioinformatics: Sequence and Genome Analysis, Cold
Spring Harbor Press, New York.
6) Shui Q.Y. (2008)Bioinformatics: A Practical Approach, CRC Press, Taylor
& Francis Group.
11
Tài liệu tham khảo
Thư viện Trường đại học Nha Trang
1, Intelligent Bioinformatics: The Application of Artificial
Intelligence Techniques to Bioinformatics Problems
2, Machine Learning in Bioinformatics (Wiley Series in
Bioinformatics)
3, Bioinformatics: Tools and Applications
4, Bioinformatics Research and Application - ISBRA 2011
5, Essential Bioinformatics
6, Intelligent Bioinformatics: The Application of Artificial
Intelligence Techniques to Bioinformatics Problems
12
Giới thiệu về Internet
• Internet là mạng máy tính toàn cầu để liên kết các tổ
chức, trung tâm, viện nghiên cứu, trường học....
• Để máy tính hoạt động hiệu quả thì chúng phải cùng
chia sẻ một phương tiện truyền thông được gọi chung là
TCP/IP.
13
TCP/IP
(Transmission
Control
Protocol/
Internet Protocol) gọi là
giao thức truyền dữ liệu/
giao thức Internet.
Giao thức này cho phép các
máy tính trên mạng trao
đổi dữ liệu với nhau một
cách thống nhất, tương
tự như một ngôn ngữ
quốc tế được mọi người
cùng sử dụng để có thể
hiểu nhau.
14
Mỗi máy tính trên
internet được đặt
một tên duy nhất đó
là địa chỉ IP
15
Kết cấu mạng Internet
Các kiểu mạng:
• Mạng cục bộ LAN (Local Area Network)
• Mạng vùng trung tâm MAN (Metropolitan Area Network)
• Mạng diện rộng WAN (Wide Area Network)
Mạng cục bộ LAN: là mạng nhỏ nhất, trong vòng vài km,
ngoại trừ trường hợp máy tính đơn kết nối trực tiếp với
internet, tất cả các máy tính có nối mạng đều nối vào
mạng LAN. Mạng LAN được dùng cho một toà nhà,
trường học, thư viện, bệnh viện…
16
17
Công nghệ LAN mới nhất hiện nay là mạng không dây sử
dụng tia hồng ngoại hay sóng vô tuyến (Wireless Fidelity)
thay cho cáp để truyền tín hiệu mạng.
18
Mạng vùng trung tâm MAN
Khác với mạng
LAN là dùng chung một thiết
bị truyền trong mạng nên
cho phép nhiều máy tính kết
nối vào cùng một sợi dây,
mạng MAN sử dụng các kết
nối điểm đến điểm (point to
point) với chỉ một máy tính
tại cuối mỗi liên kết. Các
máy tính tại cuối mỗi liên
kết của MAN cũng có thể kết
nối với các mạng LAN, MAN
và WAN.
19
Mạng diện rộng WAN
Phạm vi của mạng có thể là một
quốc gia hay thậm chí cả lục địa.
Cũng giống như đa số MAN, mạng
WAN dùng các kết nối vật lý điểm
đến điểm nhưng dùng cáp xoắn.
Công nghệ WAN thường có nguồn
gốc từ các hệ thống xây dựng để
phục vụ cho các công ty điện thoại.
20
Truy cập, tìm kiếm dữ liệu thông tin qua internet
21
Luật lệ, đạo đức và các quy định hoạt động của Internet
• Không được truy cập (Access) bất hợp pháp vào những hệ
thống đòi hỏi phải có Username và Password.
• Không phá hoại và gây rối loạn hệ thống lưu thông trên
Internet (gieo rắc, phát tán virus).
• Không lãng phí nguồn tài nguyên (không download những tập
tin quá lớn mà chẳng để làm gì, đặc biệt trong giờ cao điểm.
• Không xoá tập tin của người khác.
• Không xâm phạm, phát tán những thông tin có tính chất
riêng tư của người khác.
• Không truy cập, phát tán những thông tin phản động….
22
Một số thuật ngữ tin sinh thường gặp trên internet
Accession
Alignment
Plasmid
Transcription
DNA sequencing
Primer
Translation
gi
Promoter
Vector
Hairpin
Restriction enzyme
BLAST (Basic Local
Alignment Search Tool)
Intron
Restriction map
FASTA
PCR
Splicing
Query
ORF (Open Reading
Frame)
Tm (Melting
temperature)
Exon
23
Vấn đề 1
Cơ sở dữ liệu công nghệ sinh học
24
Đặc điểm cơ sở dữ liệu công nghệ sinh học
-Nguồn cơ sở dữ liệu vô cùng đa dạng, phong phú, gia
tăng mạnh mẽ theo thời gian
- Chiếm khối lượng lớn nhất và đa dạng nhất là các kết
quả nghiên cứu trên các đối tượng sinh học
- Các dữ liệu này được biểu diễn dưới dạng số hay ký
tự trong các tệp dữ liệu đơn lẻ hay dưới dạng các thuật
toán hoàn chỉnh để cất giữ hoặc trao đổi
- Về cấu trúc, dữ liệu này gồm mảng dữ liệu sơ cấp và
dữ liệu thứ cấp
25