Tải bản đầy đủ (.pdf) (269 trang)

BÀI GIẢNG Tin Sinh Học Đại học Nha Trang

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (11.6 MB, 269 trang )

BÀI GIẢNG ĐIỆN TỬ

ỨNG DỤNG TIN HỌC
TRONG SINH HỌC
(Informatics applycation in biology)

Người soạn: Lê Phương Chung
Bộ môn CNSH – Viện CNSH & MT

1


Mở đầu
Giới thiệu về tin học và ứng dụng tin
học trong sinh học
“The two technologies that will
shape the next century are
biotechnology and information
technology”
Bill Gates

2


Sự ra đời của tin sinh học


Buổi bình minh của trình tự: Trình tự Protein, trình tự axit
nucleic




Sự xuất hiện của các thông tin về cấu trúc, chức năng và

trình tự của protein, DNA dẫn tới nhu cầu quản lý, so sánh
và dự đoán cấu trúc và chức năng của sinh vật


Sự phát triển của các ngành khoa học khác đặc biệt là

công nghệ thông tin, máy tính.

3


Bio (Sinh học) + informatics (Khoa học tính toán) = Bioinformatics
(Giải quyết các bài toán sinh học bằng việc sử dụng các phương pháp
của khoa học tính toán)

Tin sinh học (Bioinformatic) có thể hiểu là một
ngành khoa học phân tích và dự đoán đặc tính của đối
tượng sinh học, trên cơ sở tích hợp năng lực hoạt động hữu
cơ của 3 lĩnh vực khoa học công nghệ:
- khoa học sinh học
- năng lực quản trị và xử lý số liệu của máy tính
- tổ chức quản lý khai thác dữ liệu thông tin trên quy mô
toàn cầu
Các từ đồng nghĩa: Computational biology,
Computational molecular biology, Biocomputing
4



5


6


7


8


Vai trò của Tin sinh học


Tập hợp, lưu trữ, sắp xếp, truy xuất và chia sẻ cơ sở
dữ liệu.



Hỗ trợ cho việc tìm kiếm, phân tích, xử lý và dự
đoán các kết quả nghiên cứu.

 Hỗ

trợ trong các nghiên cứu về cấu trúc không gian

phân tử.



Hỗ trợ trong nghiên cứu đa dạng và tiến hoá của sinh
vật
9


Xu hướng phát triển của Tin sinh học
Quản

lý cơ sở dữ liệu

Phân

tích, biên dịch dữ liệu

Phát

triển các thuật toán

Các

cấu trúc cơ sở dữ liệu

Thiết

kế các giao diện và hiển thị
10


Tài liệu tham khảo

1) Nguyễn Văn Cách (2006) Tin sinh học, Nxb. Khoa học và Kỹ thuật, Hà
nội.
2) Arthur M. L. (2002) Introduction to Bioinformatics, Published in the United
States by Oxford University Press Inc., New York
3) Baxevanis,A. D. and Francis Ouellette, B.F. (2001) Bioinformatics a
Practical guide to the Analysis of Genes and Protein, John Wiley & Sons,
INC.
4) Bryan B. (2001) Bioinformatics Computing, Pretice Hall Pub
5) David W.M (2003) Bioinformatics: Sequence and Genome Analysis, Cold
Spring Harbor Press, New York.
6) Shui Q.Y. (2008)Bioinformatics: A Practical Approach, CRC Press, Taylor
& Francis Group.
11


Tài liệu tham khảo
Thư viện Trường đại học Nha Trang
1, Intelligent Bioinformatics: The Application of Artificial
Intelligence Techniques to Bioinformatics Problems
2, Machine Learning in Bioinformatics (Wiley Series in
Bioinformatics)
3, Bioinformatics: Tools and Applications
4, Bioinformatics Research and Application - ISBRA 2011
5, Essential Bioinformatics
6, Intelligent Bioinformatics: The Application of Artificial
Intelligence Techniques to Bioinformatics Problems
12


Giới thiệu về Internet


• Internet là mạng máy tính toàn cầu để liên kết các tổ
chức, trung tâm, viện nghiên cứu, trường học....
• Để máy tính hoạt động hiệu quả thì chúng phải cùng
chia sẻ một phương tiện truyền thông được gọi chung là
TCP/IP.
13


TCP/IP
(Transmission
Control
Protocol/
Internet Protocol) gọi là
giao thức truyền dữ liệu/
giao thức Internet.
Giao thức này cho phép các
máy tính trên mạng trao
đổi dữ liệu với nhau một
cách thống nhất, tương
tự như một ngôn ngữ
quốc tế được mọi người
cùng sử dụng để có thể
hiểu nhau.

14


Mỗi máy tính trên
internet được đặt

một tên duy nhất đó
là địa chỉ IP

15


Kết cấu mạng Internet

Các kiểu mạng:
• Mạng cục bộ LAN (Local Area Network)
• Mạng vùng trung tâm MAN (Metropolitan Area Network)
• Mạng diện rộng WAN (Wide Area Network)

 Mạng cục bộ LAN: là mạng nhỏ nhất, trong vòng vài km,
ngoại trừ trường hợp máy tính đơn kết nối trực tiếp với

internet, tất cả các máy tính có nối mạng đều nối vào
mạng LAN. Mạng LAN được dùng cho một toà nhà,
trường học, thư viện, bệnh viện…

16


17


 Công nghệ LAN mới nhất hiện nay là mạng không dây sử
dụng tia hồng ngoại hay sóng vô tuyến (Wireless Fidelity)
thay cho cáp để truyền tín hiệu mạng.


18


 Mạng vùng trung tâm MAN
Khác với mạng
LAN là dùng chung một thiết
bị truyền trong mạng nên
cho phép nhiều máy tính kết
nối vào cùng một sợi dây,
mạng MAN sử dụng các kết
nối điểm đến điểm (point to
point) với chỉ một máy tính
tại cuối mỗi liên kết. Các
máy tính tại cuối mỗi liên
kết của MAN cũng có thể kết
nối với các mạng LAN, MAN
và WAN.
19


 Mạng diện rộng WAN
Phạm vi của mạng có thể là một
quốc gia hay thậm chí cả lục địa.

Cũng giống như đa số MAN, mạng
WAN dùng các kết nối vật lý điểm
đến điểm nhưng dùng cáp xoắn.

Công nghệ WAN thường có nguồn
gốc từ các hệ thống xây dựng để

phục vụ cho các công ty điện thoại.

20


Truy cập, tìm kiếm dữ liệu thông tin qua internet

21


Luật lệ, đạo đức và các quy định hoạt động của Internet
• Không được truy cập (Access) bất hợp pháp vào những hệ
thống đòi hỏi phải có Username và Password.
• Không phá hoại và gây rối loạn hệ thống lưu thông trên
Internet (gieo rắc, phát tán virus).
• Không lãng phí nguồn tài nguyên (không download những tập

tin quá lớn mà chẳng để làm gì, đặc biệt trong giờ cao điểm.
• Không xoá tập tin của người khác.
• Không xâm phạm, phát tán những thông tin có tính chất
riêng tư của người khác.
• Không truy cập, phát tán những thông tin phản động….
22


Một số thuật ngữ tin sinh thường gặp trên internet
Accession
Alignment

Plasmid


Transcription

DNA sequencing

Primer

Translation

gi

Promoter

Vector

Hairpin

Restriction enzyme

BLAST (Basic Local
Alignment Search Tool)

Intron

Restriction map

FASTA

PCR


Splicing

Query

ORF (Open Reading
Frame)

Tm (Melting
temperature)

Exon
23


Vấn đề 1
Cơ sở dữ liệu công nghệ sinh học

24


Đặc điểm cơ sở dữ liệu công nghệ sinh học
-Nguồn cơ sở dữ liệu vô cùng đa dạng, phong phú, gia
tăng mạnh mẽ theo thời gian
- Chiếm khối lượng lớn nhất và đa dạng nhất là các kết
quả nghiên cứu trên các đối tượng sinh học
- Các dữ liệu này được biểu diễn dưới dạng số hay ký
tự trong các tệp dữ liệu đơn lẻ hay dưới dạng các thuật
toán hoàn chỉnh để cất giữ hoặc trao đổi
- Về cấu trúc, dữ liệu này gồm mảng dữ liệu sơ cấp và
dữ liệu thứ cấp

25


×