Tải bản đầy đủ (.ppt) (46 trang)

Bai giang tin sinh hoc 2

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.3 MB, 46 trang )

TÌM KIẾM TRÌNH
TỰ SINH HỌC VÀ ĐĂNG KÝ
TRÌNH TỰ TRÊN CƠ SỞ DỮ LIỆU
Mục tiêu của bài học

Có khả tìm kiếm được những trình tự sinh học
như DNA, RNA, Protein.

Đăng ký những trình tự đã nghiên cứu được lên
Cơ sở dữ liệu sinh học bằng phần mềm Sequin.
Tìm ki m trình t sinh h cế ự ọ
2
Nguyên tắc trong giải trình tự

Phương pháp Sanger: là phương pháp dựa trên sự tổng
hợp gián đoạn DNA.

Dựa theo phương pháp này chúng ta có thể xác định
được trình tự nucleotide của DNA hay RNA (ATGC…
TTT)
3
Tìm ki m trình t sinh h cế ự ọ
Nhiễm sắc thể, DNA, Gene, Nucleotide
Gi i thi u môn h cớ ệ ọ
4
Gửi trình tự lên Genebank của NCBI
Trình tự đã giải
Gi i thi u môn h cớ ệ ọ
5
Đưa vào cơ sở dữ liệu sinh học:


-NCBI
- Các cơ sở dữ liệu khác
Sequin
Nguyên tắc tìm kiếm trình tự sau khi đã giải trình tự
1.Tìm bằng từ khóa: 2.Công cụ tìm kiếm
-Mã số truy cập
-Tên (gene hay Protein)
-GI
-Độ dài trình tự
-Trọng lượng phân tử
-Tên tác giả giải trình tự



3. Lọc trình tự
6
Tìm ki m trình t sinh h cế ự ọ
Kết quả
cần tìm
Kết quả
cần tìm
Tìm ki m trình t sinh h cế ự ọ
7
Tìm kiếm trình tự sinh học qua NCBI
Click
Tìm ki m trình t sinh h cế ự ọ
8
Tìm kiếm trình tự DNA
Tìm kiếm trình tự qua mã số truy cập
Tìm ki m trình t sinh h cế ự ọ

9

Mã số truy cập của một trình tự là mã số do các nhà quản trị
CSDLSH đặt cho một trình tự, thường có dạng :

8 ký tự : 2 chữ và 6 số ví dụ như AY690640

6 ký tự : 1 chữ và 5 dố ví dụ như U20068
TÌM KIẾM TRÌNH TỰ SINH HỌC QUA MÃ SỐ TRUY CẬP
Tìm ki m trình t sinh h cế ự ọ
10
Kết quả tìm trình tự DNA qua mã số truy cập
Gi i thi u môn h cớ ệ ọ
11
Tìm ki m trình t sinh h cế ự ọ
12
Tìm kiếm trình tự qua tên gene
Tìm ki m trình t sinh h cế ự ọ
13
Cách lấy trình tự theo định dang FASTA
Gi i thi u môn h cớ ệ ọ
14
Định dạng FASTA

FASTA là một giải thuật bắt cặp trình tự được David
J. Lipman và William R. Pearson miêu tả lần đầu tiên
vào năm 1985 (Rapid and sensitive protein similarity
searches).

Nhiều phần mềm tin sinh học cần dữ liệu trình tự gene

hoặc protein theo kiểu định dạng FASTA như ví dụ
minh hoạ dưới đây:
>tên trình tự
gattctcacttggtctgctgcaaggacgcggaccattaaaactgttcatggcccttgtggcgttctcgt
ttcctaacaatcccaccaacagcagggatactaaaaagatggggaacgatcaaaaaatcaaaagct
atcaatgtcttgagagggttcaggaaagagattggaaggatgctgaacatcttgaacaggagacgc
aggacagcaggcgtgattgttatgttgattccacagcgatggcgttccatttaaccacacgcaatgg

Tìm ki m trình t sinh h cế ự ọ
15
Một số mã số truy cập của RefSeq database
1. mRNAs and Proteins

NM_123456 Curated mRNA

NP_123456 Curated Protein

NR_123456 Curated non-coding RNA

XM_123456 Predicted mRNA

XP_123456 Predicted Protein

XR_123456 Predicted non-coding RNA
2. Chromosome
NC_123455 Microbial replicons, organelle
genomes, human chromosomes
4. Assemblies
NT_123456 Contig
Tìm ki m trình t sinh h cế ự ọ

16
Ví dụ 1: NM_123456Curated mRNA
Tìm ki m trình s sinh h cế ọ
17
NM_123456
V í dụ 2: NC_12345
Gi i thi u môn h cớ ệ ọ
18
Kết quả tìm kiếm bộ gene
Gi i thi u môn h cớ ệ ọ
19
Thẻ giới hạn phạm vi tìm kiếm DNA

[ALL] : Tất cả các trường tìm kiếm

[ACCN]: Mã số truy cập của trình tự - Accession
number

[GI] : Số gi

[AUTH] :Tên tác giả giải trình tự- author name

[PDAT] : Ngày trình tự được chỉnh sửa hay ngày
trình tự được cập nhật (update) – publication date

[ORGN] : Sinh vật chứa trình tự đó - organism

[TITL] :Định nghĩa trình tự trong mẫu tin – title

[SLEN] :Chiều dài của trình tự - Sequence length


[GENE] : Tên gene


Tìm ki m trình t môn h cế ự ọ
20
BÀI TẬP
Chúng ta thực tập tìm kiếm trình tự gen có tên là ST
GENE và lấy đoạn nucleotide theo định dạng FASTA.
Câu hỏi 1: Kết quả có bao nhiêu mục tìm thấy ?
Trả lời 1:
Câu hỏi 2: Trình tự DNA này dài bao nhiêu ?
Nó mã hoá cho gen gì?
Công trình này được đăng tải bởi tạp chí nào?
Tác giả là ai?
Trả lời 2:
Gi i thi u môn h cớ ệ ọ
21
Tìm kiếm trình tự protein
Tìm ki m trình t sinh h cế ự ọ
22
Tìm kiếm trình tự qua tên sinh vật
Gi i thi u môn h cớ ệ ọ
23
Định dạng trình tự dạng FASTA
Gi i thi u môn h cớ ệ ọ
24
Thẻ giới hạn phạm vi tìm kiếm trình tự protein

[ALL] : Tất cả các trường tìm kiếm


[ACCN] : Mã số truy cập của trình tự - Accession number

[GI] : Số gi

[AUTH] :Tên tác giả giải trình tự- author name

[PDAT] : Ngày trình tự được chỉnh sửa hay ngày trình tự được
cập nhật (update) – publication date

[ORGN] : Sinh vật chứa trình tự đó - organism

[TITL] : Định nghĩa trình tự trong mẫu tin – title

[SLEN] : Chiều dài của trình tự - Sequence length

[PROT] : Tên protein – Protein name

[MOLWT] : Trọng lượng phân tử protein
Gi i thi u môn h cớ ệ ọ
25

Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×