Tải bản đầy đủ (.pdf) (22 trang)

Thu thập nguồn gene và tổ chức dữ liệu gene 8.pdf

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (907.62 KB, 22 trang )

Phần phụ lục
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
141

Phần phụ lục
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
142

- Bảng chú thích các trƣờng và một số nguyên tắc tìm kiếm

Trƣờng
(Fields)
Chú thích
(Comments)
Locus Trƣờng Locus chứa 1 số những yếu tố dữ liệu khác nhau, bao gồm tên
Locus, chiều dài trình tự, loại phân tử, khu vực GenBank (division) và
ngày cập nhật.
Locus name Locus name trong ví dụ trên là SCU49845.
Locus name là một cách trình bày đặc biệt để giúp nhóm những mục từ
(entries) có trình tự tƣơng đồng: ba ký tự đầu tiên thƣờng để chỉ sinh
vật; bốn và năm chữ tiếp theo thƣờng dùng để chỉ những nhóm tên khác
nhƣ: sản phẩm gene, sự phân cấp các mục từ; ký tự cuối cùng là một mã
của dãy những số nguyên.
Tuy nhiên, 10 ký tự trong tên của Locus thì không đủ để cung cấp ý
nghĩa để trình bày một lƣợng lớn thông tin mang ý nghĩa nguồn gốc đặc
biệt chứa đựng trong Locus.
Hiện nay chỉ một quy tắc để thiết kế tên của Locus và nó là duy nhất..
Ví dụ: 1 GenBank record có tên là 6 ký tự accession (nhƣ U12345), tên
của Locus thì thƣờng là ký tự đầu tiên của tên giống và loài, tiếp theo
mới là số accession.
Ví dụ khác: 8 ký tự accession (nhƣ AF123456) thì tên Locus chỉ là số


accession.
Cơ sở dữ liệu RefSeq chứa những trình tự tham khảo cũng đƣợc ấn
định theo chuẩn tên locus với mỗi record, tƣợng trƣng cho gene. RefSeq
tồn tại riêng rẽ với cơ sở dữ liệu GenBank, nhƣng chứa những tham
khảo tƣơng ứng với những record GenBank.
Cách tìm kiếm: Số Accession [ACCN]
Chỉ dẫn: Tìm kiếm số accession tốt hơn là là tìm tên locus, vì số
accession thì ổn định nhƣng tên locus có thể thay đổi.
Sequence
Length
Là số lƣợng cặp Nucleotide (hoặc chuỗi amino acid) trong record trình
tự.
Phần phụ lục
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
143
Ví dụ: Ở record trên, chiều dài trình tự là 5028 bp.
Không có giới hạn tối đa cho kích thƣớc của 1 trình tự đƣợc submit lên
GenBank. Bạn có thể submit cả một genome nếu bạn có thể. Tuy nhiên,
có giới hạn là 350 kb đối với riêng mỗi loại record GenBank.
Chiều dài nhỏ nhất đòi hỏi của một submit là 50 bp, mặc dù có những
record ngắn hơn ở những năm trƣớc.
Cách tìm kiếm: chiều dài trình tự [SLEN]
Chỉ dẫn:
(1) để trích những record với 1 khoảng chiều dài, ta dùng nhƣ sau:
2500:2600[SLEN].
(2) để trích tất cả những trình tự ngắn hơn 1 số chắc chắn nào đó, ta
dùng nhƣ sau: 2:100[SLEN].
(3) để trích tất cả những trình tự dài hơn 1 số chắc chắn nào đó, ta dùng
1 dãy số 9 dùng nhƣ giới hạn trên, ta dùng nhƣ sau: 325000:
99999999[SLEN].

Molecule type Là loại phân tử của trình tự trong record.
Ví dụ: Ở record trên loại phân tử là DNA
Mỗi record GenBank phải chứa dữ liệu trình tự liên tiếp nhau từ 1 loại
đơn phân tử. Có nhiều loại phân tử khác nhau đã đƣợc mô tả nhƣ:
genomic DNA, genomic RNA, tiền RNA, mRNA (cDNA), ribosomal
RNA, RNA chuyển (transfer RNA), RNA nhân con, và RNA tế bào
chất.
Cách tìm kiếm: đặc tính [PROP]
Chỉ dẫn: nội dung tìm kiếm nên theo định dạng sau đây:
biomol_genomic, biomol_mRNA, …
GenBank
Division
Các khu vực trong GenBank (GenBank Division).
GenBank phân chia record một trong các trƣờng thể hiện ngắn gọn
thuộc bẳng 3 ký tự tóm tắt. Trong ví dụ trên GenBank Division là PLN.
Cơ sở dữ liệu GenBank đƣợc phân thành 17 khu vực:
1. PRI – trình tự động vật có vú phát triển cao (gồm ngƣời, vƣợn, khỉ
đuôi dài…; động vật linh trƣởng).
Phần phụ lục
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
144
2. ROD – trình tự bộ gậm nhấm.
3.MAM – những trình tự loài động vật có vú khác.
4.VRT – những trình tự động vật có xƣơng sống khác.
5.INV – những trình tự động vật không xƣơng sống.
6.PLN – những trình tự thực vật, nấm và tảo.
7.BCT – những trình tự vi khuẩn.
8.VRL – những trình tự virut.
9.PHG – những trình tự thực khuẩn
10.SYN – những trình tự nhân tạo.

11.UNA – những trình tự không chú thích.
12. EST – những trình tự EST (expressed sequence tags)
13.PAT – những trình tự có bằng công nhận sáng chế.
14.STS – những trình tự STS (sequence tagged sites)
15.GSS - những trình tự GSS (genome survey sequences)
16.HTG – những trình tự HTG (high-throughput genomic sequences)
17.HTC – unfinished high-throughput cDNA sequencing
Một vài khu vực chứa những trình tự từ những nhóm sinh vật cụ thể,
trong khi đó những khu vực khác (EST, GSS, HTG, …), chứa dữ liệu
tạo ra bằng kỹ thuật giải trình tự đặc biệt từ nhiều sinh vật khác nhau.
Cách tìm kiếm: đặc tính [PROP]
Chỉ dẫn: nội dung tìm kiếm nên đƣợc định dạng sau: gbdiv_pri,
gbdiv_est, …, ví dụ để loại trừ tất cả những trình tự từ những khu vực
đặc biệt nhƣ ESTs, bạn có thể dùng nội dung lệnh nhƣ sau:
human[ORGN] NOT gbdiv_est[PROP]
Thay thế những cách ở trên, không dùng GenBank divisions để trích tất
cả trình tự từ 1 sinh vật đặc biệt, ta dùng NCBI Taxonomy Browser.
Modification
Date
Ngày trong trƣờng Locus là ngày cập nhật cuối cùng của Record
Ví dụ: Ngày cập nhật sau cùng của record trên là 21-06-1999.
Cách tìm kiếm: ngày cập nhật [MDAT]
Chỉ dẫn:
(1) nhập vào nội dung tìm kiếm theo dạng sau: năm/tháng/ngày (ví dụ:
Phần phụ lục
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
145
1999/07/25)
(2) để trích những record đƣợc bổ sung giữa 2 ngày, dùng dấu hai chấm
trong lệnh nhƣ sau: 1999/07/25:1999/07/31[DMAT].

(3) Bạn có thể dùng trƣờng ngày xuất bản [PDAT] của Entrez để giới
hạn kết quả tìm kiếm (bởi ngày này đƣợc thêm vào trong hệ thống của
Entrez). Ngày xuất bản có thể đƣợc thay đổi giống nhƣ ngày ngày cập
nhật.
Definition Mô tả vắn tắt về trình tự; bao gồm những thông tin nhƣ nguồn gốc sinh
vật, tên gene/tên protein, hoặc một vài mô tả của chức năng trình tự
(nếu trình tự là không mã hóa). Nếu trình tự là một vùng mã hóa (CDS),
những mô tả có thể đƣợc đầy đủ hơn nhƣ “complete cds”.
Cách tìm kiếm: từ tiêu đề [TITL]
Chỉ dẫn: Mặc dù những dòng định nghĩa theo một cấu trúc định dạng,
nhƣng GenBank không dùng từ ngữ đƣợc kiểm soát và tác giả sẽ quyết
định nội dung của record. Vì vậy, nếu tìm kiếm một nội dung đặc biệt
mà không lấy đƣợc những record mong muốn, hãy cố gắng những nội
dung khác mà tác giả đã dùng, nhƣ là từ cùng nghĩa, từ đầy đủ, hoặc
một chữ viết tắt. Chức năng “related records” (hoặc “neighbors”) của
Entrez còn cho phép bạn mở rộng tìm kiếm của bạn bằng cách trích
những record với những trình tự tƣơng tự, những nội dung mô tả không
quan tâm đƣợc dùng bởi ngƣời submit.
Accession Cách tìm kiếm: accession [ACCN]
Chỉ dẫn: Những từ trong accession number có thể đƣợc viết nhƣ trên.
Riêng số RefSeq accession phải chứa 1 dấu gạch giữa những từ và số
nhƣ NM_002111.
Version Là số dùng nhận dạng một trình tự nucleoide, nó chỉ có một, trình tự
đặc trƣng trong cơ sở dữ liệu GenBank. Số xác định này thƣờng đƣợc
định dạng accession.version theo qui ƣớc của GenBank/EMBL/DDBJ
vào tháng 2 năm 1999.
Nếu bạn có bất kỳ thay đổi trong dữ liệu trình tự (kể cả một base), số
version sẽ đƣợc tăng nhƣ U12345.1 → U12345.2, nhƣng phần
Phần phụ lục
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG

146
accession vẫn giữ ổn định.
Hệ thống xác định accession.version của trình tự chạy song song với hệ
thống số GI, khi có bất kỳ sự thay đổi đƣợc tạo ra ở một trình tự, hệ
thống sẽ tự trích ra một số GI mới và tăng số version của nó lên một.
Công cụ duyệt lại trình tự (Sequence Revision History) có nhiệm vụ
theo dõi những số GI khác nhau, những số version và cập nhật ngày cho
trình tự khi có sự xuất hiện một record đặc biệt ở GenBank.
Cách tìm kiếm: dùng chuẩn chọn lựa của “All Fields’.
GI “GenInfo Identifier” là số nhận dạng trình tự, trong trƣờng hợp này, là
trình tự nucleotide. Nếu một trình tự thay đổi theo bất kỳ cách nào, một
số GI mới sẽ đƣợc ấn định.
Một số GI riêng lẽ còn đƣợc ấn định với mỗi protein đƣợc dịch trong
phạm vi một record trình tự nucleotide, và một số GI mới sẽ đƣợc ấn
định nếu sự dịch protein thay đổi theo bất kỳ cách nào.
Sự xác định số GI trình tự chạy song song với hệ thống xác định
accession.version mới của trình tự.
Công cụ duyệt lại trình tự (Sequence Revision History) có nhiệm vụ
theo dõi những số GI khác nhau, những số version và cập nhật ngày cho
trình tự khi có sự xuất hiện một record đặc biệt ở GenBank.
Cách tìm kiếm: dùng chuẩn chọn lựa của “All Fields’
Keyword Cách tìm kiếm: từ khóa [KYWD]
Chỉ dẫn: Bởi vì những từ khóa thì không có mặt trong nhiều records,
điều đó thì không tốt khi tìm kiếm. Thay vào đó, tìm kiếm tất cả các
trƣờng [ALL], tìm trƣờng từ text [WORD], hoặc tìm trƣờng từ tiêu đề
[TITL], để thu hẹp những kết quả tìm đƣợc.
Source Cách tìm kiếm: Organism [ORGN]
Chỉ dẫn: Một vài sinh vật đƣợc thiết lập với tên gọi thông thƣờng, nhƣ
là men bánh mì, chuột, và ngƣời, một tìm kiếm với tên thông thƣờng sẽ
cho kết quả giống nhƣ tìm kiếm với tên đặc biệt, …, một tìm kiếm với

tên “baker‟s yeast” trong trƣờng Organism sẽ cho kết quả giống nhƣ
tìm với tên “Saccharomyces cerevisiae”. Đây là một điều đúng bởi
Phần phụ lục
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
147
trƣờng Organism đã đƣợc kết nối với cơ sở dữ liệu NCBI Taxonomy,
nơi chứa những tham khảo giữa tên thông thƣờng, tên đặc biệt và
những sinh vật tƣơng đồng đã đƣợc giữ trong cơ sở dữ liệu trình tự.
Organism Cách tìm kiếm: sinh vật [ORGN]
Chỉ dẫn: Bạn có thể tìm kiếm ở trƣờng Organism bởi bất kỳ nội dung
nào (node) trong hệ thống phân loại (taxonomic hierarchy), …, nhƣ bạn
có thể tìm kiếm nội dung “Saccharomyces cerevisiae”,
“Saccharomycetales”, “Ascomycota”, … để trích tất cả những trình tự
từ những sinh vật đã đƣợc nhóm đặc biệt.
Reference Cách tìm kiếm: Những trƣờng con khác nhau dƣới mục References thì
có thể tìm kiếm ở trang tìm kiếm Entrez với những trƣờng nhƣ bên
dƣới.
Authors Danh sách những tác giả trong nhóm, xuất hiện trong bài báo.
Cách tìm kiếm: tác giả [AUTH]
Chỉ dẫn: Nhập tên tác giả vào trong khung: tên thật (không có gì sau
chữ đầu). Ban đầu có thể đƣợc bỏ qua. Sự cắt gọn còn có thể đƣợc dùng
để trích tất cả tên tác giả bắt đầu với chuỗi ký tự, nhƣ: Richards* hoặc
Boguski M*.
Title Cách tìm kiếm: text word [WORD]
Chú ý: Về những record trình tự, trƣờng Title Word [TITL] của Entrez
tìm kiếm ở dòng Definition, không có những Titles của References
đƣợc liệt kê ở record. Vì thế, phải dùng trƣờng Text Word để tìm kiếm
những chủ đề của References.
Chỉ dẫn: Nếu tìm kiếm cho một nội dung đặc biệt không trích đƣợc
những record mong muốn, hãy cố gắng với những nội dung khác mà

những tác giả đó phải dùng, nhƣ: cụm từ cùng nghĩa, câu đầy đủ, hoặc
chữ viết tắt. Chức năng “những Record có liên quan (related records)”
của tìm kiếm Entrez còn cho phép bạn mở rộng tìm kiếm của bạn bởi
những record trích đƣợc với những trình tự tƣơng đồng, không quan
tâm đến những nội dung đƣợc diễn tả bởi những ngƣời submit.
Journal MEDLINE là chữ viết tắt của tên một tạp chí.
Phần phụ lục
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
148
Cách tìm kiếm: Journal Name [JOUR]
Chỉ dẫn: tên tạp chí có thể đƣợc nhập vào chữ đầy đủ hoặc viết tắt của
MEDLINE. Bạn có thể tìm kiếm trƣờng tên tạp chí trong danh mục
(Index) để xem danh mục cho trƣờng đó và chọn một hoặc nhiều tên tạp
chí nhập vào trong tìm kiếm của bạn.
MEDLINE Số xác định duy nhất trên MEDLINE (UID).
Những sự tham khảo bao gồm MEDLINE UIDs chứa những liên kết từ
record trình tự đến record MEDLINE tƣơng ứng. Ngƣợc lại, những
record MEDLINE chứa số Accession trong trƣờng SI (secondary source
identifier - nguồn xác định thứ cấp) chứa những liên kết ngƣợc lại
record trình tự.
Cách tìm kiếm: Không thể tìm kiếm ở cơ sở dữ liệu trình tự nucleotide
và protein bởi số MEDLINE UID. Tuy nhiên, bạn có thể tìm kiếm ở cơ
sở dữ liệu tài liệu (PubMed) của Entrez cho MEDLINE UID, và sau đó
liên kết tới những record trình tự có quan hệ.
PUBMED Số xác định PubMed (PMID).
Những tham khảo bao gồm IDs PubMed chứa những liên kết từ record
trình tự tới record PubMed tƣơng ứng. Ngƣợc lại, những record
PubMed chứa số Accession trong trƣờng SI (nguồn ID thứ cấp) chứa
những liên kết ngƣợc lại record trình tự.
Cách tìm kiếm: Không thể tìm kiếm ở cơ sở dữ liệu trình tự nucleotide

và protein bởi số PubMed ID. Tuy nhiên, bạn có thể tìm kiếm tài liệu ở
cơ sở dữ liệu PubMed của Entrez cho số PubMed ID, và sau đó liên kết
đến những record trình tự có quan hệ.
Direct
Submission
Thông tin liên lạc của ngƣời submit, nhƣ là viện/cơquan và địa chỉ bƣu
điện. Đây là sự trích dẫn sau cùng trong trƣờng References. Một vài
record cũ không chứa tham khảo “Direct Submission”. Tuy nhiên, nó
đƣợc yêu cầu trong tất cả những record mới.
Trƣờng con Authors chứa tên của ngƣời submit, Title chứa những từ
“Direct Submission”, và Journal chứa địa chỉ.
Ngày của trƣờng con Journal là ngày mà tác giả sửa submission. Trong

×