Tải bản đầy đủ (.pdf) (22 trang)

Thu thập nguồn gene và tổ chức dữ liệu gene 5.pdf

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.51 MB, 22 trang )

PHẦN C: PHƢƠNG PHÁP TIẾN HÀNH – Tìm kiếm dữ liệu trình tự
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
75
o Phần hình ảnh minh họa tổng thể:

Hình 2.22: Phần ảnh minh họa tổng thể kết quả BLAST
Phần này cho ta thông tin tổng quát về sự bắt cặp của trình tự query với các trình
tự khác trong cơ sở dữ liệu. Trình tự query là thanh đỏ có đánh số, các thanh khác là
các trình tự trong cơ sở dữ liệu. Thanh nào càng gần thanh query thì sự tƣơng đồng với
trình tự query càng cao, ngoài ra màu sắc cũng thể hiện độ tƣơng đồng ( màu đỏ có
điểm số cao nhất, tới màu hồng,…). Ở đây ta thấy có rất nhiều trình tự khớp với trình
tự query, có trình tự khớp cả hai primer và cũng có trình tự chỉ khớp với một primer.
Ta chỉ quan tâm đến các trình tự khớp với cả hai primer. Để biết thêm thông tin về các
trình tự này, ta có thể nhấp chuột vào thanh quan tâm hay kéo xuống xem tới phần tiếp
theo.
o Phần tóm tắt một dòng:

Hình 2.23: Phần tóm tắt kết quả BLAST
PHẦN C: PHƢƠNG PHÁP TIẾN HÀNH – Tìm kiếm dữ liệu trình tự
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
76
Phần này cung cấp thông tin tóm tắt về các trình tự tìm thấy trong cơ sở dữ liệu,
số gi, cơ sở dữ liệu của từng trình tự, số version, số locusID, định nghĩa tóm tắt của
trình tự, điểm số theo số bit và giá trị E-value.
Lƣớt sơ qua phần này ta thấy, gene ACCg8 của Brassica napus xuất hiện ngay
phần đầu tiên đúng nhƣ mong muốn. Ta muốn xem sự bắt cặp của trình tự này với mồi
nhƣ thế nào chỉ cần click chuột trên scorce (bits) tƣơng ứng. Ta đƣợc bảng sau:

Hình 2.24: Phần xem chi tiết về sự gióng trình tự trên trang kết quả BLAST
Bảng này đƣa ra định nghĩa đầy đủ cho trình tự, chiều dài của trình tự, các thông
số điểm và cuối cùng là sự gióng trình tự. Ở đây ta thấy, mồi xuôi bắt cặp với mạch


dƣơng (Strand = Plus/Plus), mồi ngƣợc bắt cặp với mạch bổ sung (Strand =
Plus/Minus). Vị trí sự bắt cặp cũng đƣợc chỉ ra, mồi xuôi bắt cặp tại vị trí 9652-9673
với trình tự gene, mồi ngƣợc bắt cặp tại vị trí 9741-9755 với trình tự gene. Kết quả này
đúng nhƣ vị trí đã đƣợc chỉ ra phần trên. Ta đánh dấu chọn và nhấn nút Get selected
sequences để lấy trình tự. Bảng sau sẽ xuất hiện:

Hình 2.25: Lấy trình tự cần từ trang kết quả BLAST
PHẦN C: PHƢƠNG PHÁP TIẾN HÀNH – Tìm kiếm dữ liệu trình tự
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
77
Bảng này liệt kê các trình tự ta chọn bên trang kết quả BLAST, muốn xem chi tiết
thông tin về trình tự nào chỉ cần nhấp chuột trên số Accession number đƣợc liệt kê. Ta
cũng lấy dữ liệu về dƣới dạng text.
Tới đây có một số điều cần lƣu ý. Mục đích của ta là tập hợp dữ liệu trình tự liên
quan tới nghiên cứu GMO, ta không chỉ quan tâm tới các trình tự đƣợc tìm ra bằng
primer, mà các trình tự liên quan cũng rất hữu ích trong nghiên cứu GMO. Ví dụ nhƣ
gene tạo độc tố lấy từ vi khuẩn Bacillus thuringiensis có rất nhiều loại, nhƣ CryIA,
CryIA(b), Cry2Ab…việc lấy đƣợc các trình tự này cũng quan trọng không kém. Làm
sao ta có thể lấy ra các trình tự này khi ta chỉ có primer của một loại gene nào đó trong
số này?
Ta biết BLAST có nhiều chƣơng trình khác nhau phục vụ cho việc tìm kiếm trình
tự tƣơng đồng, ta cũng biết rằng các trình tự tƣơng đồng nhau sẽ có các tính chất giống
hay gần giống nhau. Từ trình tự primer, ta có thể lấy ra đƣợc trình tự gene mong muốn
nhƣ chỉ ra ở phần trên. Từ trình tự gene mong muốn ta có thể dùng chƣơng trình
BLAST khác tìm ra các trình tự khác có tính chất giống hay gần giống với trình tự
gene này. Các chƣơng trình MEGABLAST, Discontiguous-megablast, và blastn có thể
hoàn thành đƣợc việc này, tuy nhiên ta nên dùng chƣơng trình blastn vì đây là chƣơng
trình BLAST với các thông số đƣợc mặc định để thu đƣợc kết quả tốt nhất nếu ta chƣa
nắm vững về các thông số của chƣơng trình BLAST.
Ta sẽ tiến hành tìm kiếm các trình tự liên quan tới trình tự gene CryIA(b)

(Accession number I41419) với điểm khởi đầu là cặp primer sau:
CryIA(b)-V3: 5'-CCTGACCAAGAGCACCAACCTGG-3'
CryIA(b)-V4: 5'-GCTCATGGTGGCGCTGAAGTTGC-3'
(Virginia García-Cañas, Ramón González, Alejandro Cifuentes). Đầu tiên ta cũng
nhập trình tự primer vào khung tìm kiếm:

Hình 2.26: Nhập trình tự Primer vào khung tìm kiếm gene cryIA(b)
PHẦN C: PHƢƠNG PHÁP TIẾN HÀNH – Tìm kiếm dữ liệu trình tự
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
78
Ta thực hiện tìm kiếm trong cơ sở dữ liệu nr, các thông số khác cũng đƣợc mặc
định giống nhƣ phần trƣớc. Sau khi thực hiện BLAST, kết quả nhƣ sau:

Hình 2.27: Kết quả tìm kiếm với Primer gene cryIA(b)
Trong kết quả xuất ra, ta không thấy trình tự Accession number I41419. Tại sao?
Có nhiều khả năng xảy ra ở đây, có thể primer không đặc hiệu khớp với nhiều trình tự
khác mà có điểm số cao hơn trình tự ta cần tìm, vì thế trình tự cần tìm không đƣợc thể
hiện ra trong kết quả. Trong trƣờng hợp này ta phải áp dụng thêm một vài chọn lựa
khác nhƣ mở rộng thêm phần thể hiện kết quả, giới hạn chỉ xuất kết quả trên vi khuẩn
(vì ta biết gene CryIA(b) nó có nguồn gốc từ vi khuẩn).
Ta đƣợc kết quả sau:

Hình 2.28: Kết quả tìm kiếm sau khi thay đổi thông số
PHẦN C: PHƢƠNG PHÁP TIẾN HÀNH – Tìm kiếm dữ liệu trình tự
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
79
Kết quả này cũng không cho ra trình tự mong muốn. Vậy lý do là do đâu? Ta biết
primer là một trình tự gắn, việc so trình tự primer với các trình tự trong cơ sở dữ liệu
khổng lồ sẽ cho kết quả dữ liệu khớp rất lớn nếu trình tự primer đó không đặc hiệu, vì
thế đối với các primer không chuyên biệt ta rất khó lấy đƣợc dữ liệu mong muốn. Khi

đó ta cần phải biết thêm một vài thông tin khác về trình tự cần tìm, nhƣ trình tự này có
nguồn gốc từ đâu, trình tự này có vai trò gì… Mục đích cần nắm thêm các thông tin
này là vì nhờ vào nó ta sẽ giới hạn phạm vi tìm kiếm và trong phạm vi tìm kiếm đó thì
trình tự mong muốn của ta có cơ hội xuất hiện cao hơn.
Ta biết trình tự gene CryIA(b) có nguồn gốc từ vi khuẩn, đƣợc cấu trúc lại và
dùng trong chuyển gene tạo tính trạng kháng sâu cho cây trồng. Trong các cơ sở dữ
liệu còn lại của chƣơng trình BLAST, cơ sở dữ liệu PAT (pattent sequences) có thể
chứa trình tự ta cần tìm. Ta thực hiện tìm kiếm trên cơ sở dữ liệu này:

Hình 2.29: Lựa chọn lại thông số là Pat thay vì nr
Các thông số khác giống nhƣ trên, ta thu đƣợc kết quả sau:

Hình 2.30: Kết quả tìm kiếm với Database Pat
PHẦN C: PHƢƠNG PHÁP TIẾN HÀNH – Tìm kiếm dữ liệu trình tự
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
80
Có rất nhiều trình tự trong cơ sở dữ liệu khớp với primer, các trình tự khớp với
điểm số cao đƣợc sắp theo thứ tự từ trên xuống dƣới. Trình tự ta cần tìm (đƣợc tô đậm)
nằm ở rất xa so với trình tự đầu tiên. Điều này chứng tỏ primer này không chuyên biệt
lắm. Từ đây rút ra kết luận là với mỗi loại query cần xác định đúng cơ sở dữ liệu thì
mới tìm đúng trình tự mong muốn.
Ta cũng chú ý đến các trình tự đƣợc tìm ra bằng primer này, so với trình tự ta cần
tìm các trình tự này cũng có tính chất tƣơng tự. Các trình tự này cũng rất cần cho tham
khảo, ta cũng lấy các trình tự này.

Hình 2.31: Trang lấy kết quả từ chƣơng trình BLAST
Tiếp theo, từ trình tự tìm đƣợc ta tiến hành tìm các trình tự tƣơng đồng. Ta dùng
chƣơng trình blastn. Dùng chƣơng trình BLAST này cũng giống nhƣ chƣơng trình
“search for short nearly exact match”. Khi mở chƣơng trình blastn, thì các thông số đã
mặc định cho thu đƣợc kết quả tốt nhất. Bạn cũng có thể thay đổi một số thông số phù

hợp cho mục đích tìm kiếm của mình.
Ta thực hiện tìm các trình tự tƣơng đồng nhƣ sau:
 Nhập trình tự query:

Hình 2.32: Tìm kiếm trình tự bằng số xác định qua trang BLAST
PHẦN C: PHƢƠNG PHÁP TIẾN HÀNH – Tìm kiếm dữ liệu trình tự
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
81
Vì trình tự này có sẵn trong GenBank, ta không cần nhập trình tự vào mà chỉ cần
nhập vào số xác định cho trình tự đó nhƣ Accession number, gi. Ở đây ta nhập vào
Accession number.
 Thực hiện và định dạng kết quả xuất ra, lựa chọn Bacteria ở mục select from.
Ở đây ta chỉ quan tâm kết quả trên vi khuẩn. Kết quả xuất ra nhƣ sau:

Hình 2.33: Kết quả BLAST dạng HTML
Nhìn vào kết quả ở dạng hình ảnh và phần tóm tắt, ta thấy chỉ có vài kết quả đầu
là phù hợp với mục đích của ta, là các trình tự có liên quan đến cây trồng biến đổi di
truyền. Ta chọn và lấy các trình tự này về dƣới dạng text file.

Hình 2.34: Kết quả BLAST dạng text
Tóm lại dựa vào trình tự các primer tổng hợp đƣợc từ các bài báo, ta sẽ dùng các
trình tự này tìm kiếm trình tự mong muốn, đồng thời cũng tìm luôn các trình tự liên
quan tới trình tự quan tâm hiện đang có trong cơ sở dữ liệu thế giới làm cho dữ liệu
của ta sẽ phong phú hơn, đáp ứng đƣợc nhiều mục đích khai thác sử dụng.

PHẦN D: KẾT QUẢ VÀ THẢO LUẬN
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
82
D. KẾT QUẢ VÀ THẢO LUẬN
I. Các kết quả thu đƣợc từ quá trình tìm kiếm ấn phẩm khoa học

Sau khi tìm kiếm, chọn lọc bài báo, ấn phẩm khoa học trên các công cụ tìm kiếm
ta thu đƣợc các kết quả nhƣ sau:
Cây trồng biến đổi di truyền phổ biến hiện nay trên thế giới: tổng số 37 loài cây
(xem bảng danh sách ở phụ lục A).
Tính trạng phổ biến dùng trong cây trồng biến đổi di truyền
a) Tính trạng kháng côn trùng: bắp kháng côn trùng, cà chua kháng côn
trùng…
b) Tính trạng mang tính kháng bệnh: đậu nành kháng bệnh…
c) Tính trạng kháng thuốc trừ cỏ: cải dầu, bắp, đậu nành…kháng thuốc diệt
cỏ.
d) Tính trạng năng suất nông học: tăng hàm lƣợng tinh bột, acid béo…
e) Tính trạng cho mục đích dinh dƣỡng và dƣợc liệu: tăng thành phần
lysine…
(Chi tiết xem bảng tổng hợp cây trồng và tính trạng biến đổi di truyền ở phụ lục).
Tổng số primer dùng trong chẩn đoán sản phẩm biến đổi di truyền tổng hợp
đƣợc: 114 cặp primer. (Xem chi tiết ở phụ lục C).

II. Các kết quả thu đƣợc từ quá trình tìm kiếm trình tự trên NCBI
Cả hai phƣơng pháp: tìm kiếm trình tự bằng keyword và tìm kiếm trình tự bằng
trình tự primer đều đem lại cho ta rất nhiều kết quả. Dƣới đây là một vài nhận xét rút
ra qua quá trình tìm kiếm.
* Tổng số trình tự tìm đƣợc là: 5628 trình tự. Trong đó:
Tìm bằng keyword chiếm 57.16%
Tìm bằng primer chiếm 42.84%
* Qua đó chúng tôi kết luận cả hai phƣơng pháp đều cần thiết trong quá trình tìm
kiếm trình tự. Với phƣơng pháp tìm kiếm trình tự bằng keyword độ chính xác tùy
thuộc vào thông tin keyword ta có. Với phƣơng pháp tìm kiếm bằng primer độ chính
xác kết quả tìm đƣợc phụ thuộc độ đặc hiệu của primer và cơ sở dữ liệu tìm kiếm.

×