Tải bản đầy đủ (.pdf) (64 trang)

Trong Entrez chúng ta có thể nhập vào những yêu cầu tìm kiếm cơ sở dữ liệu về các bài báo thuộc lĩnh...

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.07 MB, 64 trang )

<span class='text_page_counter'>(1)</span>ĐẠI HỌC QUỐC GIA THAØNH PHỐ HỒ CHÍ MINH. TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA SINH HOÏC. (DUØNG CHO SINH VIEÂN NGAØNH COÂNG NGHEÄ SINH HOÏC). Chủ biên: TRẦN LINH THƯỚC Thực hiện: ĐẶNG THỊ PHƯƠNG THẢO ĐỖ ANH TUẤN. 10/2003 (Löu haønh noäi boä).

<span class='text_page_counter'>(2)</span> MUÏC LUÏC PHẦN MỞ ĐẦU. 2. PHẦN I: KHAI THÁC DỮ LIỆU SINH HỌC QUA MẠNG INTERNET. 10. Baøi 1. Baøi 2. Baøi 3. Baøi 4. Baøi 5. Baøi 6.. 11 13 19 24 28 32. Cơ sở dữ liệu sinh học trên mạng internet Tìm kieám thoâng tin treân maïng internet Tìm kiếm các trình tự sinh học Tìm kiếm các trình tự tương đồng Phân tích trình tự DNA Tạo cây phát sinh loài từ trình tự DNA. PHAÀN II: MOÄT SOÁ COÂNG CUÏ PHAÀN MEÀM PHAÂN TÍCH GEN. 35. Bài 7. Nhập xuất dữ liệu Bài 8. Tìm trình tự DNA và khung đọc mở Bài 9. Chuyển đổi trình tự DNA và amino acid Bài 10. Thiết lập bản đồ enzyme cắt giới hạn Baøi 11. Thieát keá moài (primer) Bài 12. Vẽ bản đồ plasmid Bài 13. Bài tập tổng hợp. 37 40 43 46 49 52 61. PHUÏ LUÏC. 63. 1.

<span class='text_page_counter'>(3)</span> PHẦN MỞ ĐẦU. 2.

<span class='text_page_counter'>(4)</span> 1. Bioinformatics laø gì ? Bioinformatics là một ngành học còn khá mới trong lĩnh vực Sinh học. Vì vậy, hiện nay có khá nhiều định nghĩa khác nhau về thuật ngữ bioinformatics. Chúng ta thử tìm hiểu một số thuật ngữ: • Bioinformatics là môn học về cách sử dụng máy tính để giải quyết những vấn đề của khoa học sự sống, chủ yếu là vấn đề cơ sở dữ liệu phong phú của bộ gen, trình tự protein... Ngoài ra, nó còn giải quyết những vấn đề về kỹ thuật như mô hình cấu trúc ba chiều của phân tử và các hệ thống Sinh học (3/2001, Cancer WEB). • Bioinformatics là sự sáng lập và phát triển của tiến bộ những thông tin và kỹ thuật máy tính nhằm giải quyết những vấn đề sinh học, thường là sinh học phân tử (các lĩnh vực sinh học khác cũng đang ngày càng gia tăng). Như vậy, bioinformatics liên quan đến những phương pháp như lưu trữ, tìm kiếm và phân tích dữ liệu sinh học như acid nucleic (DNA/RNA) và trình tự protein; nghiên cứu cấu trúc, chức năng, con đường và những ảnh hưởng di truyền (Đại học Stanford). • Bioinformatics là một sự phối hợp giữa toán học, thống kê và kỹ thuật máy tính nhaèm phaân tích thoâng tin veà sinh hoïc, sinh hoùa, sinh lyù. • Bioinformatics laø moân hoïc veà caáu truùc ñaëc tröng cuûa thoâng tin sinh hoïc vaø hệ thống sinh học. Nó cung cấp một loạt những hệ thống dữ liệu Sinh học (ví dụ bộ gen) kết hợp với những lý thuyết phân tích và công cụ thực hành của toán học và khoa hoïc maùy tính.. Caáu truùc Sinh hoïc Sinh hoùa. Sinh hoïc phân tử. Khoa hoïc maùy tính Bioinformatics: Moân hoïc veà caáu truùc ñaëc tröng cuûa thoâng tin Sinh hoïc. Genomics. Thoáng keâ. Toán học. Tóm lại, thuật ngữ bioinformatics có thể định nghĩa một cách ngắn gọn là sự kết hợp giữa Công nghệ Sinh học và Công nghệ Thông tin với mục tiêu giúp hiểu biết và khám phá những nguyên lý trong Sinh học (NCBI).. 3.

<span class='text_page_counter'>(5)</span> 2. Nội dung thực tập Bioinformatics Nội dung thực tập Bioinformatics dành cho sinh viên năm thứ III, ngành Công ngheä Sinh hoïc, bao goàm: - Giới thiệu về các cơ sở dữ liệu sinh học trên mạng Internet và cách thức khai thác các cơ sở dữ liệu này phục vụ cho nghiên cứu. - Laøm quen moät soá coâng cuï phaàn meàm phaân tích gen. Sau khi hoàn thành khóa học, sinh viên phải nắm vững một số kiến thức cơ bản về cách thức tìm kiếm và xử lý dữ liệu sinh học . Trong quá trình thực tập, hầu hết nội dung yêu cầu thực hiện truy cập thông tin trên mạng Internet (với ngôn ngữ sử dụng chủ yếu là tiếng Anh) nên có khá nhiều thuật ngữ tin học, sinh học cũng như cách thức giao tiếp vẫn giữ nguyên thuật ngữ tieáng Anh. 3. Sử dụng mạng Internet trong đợt thực tập Vì không phải tất cả mọi người đều đã có kinh nghiệm sử dụng Internet, do đó chúng ta bắt đầu với phần giới thiệu ngắn về mạng Internet. Mạng Internet là một hệ thống mạng toàn cầu có khả năng liên kết các máy tính khác nhau trên thế giới. Khi tham gia vaøo heä thoáng maïng Internet chuùng ta coù theå tham khaûo caùc taøi nguyeân chia sẻ trên các máy tính (nơi lưu trữ thông tin) thuộc mọi lĩnh vực: khoa học, văn hóa, giáo dục, thể thao, giải trí… Trong đợt thực tập này, để làm việc trên mạng Internet, chúng ta sẽ sử dụng phần mềm Microsoft Internet Explorer của hãng Microsoft (hoặc có thể dùng phần mềm Netscape với những chức năng tương tự). Yêu cầu đối với sinh viên là phải có những kiến thức cơ bản về máy tính (làm việc với máy tính trong môi trường Windows). Để vào chương trình Microsoft Internet Explorer, chúng ta thực hiện tuần tự các bước sau: • Tìm biểu tượng của Internet Explorer trên Desktop và nhấn đúp (double clicking) bằng nút chuột trái để mở cửa sổ trình duyệt Web. Hoặc nhấn phím Start choïn Programs, roài choïn Internet Explorer. • Địa chỉ tìm kiếm được nhập vào tại khung Address và nhấn Enter↵. Internet Explorer sẽ kết nối máy tính chúng ta với mạng vào địa chỉ đã nhập. Biểu tượng trên góc phải màn hình thể hiện hoạt động kết nối Internet: Ñang keát noái Kết nối xong hoặc bị gián đoạn. 4.

<span class='text_page_counter'>(6)</span> Mạng Internet là một mạng máy tính toàn cầu với hơn 150 triệu máy tính (tháng 1/2002) liên lạc với nhau thông thường qua giao thức TCP/IP (Transfer Control Protocol/Internet protocol). Các máy tính được nhận diện và kết nối với mạng Internet thoâng qua ñòa chæ internet (Internet protocol - IP) cuûa noù coù daïng daõy soá goàm 4 số phân cách bởi dấu chấm (ví dụ 172.69.145.21). Bốn dịch vụ chính có thể sử dụng trên mạng là: thư điện tử (e-mail), đăng nhập từ xa (telnet), chuyển tập tin (file transfer protocol, FTP) và World Wide Web (hay còn gọi là giao thức truyền siêu văn bản - hypertext transfer protocol, HTTP). World Wide Web cho phép người sử dụng các trình duyệt định vị và xem thông tin từ hơn 40 triệu dịch vụ web trên toàn thế giới (tháng 3/2002). Các tài liệu siêu văn bản có thể thể chứa hình ảnh, âm thanh, văn bản text… và có thể dễ dàng liên kết với các trang siêu văn bản khác. Địa chỉ định vị các taøi lieäu sieâu vaên baûn laø moät ñòa chæ duy nhaát (URL – Uniform Resource Locator) coù daïng service://hostname:port/file (dòch vuï://teân maùy chuû: coång/file). Service hostname port /file. : Teân dòch vuï ñang truy caäp (ftp, http, gopher, telnet, mailto) : Địa chỉ IP hoặc tên miền nơi định vị của thông tin : Coång treân maùy phuïc vuï, maëc ñònh laø 80, nhöng cuõng coù khi laø 8000 hay 8080 : Tên thật của tập tin trên máy tính được tham chiếu bởi máy phục vụ. Ví duï veà ñòa chæ WWW: Các trang web là nơi chứa đựng thông tin thường xây dựng bằng ngôn ngữ siêu văn bản và có sử dụng các liên kết đến các trang khác. Các liên kết thường được thể hiện bằng những dòng chữ bị đổi màu chữ khi ta di chuyển đến và con trỏ biến thaønh daáu hieäu . Khi nhập địa chỉ liên kết đến các vị trí trang web (web site) phải đánh dòng văn bản với đầy đủ các ký tự, có sự phân biệt giữa chữ thường và chữ hoa. Nôi nhaäp ñòa chæ. Noäi dung trang web. 5.

<span class='text_page_counter'>(7)</span> Khi sử dụng phần mềm Internet Explorer để xem (duyệt) trang web, chúng ta có thể lưu lại các địa chỉ khi đã “ghé thăm” bằng cách sử dụng chức năng Add to favourites… trên thanh Explorer bar khi đang ở trang web “ưa thích”. Những lần truy cập sau, chúng ta chỉ cần nhấn vào tên trang web trong menu Favourites để vào trang web öa thích maø khoâng phaûi nhaäp laïi ñòa chæ Internet. Sử dụng những nút Back hoặc Forward để trở lại hoặc tiếp tục mở lại trang web phía trước; các nút Stop và Refesh để tạm dừng truy cập hay thực hiện “làm tươi” nội dung trang web baèng caùch truy caäp laïi ñòa chæ Internet naøy. 4. Một số thuật ngữ sinh – tin học thường gặp trên mạng internet Thuật ngữ Sinh học Accession Alignment. Mã số truy cập trong các cơ sở dữ liệu sinh học (Genbank…) Sắp gióng cột hai hay nhiều trình tự nhằm xác định độ tương đồng giữa chúng. bp (base pair) caëp base. cDNA (complementary DNA) mạch đơn bổ sung cho RNA và được tồng hợp từ khuôn nhờ enzyme phiên mã ngược. Cloning Kỹ thuật tạo ra tập hợp các tế bào hoặc phân tử giống hệt nhau cùng bắt nguồn từ một tế bào hay một phân tử ban đầu. Codon Boä ba nucleotide maõ hoùa cho moät acid amin hay moät “daáu hieäu” baét đầu hay kết thúc dịch mã. DNA sequencing Trình tự A, T, G, C của acid deoxyribonucleic (DNA). Downstream Đầu 3’ của trình tự nucleotide. Exon Một phần của một gen gián đoạn (gen tồn tại ở eukaryote), có mặt trong phân tử RNA trưởng thành. Gene Đoạn DNA (gen) tham gia vào việc hình thành một sợi polypeptide; gen bao gồm các vùng nằm trước và sau vùng mã hóa và cả trình tự (intron) nằm giữa các phần mã hóa. gi Dãy số hiệu của mỗi trình tự quy định theo sắp xếp của NCBI. Hairpin Vùng xoắn kép hình thành từ sự bắt cặp bổ sung giữa hai trình tự bổ sung nằm kề nhau trên một phân tử DNA hay RNA mạch đơn (cấu truùc keïp toùc). Intron Đoạn DNA được phiên mã nhưng bị loại bỏ trong quá trình trưởng thành của RNA, không có mặt ở phân tử RNA trưởng thành. Molecular hybridization Quá trình trong đó hai mạch acid nucleic bổ sung (A-T, G-C) bắt cặp hình thành nên mạch kép; kỹ thuật hữu hiệu để phát hiện một trình tự nucleotide chuyên biệt (lai phân tử).. 6.

<span class='text_page_counter'>(8)</span> Operon. Đơn vị biểu hiện và điều hòa gen ở vi khuẩn, bao gồm các gen cấu truùc naèm caïnh nhau vaø caùc nhaân toá ñieàu hoøa, caùc gen caáu truùc naøy cùng chịu những tác động điều hòa như nhau. PCR (Polymerase Chain Reaction) kỹ thuật dùng để khuếch đại nhiều bản sao của một trình tự DNA đích nhờ DNA polymerase. ORF (Open Reading Frame) khung đọc mở khi dịch mã cho ra một trình tự amino acid hoàn chỉnh. Plasmid DNA dạng vòng, nằm ngoài nhiễm sắc thể và có khả năng tự sao chép độc lập. Primer Trình tự DNA hay RNA ngắn, bắt cặp với một mạch khuôn DNA và có mang đầu 3’OH tự do giúp DNA polymerase bắt đầu tổng hợp mạch mới. Promoter Trình tự trên phân tử DNA, nơi RNA polymerase gắn vào để khởi động phiên mã. Redundancy Sự có mặt của nhiều mẩu tin dư thừa (thường là trình tự). Trong Bioinformatics, đó là sự liên quan của những trình tự giống nhau trong cùng một cơ sở dữ liệu. Restriction enzyme (RE) Enzyme nhận biết một trình tự DNA ngắn chuyên biệt và cắt mạch keùp DNA. Restriction map Bản đồ vị trí nhận biết của tất cả các enzyme cắt giới hạn trên một trình tự DNA. RNA sequencing Trình tự A, U, G, C của acid ribonucleic (RNA). Splicing Sự loại bỏ các intron và nối liền các exon ở RNA trong quá trình trưởng thành sau phiên mã. Tm (Melting temperature) nhiệt độ mà ở đó một nửa số phân tử của trình tự đó bị biến tính (nhiệt độ nóng chảy của một trình tự). Transcription Sự tổng hợp RNA từ khuôn DNA. Translation Sự tổng hợp protein từ khuôn mRNA (sự dịch mã). Upstream Đầu 5’ của trình tự nucleotide. Vector Trong kỹ thuật tạo dòng (cloning), là plasmid hay phage dùng để chuyên chở một đoạn DNA lạ gắn vào đó với mục đích tạo ra một lượng bản sao lớn hay một sản phẩm protein từ đoạn DNA này. Thuật ngữ Tin học Acrobat. BLAST. Hoï caùc coâng cuï cuûa coâng ty Adobe cho pheùp nhaø xuaát baûn dòch caùc tập tin Postscript thành Portable Document Format (PDF) và người dùng có thể xem trên trên các nền thông thường của máy. (Basic Local Alignment Search Tool) moät coâng cuï tìm kieám nhanh những trình tự tương đồng trong một cơ sở dữ liệu.. 7.

<span class='text_page_counter'>(9)</span> Browser. Browser Download FAQs FASTA Freeware FTP Gap Gateway Gopher Homepage HTML. Internet IP address LAN Login Netquette Offline Online Query Shareware URL WWW. Công cụ cho phép người dùng quét một danh sách tập tin hoặc tìm một mục riêng nào đó. Trong WWW (World-Wide-Web), browser được hiểu là phần mềm cho phép duyệt qua những tư liệu trên Web. Một trình duyệt web (Web Browser) hỗ trợ các đồ họa, âm thanh và video. Tải tập tin xuống máy tính, truyền các tập tin từ một máy tính sang moät maùy tính khaùc. Những câu hỏi được yêu cầu thường xuyên (Frequently Asked Questions). Chương trình tìm kiếm trình tự tương đồng được dùng rộng rãi đầu tieân. Phần mềm sử dụng miễn phí và có thể tải về máy tính cá nhân. Giao thức chuẩn dùng để gởi tập tin (File Transfer Protocol) từ một máy này đến một máy khác trên mạng TCP/IP như Internet. Khoảng trống được đưa vào khi so sánh các trình tự với nhau nhằm làm tăng độ tương đồng giữa chúng. Dịch vụ dịch thông điệp giữa những giao thức khác nhau. Hệ menu phân cấp dùng để gởi tài liệu trên Internet. Trang đầu của một server World-Wide-Web hay tài liệu gốc mô tả một tổ chức (cá nhân) được cung cấp thông qua user. Ngôn ngữ đánh dấu siêu văn bản (The HyperText Markup Language) dùng để mô tả các tài liệu truyền thông qua WWW. HTML cho phép một tài liệu có thể chứa các liên kết đến một tài liệu khaùc, cung caáp cho WWW khaû naêng Hypertext (vaø hypermedia). Bất kỳ mạng nào của hệ thống mạng liên kết trên thế giới. Soá duy nhaát gaùn cho moät maùy maïng TCP/IP. (Local Area Network) mạng phủ trên một vùng địa lý tương đối nhỏ (moät vaên phoøng, moät taàng hay moät toøa nhaø…). Thủ tục khởi nhập một liên kết với máy chủ của người sử dụng mạng (thường gồm yêu cầu về tên và mật khẩu). Những nguyên tắc xã giao chủ đạo trong truyền thông trên mạng Internet. Khi không sử dụng kết nối đó nữa. Khi sử dụng kết nối với một máy tính khác. Khung nhập trình tự (hoặc những loại thuật ngữ tìm kiếm khác) Phần mềm cho phép tải và sử dụng miễn phí nhưng nếu muốn dùng tiếp thì phải trả cho tác giả một khoản tiền danh dự nhỏ. (Uniform Resource Locator – định danh tài nguyên đồng nhất) hệ thống ghi địa chỉ được web sử dụng. (World Wide Web) Phương tiện định vị trên Internet bằng cách sử duïng sieâu lieân keát. Ví duï 8.

<span class='text_page_counter'>(10)</span> 5. Taøi lieäu tham khaûo 1. Cynthia Gibas &Per Jabeck. 2001. Developing Bioinformatics Computer Skills. O’Reilly & Associates, Inc., USA. 2. Gunter Kahl. 1995. Dictionary of Gene Technology. VCH Verlagsgesellschaft mbH, Germany. 3. Hồ Huỳnh Thùy Dương. 1998. Sinh học phân tử, NXB Giáo dục. 4. Institute of Technical Biochemistry, 2002. Bioinformatics tools for Biologists, University of Stutgartt, Germany. 5. National Center for Biotechnology Information, NCBI. 10/2001. USA. 6. Neil F., Peadar OÙ G. 2001. Bioinformatics programme, 4th Molecular Biology Workshop, HCMC, Vietnam.. 9.

<span class='text_page_counter'>(11)</span> PHAÀN I KHAI THÁC DỮ LIỆU SINH HOÏC QUA MAÏNG INTERNET. 10.

<span class='text_page_counter'>(12)</span> Baøi 1.. CƠ SỞ DỮ LIỆU SINH HỌC TRÊN MẠNG INTERNET 1. Muïc ñích, nguyeân taéc Công việc đầu tiên khi chúng ta bắt tay vào công việc nghiên cứu là tập hợp và xử lý thông tin về lĩnh vực nghiên cứu mình quan tâm. Để làm được chuyện này, ngoài cách tiếp cận truyền thống là vào thư viện, chúng ta còn có thể khai thác kho dữ liệu thông tin phong phú trên mạng Internet (World Wide Web). Ở đây luôn có một lượng lớn thông tin Sinh học đa dạng và cập nhật có thể tham khảo và sử dụng trong nghiên cứu. Các thông tin này thuộc nhiều lĩnh vực khác nhau như: sinh học phân tử, sinh hóa, sinh học tế bào, di truyền học… Trên thế giới có rất nhiều hệ thống các nhóm nghiên cứu sinh học hoạt động trên nhiều lĩnh vực khác nhau. Các thông tin sinh học thu thập được từ hoạt động của các nhóm này ngày càng nhiều, nhất là từ khi Công nghệ Sinh học có những bước tiến bộ vượt bậc. Từ thực tế này đã xuất hiện nhu cầu cần quản lý, hợp tác và trao đổi thông tin sinh học với sự trợ giúp của Công nghệ Thông tin, ngành kỹ thuật mũi nhọn trong thời đại công nghệ tri thức. Các cơ sở dữ liệu sinh học trên thế giới ra đời từ đó với mục đích giúp các nhà sinh học có điều kiện quản lý, khai thác, trao đổi thông tin nghiên cứu của kho dữ liệu sinh học khổng lồ của sự sống trên hành tinh này. 2. Khai thác và xử lý thông tin Sinh học Hiện nay, có rất nhiều dạng cơ sở dữ liệu thuộc nhiều lĩnh vực sinh học khác nhau (dữ liệu về môi trường, đa dạng sinh học, đa dạng di truyền; dữ liệu về nguồn gen: DNA, RNA; dữ liệu về protein: trình tự, cấu trúc, chức năng…). Trong đó, dữ liệu về sinh học phân tử luôn chiếm ưu thế do đặc thù thông tin trong nghiên cứu của lĩnh vực này. Chúng ta có thể khai thác các dữ liệu sinh học phân tử bằng cách thông qua mạng Internet liên kết đến các máy tính chủ (server) lưu trữ các trình tự DNA của hàng ngàn gen thuộc hàng trăm loài khác nhau, trình tự protein có nguồn gốc từ những trình tự DNA này, trình tự bộ gen (genome) của nhiều loài (bao gồm cả bản thảo của trình tự bộ gen người), rất nhiều ấn phẩm điện tử (sách, báo, tạp chí…) và những thông tin khác phục vụ cho mục đích nghiên cứu. Ngoài ra, còn có nhiều địa chỉ giới thiệu các nhóm nghiên cứu về các vấn đề sinh học chuyên ngành, các chương trình phần mềm dùng để phân tích các trình tự sinh học trên Internet. Chúng ta có thể sử dụng trực tiếp trên Internet hoặc chép (download) các phần mềm miễn phí này về máy tính của mình. Phần lớn các thông tin này được sử dụng miễn phí. Tuy nhiên, có một số thông tin được bảo vệ bằng luật bản quyền và không thể sử dụng miễn phí.. 11.

<span class='text_page_counter'>(13)</span> Trong phần I, chúng ta sẽ làm quen với nhiều cách tìm kiếm những thông tin sinh học trên mạng Internet thông qua các trang web tìm kiếm thông tin hoặc các cơ sở dữ liệu sinh học lớn trên thế giới. Thông tin tìm kiếm được quan tâm là các bài báo khoa học và các trình tự nucleic acid hay protein. Tùy từng trường hợp cụ thể mà chúng ta có thể xác định đối tượng và mở rộng phạm vi tìm kiếm đến những lĩnh vực khác với nguyên tắc tương tự. Thoâng tin sinh hoïc treân maïng Internet coù nhieàu daïng, chuû yeáu laø caùc daïng dạng trang web (HTM, HTML), dạng tạp chí điện tử, các bài báo lưu trữ (PDF) hoặc các dạng cơ sở dữ liệu tr2inh tự sinh học (trình tự DNA, protein…). Để khai thác các thông tin này chúng ta cần phải biết lựa chọn cơ sở dữ liệu, cách thức truy cập và sử dụng công cụ tìm kiếm và xử lý những thông tin này phù hợp với yêu cầu công việc. Chương trình thực tập khai thác thông tin sinh học qua mạng Internet bao gồm caùc noäi dung: • • •. Tìm kiếm các dạng dữ liệu trình tự sinh học và các thông tin sinh học khác có liên quan (chủ yếu về sinh học phân tử). Địa chỉ Internet để tìm kiếm các thông tin này. Giải quyết các câu hỏi làm thế nào để: - Truy cập thông tin có liên quan (ấn phẩm, cấu trúc, trình tự liên quan)? - Truy cập trình tự DNA và protein trong các cơ sở dữ liệu trình tự sinh học?- Phân tích trình tự sinh học bằng các chương trình trên Internet?. Chúng ta sẽ download các trình tự Sinh học và phân tích chúng bằng nhiều chương trình khác nhau. Các chương trình này hầu hết là những phần mềm hoặc trang web miễn phí. Như vậy, sau đợt thực tập, các bạn có thể thực hiện việc tìm kiếm và phaân tích thoâng tin sinh hoïc baèng baát kyø maùy tính naøo noái maïng Internet.. 12.

<span class='text_page_counter'>(14)</span> Baøi 2.. TÌM KIEÁM THOÂNG TIN TREÂN MAÏNG INTERNET 1. Muïc ñích, nguyeân taéc Để tìm kiếm thông tin trên mạng Internet, chúng ta có thể sử dụng nhiều công cụ tìm kiếm khác nhau. Việc tiếp cận các thông tin thường được thực hiện bằng cách xác định nội dung chính cần tìm kiếm, lựa chọn công cụ tìm kiếm, xác định phạm vi thực hiện tìm kiếm và chọn lọc thông tin (loại bỏ những thông tin không cần thiết). Công việc tìm kiếm thông tin sẽ trở nên nhẹ nhàng hơn khi ta nắm vững một số nguyên tắc giới hạn tìm kiếm và lọc thông tin. Sơ đồ nguyên tắc tìm kiếm thường sử dụng là:. Thoâng tin caàn tìm. Xaùc ñònh từ khóa. Choïn caùch tìm kieám. Loïc thoâng tin. KEÁT QUAÛ CAÀN TÌM. 2. Công cụ và cách sử dụng Để tìm kiếm những thông tin này, thông thường chúng ta phải xác định một từ hay một nhóm từ khóa (keyword) mang nội dung chủ yếu hay quan trọng nhất của vấn đề quan tâm. Sau đó sử dụng các công cụ tìm kiếm trên mạng để tìm đến các địa chỉ lưu trữ những thông tin cần thiết hoặc những thông tin liên quan. Sử dụng các chức năng chọn lọc thông tin của các công cụ để hạn chế việc tiếp nhận những thông tin khoâng lieân quan. Ví duï thoâng tin: “PCR for detection of Listeria monocytogenes in food samples”, trong trường hợp này có thể xác định các từ khóa là: PCR, monocytogenes. Sau khi xác định được từ khóa, ta thường phải xác định phạm vi tìm kiếm để lựa chọn những công cụ thích hợp. Nếu chúng ta cần tìm thông tin tổng hợp về lĩnh vực này thì có thể bắt đầu tìm kiếm thông tin ở những trang web. Các công cụ tìm kiếm có thể là những trang tìm kiếm trên mạng (AltaVista, EuroSeek, Lycos, GOTO, Yahoo…) hoặc những phần mềm tìm kiếm trên mạng Internet. Nhập từ khóa vào hộp yêu cầu và nhấn Enter↵ hoặc nút tìm kiếm (Go, Search…). Nguyên tắc chung của việc nhập từ khóa là: - Để tìm thông tin có nhiều từ khóa ta nhập tuần tự các từ khóa và phân cách giữa các từ bằng khoảng trắng (dùng spacebar).. 13.

<span class='text_page_counter'>(15)</span> - Để tìm thông tin chứa một cụm từ khóa ta thường đặt chúng trong dấu ngoặc kép (“”), các từ thường dùng (for, of, in, to…) có thể được loại bỏ. Ví dụ: PCR detection, Listeria cho kết quả khác với “PCR for detection of Listeria” Tuy nhiên hiệu quả thực hiện tìm kiếm tại các trang web lớn, đa chức năng thường không cao (do chúng phải chia sẻ cho các chức năng khác bên cạnh chức năng tìm kiếm). Kết quả tìm kiếm dạng này thường quá lớn (do chức năng lọc thông tin không mạnh), mất nhiều thời gian (thường phải tải kèm hình ảnh quảng cáo), dễ bị gián đoạn (do quá tải ở trang chủ)... Để tăng hiệu quả tìm kiếm, chúng ta có thể sử dụng những trang tìm kiếm nhỏ gọn và chuyên nghiệp hơn (ví dụ Google, All The Web). Các trang này thường có nhiều chức năng tìm kiếm chuyên biệt, khả năng chọn lọc thông tin mạnh (Advanced Search), tìm được nhiều địa chỉ.. Giới hạn kết quaû xuaát hieän Nhập từ tìm kieám. Giới hạn ngôn ngữ, phaïm vi tìm kieám. Một giải pháp khác để tìm kiếm thông tin là sử dụng các phần mềm tìm kiếm thông tin. Các phần mềm này thường sử dụng cùng lúc nhiều trang tìm kiếm trên mạng (ví dụ phần mềm WebFerret, Copernic). Cách tìm kiếm này thường cho hiệu quả rất cao, có thể tìm rất nhiều địa chỉ liên quan đến thông tin ta quan tâm, nhưng thông tin thường không tập trung.. 14.

<span class='text_page_counter'>(16)</span> Tuy nhiên, nếu chúng ta chỉ quan tâm đến những thông tin khoa học sinh học đáng tin cậy, thường là những bài báo khoa học, thì việc tìm kiếm sẽ có hiệu quả cao nhất khi ta tìm kiếm thông tin trong những tạp chí khoa học chuyên ngành trên mạng Internet (ví dụ tạp chí Applied Environmental Microbiology), hoặc những cơ sở dữ lieäu thoâng tin veà Sinh hoïc (NCBI, Medscape, BioMedNet…).. Soá taäp xuaát baûn, trang đầu tiên của baøi baùo. Giới hạn phaïm vi tìm kieám vaø keát quaû theå hieän. Teân taùc giaû và từ khóa tìm kieám. Trong đợt thực tập này chúng ta sẽ tìm kiếm thông tin bằng cách sử dụng cơ sở dữ liệu trong trang chủ NCBI (National Center for Biotechnology Information NCBI, USA) tại địa chỉ Internet là Khi truy cập vào địa chæ naøy, chuùng ta seõ nhìn thaáy moät trang chuû daïng nhö sau:. 15.

<span class='text_page_counter'>(17)</span> Chúng ta thực hiện tìm kiếm thông tin sinh học trong trang Entrez. Trang Entrez laø moät trang web cuûa NCBI. • Nhấn dòng chữ Entrez để vào trang Entrez. Trong Entrez, bạn có thể tìm kiếm nhiều dạng cơ sở dữ liệu khác nhau. Mỗi cơ sở dữ liệu là một liên kết được biểu thị bằng dòng văn bản được đổi màu khi ta di chuyển đến. Ví dụ: PubMed, Protein.... Khung nhaäp yeâu caàu. Các cơ sở dữ lieäu thuoäc trang Entrez. Các dòng văn bản đổi màu được gọi là các liên kết siêu văn bản (hay liên kết) và thường mở ra một trang mới khi ta nhấn vào. Trong Entrez chúng ta có thể nhập vào những yêu cầu tìm kiếm cơ sở dữ liệu về các bài báo thuộc lĩnh vực Y – Sinh học (PubMed), trình tự nucleic acid (Nucleotide), trình tự protein (Protein), cấu trúc 3 chiều (Structure), bộ gen (Genome)… Ở đây, chúng ta sử dụng trang PubMed để tìm kieám caùc baøi baùo veà thoâng tin Y - Sinh hoïc. Ví dụ chúng ta quan tâm bài báo có tựa đề “Isolation and characterization of Escherichia coli O157:H7 from retail meats in Argentina”. Taùc giaû: Chinen I, Tanaro JD, Miliwebsky E, Lound LH, Chillemi G, Ledri S, Baschkier A, Scarpin M, Manfredi E, Rivas M. Chúng ta có thể chọn lựa từ khóa là “O157:H7”, “Argentina” (tựa đề) và “Chinen” (tên tác giả).. 16.

<span class='text_page_counter'>(18)</span> • • •. Chọn cơ sở dữ liệu là PubMed ở khung Search. Nhập từ khóa cần tìm kiếm vào khung yêu cầu (for oooo ) Ấn phím Go hoặc nhấn Enter↵.. Kết quả sẽ xuất hiện sau vài phút (hoặc lâu hơn) dưới dạng một danh sách các mục bài (entries, hits) với tên tác giả, tựa đề bài báo, tên tạp chí, năm xuất bản... Nhấn vào dòng tên tác giả để xem chi tiết tóm tắt từng mục bài.. Tựa đề bài báo. Teân taùc giaû. Thay đổi kiểu thể hiện kết quả bằng cách chọn kiểu thể hiện ở menu Display (Summary, Brief, Abstract, Citation, ASN.1, MEDLINE…). Để tìm chính xác các từ khóa, chúng ta có thể sử dụng toán tử Boolean (AND, OR, NOT) và dùng thẻ (tag) trong ngoặc vuông ([ ]) đặt sau từ khóa để giới hạn phạm vi tìm kiếm từ khóa đó. Dưới đây là một số thẻ thông dụng. Theû [AB] [AU] [DP] [CY] [IP] [IS] [LA] [PG] [TI] [VI]. Giới hạn phạm vi tìm kiếm Toùm taét - abstract Teân taùc giaû - author name Ngaøy xuaát baûn - publication date Nôi phaùt xuaát baûn taïp chí - country Soá phaùt haønh cuûa taïp chí International Standard Serial Number of Journal (ISSN) Ngôn ngữ của bài báo - language Soá trang - page number Tựa đề - title word Taäp (soá) - volume. 17.

<span class='text_page_counter'>(19)</span> Ví dụ: "DNA microarray"[ti] AND Curtis[au] 2002[dp] nghĩa là: tìm bài báo có chữ DNA microarray (trong tựa đề bài báo) của tác giả Curtis năm 2002 Lưu ý: khi tìm kiếm, để tìm một cụm từ (phrase) thì chúng phải được đặt trong dấu ngoặc kép (“”). Entrez tự động hiểu có toán tử AND giữa các từ cách nhau bằng khoảng trắng (không nằm trong dấu ngoặc kép). Ví dụ: protein SSB tương đương với protein AND SSB và khác với “protein SSB”. 3. Thực hành Sinh viên thực hành tìm bài báo có tựa đề: “Cloning and characterization of two promoters for the human Hsal 2 gene and their transcriptional repression by the Wilms tumor suppressor gene product” Taùc giaû: Ma Y, Li D, Chai L, Luciani AM, Ford D, Morgan J, Maizel AL Ta thực hiện chọn lựa từ khóa là “Cloning” (tựa đề) và “Ma” (tên tác giả). Chúng ta thực hiện tìm kiếm bài bào này trên PubMed bằng nhiều cách khác nhau. Đầu tiên thực hiện tìm những bài báo có từ “Cloning” và từ “Ma”. • •. Nhaäp vaøo khung for doøng “Cloning[TI] AND Ma[AU]”. Nhấn phím Go hoặc nhấn Enter↵.. Câu hỏi: Có bao nhiêu mục bài được tìm thấy? Trả lời: Bây giờ nếu biết thêm thông tin bài báo trên xuất bản năm 2001. Câu hỏi: Phải nhập vào trình tự tìm kiếm là gì để tìm được chính xác bài báo ta cần? Có bao nhiêu bài báo tìm được? Trả lời:. Trong trang PubMed, thử tìm và phân biệt hai trường hợp khi tìm bài báo với yêu cầu là LT AND gene và “LT gene” (trong ngoặc kép). Câu hỏi: Số bài tìm được của mỗi cách là bao nhiêu? Có gì khác nhau giữa hai cách tìm này? Trả lời:. 18.

<span class='text_page_counter'>(20)</span> Baøi 3.. TÌM KIẾM CÁC TRÌNH TỰ SINH HỌC 1. Muïc ñích, nguyeân taéc Trong nghiên cứu sinh học phân tử, chúng ta thường xuyên phải làm việc trên các đối tượng là nucleic acid (DNA) và protein. Đây là các dạng trình tự sinh học được lưu trữ phổ biến trong các cơ sở dữ liệu sinh học. Hiện nay, các thông tin này được lưu trữ chủ yếu trong các cơ sở dữ liệu lớn trên thế giới như hệ thống GenBank (NCBI, USA), EMBL (European Molecular Biology Laboratory, UK), DDBJ (DNA Database of Japan, JP) và một số hệ thống cơ sở dữ liệu khác trên thế giới. Thông tin trong các cơ sở dữ liệu này rất lớn và luôn được cập nhật thường xuyên (sau mỗi 24 giờ). Ví dụ cơ sở dữ liệu về nucleotide của Genbank (NCBI) hiện nay chứa trên 13 tỉ base của trên 100 ngàn loài. Con số này luôn tăng theo số mũ và dự tính gia tăng lên gấp đôi trung bình sau mỗi 14 tháng (10/2001). Để tìm những trình tự sinh học này, chúng ta sử dụng công cụ tìm kiếm Entrez Nucleotide (tìm trình tự DNA) hoặc Entrez Protein (tìm trình tự protein). 2. Công cụ và cách sử dụng 2.1. Tìm trình tự DNA Để tìm những trình tự DNA ta sử dụng Entrez Nucleotide để tìm kiếm trong hệ thống cơ sở dữ liệu về trình tự DNA. Các cơ sở dữ liệu này bao gồm hệ thống GenBank (NCBI, USA) và liên kết với cơ sở dữ liệu của EMBL, DDBJ và một số hệ thống dữ liệu khác trên thế giới. Từ trang PubMed, nhấn vào dòng Nucleotide để đưa ta đến trang Entrez Nucleotide. Nhập vào yêu cầu (thường là tên gen như: “luc gene”, “ST gene”,…) và nhấn nút Go (hoặc nhấn Enter↵). Kết quả sẽ xuất hiện một danh sách trình tự DNA tương tự như sau:. • • •. Caùc muïc baøi tìm được. •. Nhấn vào các mục bài để xem chi tiết trình tự DNA. 19.

<span class='text_page_counter'>(21)</span> 2.2. Tìm trình tự Protein. Để tìm trình tự protein, cũng tương tự việc tìm kiếm trình tự DNA. Việc tìm kiếm trình tự protein cũng được thực hiện trong hệ thống Genbank, EMBL và DDBJ. • • • •. Nhấn vào dòng Protein trong trang Entrez để mở trang Entrez Protein. Nhập vào yêu cầu (thường là tên protein như: “SSB”, “ST”,…) và nhấn nút Go (hoặc nhấn Enter↵). Sau vài phút, kết quả sẽ xuất hiện một danh sách trình tự protein tương tự như trường hợp DNA. Nhấn vào mã số truy cập của các mục bài để xem chi tiết trình tự protein.. Teân taùc giaû vaø taïp chí ñaêng taûi. Trình tự protein. 3. Thực hành 3.1. Tìm trình tự DNA Chúng ta thực tập tìm kiếm trình tự gen có tên là LT. • • •. Từ trang PubMed, nhấn vào dòng Nucleotide để đưa ta đến trang Entrez Nucleotide. Nhập vào yêu cầu là ( “LT gene” và nhấn nút Go (hoặc nhấn Enter↵). Sau vài phút, kết quả sẽ xuất hiện một danh sách trình tự DNA.. Kết quả tìm kiếm sẽ thể hiện số lượng các mục bài (entries, hits) có liên quan đến trình tự gen LT.. 20.

<span class='text_page_counter'>(22)</span> Câu hỏi: Có bao nhiêu mục bài có liên quan đến trình tự gen LT được tìm thấy? Trả lời: Để thay đổi kiểu thể hiện kết quả ta có thể thay đổi dạng trình bày bằng cách chọn kiểu thể hiện ở menu Display (Summary, Brief, ASN.1, FASTA, GenBank, GI list…). • Nhấn lên phần số của bất kỳ mục bài nào, ta sẽ nhận được mô tả chi tiết của mục này liên quan đến trình tự DNA, trình tự protein đã được dịch mã, tên tác giả và những thông tin cần thiết khác (vùng promoter, peptide tín hiệu…). Dạng thể hiện những mô tả này là kiểu Genbank. • Trở lại trang Entrez Nucleotide và nhập trình tự tìm kiếm là “D00102” và nhaán Go. Câu hỏi: Kết quả có bao nhiêu mục được tìm thấy? Trả lời: •. Tiếp tục nhấn vào dòng D00102 để xem chi tiết mục bài này.. Câu hỏi: Trình tự DNA này dài bao nhiêu? Noù maõ hoùa cho gen gì? Công trình này được đăng tải bởi tạp chí nào? Taùc giaû laø ai? Trả lời:. 21.

<span class='text_page_counter'>(23)</span> Cách mã hoá dùng trong trình tự acid nucleic: A C G T U R Y K. --> --> --> --> --> --> --> -->. adenosine cytidine guanine thymidine uridine G A (purine) T C (pyrimidine) G T (keto). M S W B D H V N -. --> --> --> --> --> --> --> --> gap. A C (amino) G C (strong) A T (weak) G T C G A T A C T G C A A G C T (any) of indeterminate length. 3.2. Tìm trình tự Protein •. Trở về trang Entrez hoặc từ trang Entrez Nucleotide, nhấn vào dòng Protein để mở trang Entrez Protein.. Trang Entrez protein seõ xuaát hieän coù daïng:. Chúng ta thực tập tìm kiếm trình tự protein là độc tố bền nhiệt có tên là ST (ST toxin). •. Nhập dòng “ST toxin” vào khung yêu cầu, nhấn Go, và chờ kết quả.. 22.

<span class='text_page_counter'>(24)</span> Thực hiện tìm hiểu chi tiết các mục bài vừa tìm kiếm được bằng cách nhấn lên các mã số mục bài (tương tự cách dùng với trình tự DNA).. Câu hỏi: Có bao nhiêu mục bài liên quan đến trình tự protein yêu cầu được tìm thaáy? Trình tự protein ST toxin chủ yếu liên quan đến loài nào? Ñaëc ñieåm cuûa protein naøy? Trả lời:. Cách mã hóa dùng trong trình tự amino acid: A B C D E F G H I K L M N. alanine aspartate or asparagine cystine aspartate glutamate phenylalanine glycine histidine isoleucine lysine leucine methionine asparagine. P proline Q glutamine R arginine S serine T threonine U selenocysteine V valine W tryptophan Y tyrosine Z glutamate, glutamine X any * translation stop - gap of indeterminate length. 23.

<span class='text_page_counter'>(25)</span> Baøi 4.. TÌM KIẾM CÁC TRÌNH TỰ TƯƠNG ĐỒNG 1. Muïc ñích, nguyeân taéc Một chương trình tìm kiếm và so sánh trình tự tương đồng được nhiều người duøng nhaát hieän nay coù teân laø BLAST (Basic Local Alignment Search Tool). Chöông trình này thực hiện so sánh trình tự DNA và protein nhập vào với những trình tự trong các cơ sở dữ liệu (GenBank, EMBL…) và lựa chọn các trình tự có mức độ tương đồng từ cao đến thấp. Chúng ta dùng BLASTù khi có câu hỏi đặt ra “Liệu có trình tự nào trong ngân hàng dữ liệu giống hoặc gần giống với trình tự của bạn không?”. Chương trình BLAST giúp chúng ta nhanh chóng tìm ra những trình tự sinh học tương đồng (nếu có) với trình tự bạn yêu cầu. Ngoài ra, BLAST còn cung cấp cho bạn những số liệu về tỉ tệ tương đồng, nguồn gốc các trình tự tương đồng… 2. Công cụ và cách sử dụng Để truy cập vào trang BLAST, chúng ta nhấn vào dòng BLAST trong trang chủ của NCBI. Chúng ta có thể thực hiện tìm kiếm trình tự tương đồng DNA (Nucleotide Nucleotide BLAST) hoặc protein (Protein – Protein BLAST).. 24.

<span class='text_page_counter'>(26)</span> 2.1. Nucleotide – Nucleotide BLAST Mở chương trình BLAST bằng cách nhấn vào dòng BLAST trong các trang của NCBI. •. Mở chương trình Nucleotide BLAST bằng cách nhấn lên dòng blastn. Trang kết quả Nucleotide BLAST sẽ xuất hiện dưới dạng HTML (chúng ta có thể thay đổi dạng hiển thị tại menu Format).. •. Nhập trình tự DNA cần tìm kiếm vào khung nhập trình tự (Search). Lựa chọn chức năng blastn và nr (non-redundant), đặt chiều dài giới hạn vùng caàn tìm (From: ooooo To: ooooo ). Nhấn lên nút BLAST! để bắt đầu chương trình.. •. Keát quaû seõ hieän leân trang formatting BLAST. •. Nhấn vào nút Format! để mở trang kết quả tìm kiếm và chờ đợi (có thể kéo dài vài phút hoặc lâu hơn).. Kết quả sẽ hiện lên một trang web mới chứa nội dung tìm được. Thông thường kết quả không hiện lên tức thì mà yêu cầu chúng ta chờ đợi trong một khoảng thời gian (từ vài phút đến nhiều phút tùy vào kích thước đoạn cần tìm). Kết quả gồm phần đồ thị, danh sách mục bài có trình tự tương đồng với trình tự DNA nhập vào với mức độ ngày càng giảm dần. Ngoài ra còn có danh sách các trình tự sắp xếp theo trị số Score. Sequences producing significant alignments: gi|145832|gb|M17873.1|ECOELTBP gi|1648865|emb|X83966.1|ECLT87. E.coli (from pig) heat-labil... E.coli LT87 gene for heat-la.... 25. Score E (bits) Value 44 44. 0.003 0.003.

<span class='text_page_counter'>(27)</span> Giaûi thích: gi|145832|gb|M17873.1|ECOELTBP – là mã số truy cập vào các trình tự. tương đồng trong GenBank. Nhấn vào để mô tả chi tiết mục bài này. E.coli (from pig) heat-labil... – Mô tả chức năng trình tự. 44 - Tỷ số tương đồng được tính toán bởi Nucleotide BLAST. 0.003 – Giá trị E là xác suất của tương đồng xuất hiện không ngẫu nhiên (giá trị này càng nhỏ càng thì mức độ tương đồng càng cao). 2.2. Protein – Protein BLAST Sử dụng tương tự chức năng Nucleotide BLAST. •. Mở trang Protein BLAST bằng cách nhấn vào dòng blastp trong trang BLAST. Trang protein BLAST seõ coù daïng:. •. Trong hộp nhập thông tin (Search), nhập vào toàn bộ trình tự amino acid. Chọn chiều dài giới hạn vùng cần tìm (From: ooooo To: ooooo ), cơ sở dữ lieäu laø nr (non-redundant). Nhấn vào nút Format! và đợi đến khi xuất hiện kết quả (có thể trong nhiều phút hoặc lâu hơn).. •. Chương trình sẽ trả lời kết quả bằng một trang web chứa những trình tự gần giống nhất so với trình tự amino acid cần tìm (tương tự dạng Nucleotide BLAST). 3. Thực hành 3.1. Nucleotide – Nucleotide BLAST Tìm trong thư mục “baitap” tập tin chứa trình tự DNA có tên là Blast-DNA32.txt.. 26.

<span class='text_page_counter'>(28)</span> Mở chương trình BLAST bằng cách nhấn vào dòng BLAST trong các trang của NCBI. Mở chương trình Nucleotide BLAST bằng cách nhấn lên dòng blastn. • Chép trình DNA tự trong tập tin Blast-DNA-32.txt vào khung nhập trình tự (Search). Lựa chọn chức năng blastn và nr, đặt chiều dài giới hạn từ 1 đến 32 trong muïc From vaø To. • Nhấn nút BLAST! để bắt đầu chương trình. Keát quaû seõ hieän leân trang formatting BLAST.. •. •. Nhấn vào nút Format! để mở trang kết quả tìm kiếm và chờ đợi (có thể kéo dài vài phút hoặc lâu hơn).. Câu hỏi: Chiều dài của đoạn DNA bắt cặp tốt nhất với trình tự ta dò tìm là bao nhieâu? Đoạn DNA này thuộc loài nào? Tên của gen được mã hóa bởi trình tự này? Trả lời:. 3.2. Protein – Protein BLAST Tìm trong thư mục “baitap” tập tin chứa có tên là Blast-protein-72.txt chứa một đoạn trình tự protein (độc tố ST). • •. • •. Mở trang Protein BLAST bằng cách nhấn vào dòng blastp trong trang BLAST. Trong hộp nhập thông tin (Search), chép trình toàn bộ trình tự amino acid trong tập tin Blast-protein-72.txt vào. Chọn trình tự BLAST từ 1 đến 72, chọn cơ sở dữ liệu là nr. Nhấn vào nút BLAST!, một cửa sổ mới sẽ xuất hiện. Nhấn vào nút Format! để mở trang kết quả tìm kiếm và đợi đến khi xuất hiện kết quả (có thể trong nhiều phút hoặc lâu hơn).. Kết quả xuất hiện tương tự dạng Nucleotide BLAST. Câu hỏi: Những dạng protein họ hàng với độc tố ST? Trả lời:. 27.

<span class='text_page_counter'>(29)</span> Baøi 5.. PHÂN TÍCH TRÌNH TỰ DNA 1. Muïc ñích, nguyeân taéc Các trình tự DNA mã hóa thông tin di truyền dưới dạng các bộ ba nucleotide. Khi có một trình tự DNA, chúng ta cần phải tìm trình tự protein nếu muốn xác định sản phẩm sau dịch mã của trình tự này. Tuy nhiên, các trình tự DNA, sau khi được phiên mã, chỉ được dịch mã thành protein khi chúng là một khung đọc mở (Open Reading Frame - ORF). Các khung đọc mở phải là những trình tự DNA có codon bắt đầu và codon kết thúc dịch mã (Stop Codon) như TAA, TGA, TAG. 2. Công cụ và cách thực hiện Để tìm các khung đọc mở có thể có trong một trình tự DNA, chúng ta sử dụng moät chöông trình coù teân laø ORF finder cuûa NCBI. Chöông trình naøy seõ tìm kieám những khung đọc mở có thể có của trình tự nhập vào và trình tự bổ sung của nó. Sau đó đưa ra bản đồ khung đọc mở với các trình tự đã dịch mã thành trình tự amino acid. •. Mở trang ORF finder từ trang chủ NCBI bằng cách nhấn vào dòng ORF finder.. 28.

<span class='text_page_counter'>(30)</span> Nhập trình tự DNA vào hộp trình tự (sequence in FASTA format) hoặc mã số trình tự vào hộp GI or ACESSSION (nếu muốn dùng toàn bộ trình tự trong cơ sở dữ liệu). Lựa vị trí dịch mã (From: ooooo To: ooooo ) và kiểu mã di truyền. Nhấn nút OrfFind để thực hiện chương trình.. •. • •. Đợi kết quả xuất hiện sau vài phút (hoặc có thể lâu hơn). Kết quả có sáu khung dịch mã xuất hiện. Các khung đọc mở (nếu có) sẽ là những thanh có màu sậm hơn. Lựa chọn giới hạn cách thể hiện bằng trị số trong mục Redraw (50, 100, 300). Kết quả thể hiện có dạng tương tự:. Các khung đọc mở. •. Nhấn lên trình tự khung đọc mở sẽ thấy hiện lên trình tự DNA và trình tự dịch mã amino acid tương tự kết quả bên dưới.. Codon bắt đầu. Codon keát thuùc. 3. Thực hành Chúng ta thực hành xác định khung đọc mở của trình tự gen LT. Mở tập tin ORF-DNA-1310LT.txt trong thö muïc “baitap”. •. Mở trang ORF finder từ trang chủ NCBI. 29.

<span class='text_page_counter'>(31)</span> • • •. Chép trình tự DNA trong tập tin ORF-DNA-1310LT.txt (dạng tập tin văn bản text) vào hộp trình tự (sequence in FASTA format). Lựa chọn dịch mã từ 1 đến 1000 và mã di truyền là Bacteria code. Nhấn nút OrfFind để thực hiện chương trình.. Kết quả có sáu bản dịch xuất hiện và mỗi bản là một khung đọc mở. LT (lymphotoxin) laø moät protein coù maïch polypeptide laø 205 amino acid neân caàn coù moät khung đọc mở với 618 base. •. Chọn thể hiện khung đọc mở có kích thước lớn hơn 300 nucleotide bằng cách lựa chọn trị số 300 ở menu Redraw và nhấn Redraw.. Câu hỏi: Có bao nhiêu khung đọc mở có kích thước trên 300 nucleotide? Tìm khung đọc mở nào cho ra một polypeptide có kích thước đúng với độc toá LT? Trả lời:. 30.

<span class='text_page_counter'>(32)</span> •. Nhấn lên trình tự khung đọc mở sẽ thấy hiện lên trình tự DNA và trình tự dòch maõ amino acid.. Câu hỏi: Có nhận xét gì về kích thước trình tự amino acid? Các vị trí codon có được đánh dấu? Trả lời:. 31.

<span class='text_page_counter'>(33)</span> Baøi 6.. TẠO CÂY PHÁT SINH LOAØI TỪ TRÌNH TỰ DNA 1. Muïc ñích, nguyeân taéc Cây phát sinh loài là công cụ thể hiện mức độ tương đồng giữa các trình tự qua quá trình tiến hóa. Chúng ta có thể tạo cây phát sinh loài từ kết quả so sánh các trình tự tương đồng thông qua hai phần mềm ClustalX (1.81) và TreeView (có thể download dễ dàng từ Internet). 2. Công cụ và cách sử dụng ClustalX là một phần mềm (giao diện Windows) dùng để so sánh tương đồng nhiều trình tự DNA. Nó mô tả kết quả bằng hệ thống các màu sắc và làm nổi bật những nét đặc trưng trong những đoạn tương đồng. TreeView là một phần mềm dùng để vẽ cây phát sinh loài. Phần mềm này thực hiện đọc kết quả so sánh từ những tập tin dạng NEXUS (NEXUS tree) của các chương trình PAUP và COMPONENT NEXUS hoặc những tập tin dạng PHYLIP (PHYLIP tree) cuûa caùc chöông trình fastDNAml, ClustalX vaø ClustalW. • • • •. Mở chương trình ClustalX trên desktop. Lựa chọn chức năng Multiple Alignment Mode. Từ menu File, chọn Load Sequences. Trong hộp Open, chọn tập tin chứa các trình tự cần so sánh. Nhấn nút Open. Choïn Do Complete Alignment trong menu Alignment. Xaùc ñònh vò trí cho taäp tin xuaát roài nhaán nuùt Align.. Kết quả xuất hiện các trình tự so sánh tương đồng. Các vị trí trình tự giống nhau sẽ được thể hiện cùng một màu sắc (mỗi loại nucleotide một màu) và được đánh dấu *. Vò trí gioáng nhau. 32.

<span class='text_page_counter'>(34)</span> Ta có thể nhận xét mức độ tương đồng của các trình tự thông qua sự tương đồng về màu sắc và dạng đồ thị bên dưới. Để tạo cây phá sinh loài dạng PHYLIP chúng ta lần lượt thực hiện các bước • • • •. Trong menu Trees, chọn chức năng Draw N-J Trees. Trong hộp DRAW TREE ta chọn nút OK để lưu tập tin dạng *.ph. Mở chương trình TreeView trên desktop. Từ menu File, chọn Open. Trong hoäp Open, choïn taäp tin *.ph vaø Files of type laø All tree files.. Một trang kết quả cây phát sinh loài sẽ xuất hiện tương tự:. Chúng ta có thể thay đổi kiểu trình bày cây phát sinh loài bằng cách nhấn vào caùc nuùt Phylogram, Rectanglar Cladogram, Cladogram, Radial tree. 3. Thực hành • • • •. Mở chương trình ClustalX trên desktop. Lựa chọn chức năng Multiple Alignment Mode. Chọn trình tự trong tập tin Clustax-DNA-32.txt trong thư mục “baitap”. Nhaán nuùt Open. Choïn do complete alignment.. 33.

<span class='text_page_counter'>(35)</span> Câu hỏi: Nhận xét gì về mức độ tương đồng của các trình tự trong tập tin ClustaxDNA-32.txt? Trả lời:. Nhận xét mức độ tương đồng của các trình tự sự tương đồng về màu sắc (mỗi loại nucleotide một màu) và dạng đồ thị bên dưới. • • • •. Trong menu Trees, chọn chức năng Draw N-J Trees. Trong hộp DRAW TREE ta chọn nút OK để lưu tập tin dạng *.ph. Mở chương trình TreeView trên desktop. Từ menu File, chọn Open. Trong hoäp Open, choïn taäp tin Clustax-DNA-32.ph trong thu muïc “baitap” vaø Files of type laø All tree files. Một trang kết quả cây phát sinh loài sẽ xuất hiện. Câu hỏi: Nhận xét gì về cấu trúc cây phát sinh loài? Trả lời:. 34.

<span class='text_page_counter'>(36)</span> PHAÀN II MOÄT SOÁ COÂNG CUÏ PHAÀN MEÀM PHAÂN TÍCH GEN. 35.

<span class='text_page_counter'>(37)</span> Sự phát triển nhanh chóng của các nghiên cứu về sinh học trong những thập niên sau của thế kỷ 20 đã tạo ra số lượng kết quả khổng lồ liên quan đến trình tự và chức năng của gen, protein. Do vậy, nhu cầu ứng dụng các công cụ của công nghệ thông tin trong sinh học ngày càng gia tăng nhằm khai thác, xử lý và thống kê các dữ liệu kể trên. Có rất nhiều phần mềm đã được xây dựng và ứng dụng trong sinh học nói chung và trong sinh học phân tử nói riêng. Trong phạm vi học phần thực tập này, chúng ta cùng làm quen với phần mềm DNAclub và phần mềm Plasdraw DNAclub là phần mềm dùng cho nghiên cứu trên gen. Nói một cách khác, DNAclub là một phần mềm hữu dụng trong công nghệ sinh học với các tính năng như tìm trình tự khởi đầu dịch mã, lập bản đồ enzyme cắt giới hạn, thiết kế primer… (Hình II.1.).. Hình II.1. DNAclub vaø giao dieän Plasdraw, là phần mềm giúp người sử dụng thiết kế, vẽ, thể hiện plasmid (Hình III.2.).. Hình II.2. Plasdraw vaø giao dieän. 36.

<span class='text_page_counter'>(38)</span> Baøi 7.. NHẬP XUẤT DỮ LIỆU 1. Muïc ñích, nguyeân taéc Dữ liệu là đối tượng phân tích, nghiên cứu của người sử dụng phần mềm. Vì vậy, việc đưa dữ liệu vào phần mềm phân tích hay còn gọi nhập dữ liệu là khâu đầu tiên và cần thiết để từ đó người sử dụng có thể thao tác, phân tích dữ liệu đã được nhaäp vaøo. Dữ liệu được xử lý trong các phần mềm dành cho sinh học phân tử như DNAclub là các trình tự DNA (DNA sequence) hay trình tự amino acid của một protein (protein sequence) quan tâm nghiên cứu. Các dữ liệu này có thể được nhập vào chương trình xử lý bằng cách: - Chuyển nhập trực tiếp từ máy giải trình tự gen (sequencer) hay giải trình tự amino acid. - Truy cập và chuyển nhập từ ngân hàng gen (GenBank). - Nhập dữ liệu thủ công. Sau khi được nhập vào chương trình xử lý, dữ liệu được thể hiện trên giao diện của chương trình này dưới dạng DNAseq file hoặc Aminoacidseq. file. Dữ liệu sau khi xử lý và kết quả xử lý sẽ được lưu trữ trong máy hay được in ra tùy thuộc vào nhu cầu của người sử dụng. Việc lưu giữ lại các kết quả phân tích là rất cần thiết cho mục đích sử dụng sau này. Trong nhiều trường hợp, kết quả phân tích cần được chuyển đi dưới hình thức văn bản (các báo cáo) hay thư điện tử (dạng tập tin đính kèm) v.v. Các thao tác in dữ liệu ra giấy, chuyển dữ liệu qua e-mail… được gọi chung là thao tác xuất dữ liệu. Để thực hiện thao tác xuất dữ liệu, thông thường cần có các thiết bị đi kèm như là máy in, modem… 2. Nội dung thực hành Sinh viên thực hành nhập dữ liệu vào chương trình DNAclub từ những tập tin lưu sẵn trong máy và nhập dữ liệu trực tiếp từ ngân hàng gen. Lưu dữ liệu vừa nhập vaøo thö muïc mang teân hoïc vieân. 3. Thực hành - Khởi động chương trình DNAclub bằng cách nhắp đôi (double click) lên biểu tượng của chương trình trên màn hình desktop (Hình 7.1.). 37.

<span class='text_page_counter'>(39)</span> DNAClub.lnk. Hình 7.1. Biểu tượng của chương trình DNAclub Cửa sổ hoạt động của DNAclub được mở ra sẵn sàng đợi lệnh (Hình 7.2.).. Hình 7.2. Cửa sổ hoạt động của DNAclub Để nhập dữ liệu phân tích, kích hoạt menu File (Hình 7.3.). Tùy vào tính chất của dữ liệu sử dụng, chọn New, Open hay Import. - Chọn New: người sử dụng có thể nhập mới một trình tự từ bàn phím. - Chọn Open: người sử dụng truy xuất dữ liệu từ một tập tin có sẵn. - Chọn Import: của DNAculb cho phép người sử dụng truy cập và sử dụng dữ liệu từ ngân hàng gen, từ các thiết bị giải trình tự. Tới đây chúng ta đã có dữ liệu sẵn sàng để phân tích. Sau khi phân tích dữ liệu. Để lưu hay in kết quả, cũng kích hoạt menu File: - Chọn Save hay Save As để lưu kết quả. - Chọn Print để in các kết quả. 4. Baøi taäp 1. Mở một thư mục mang tên học viên. Khởi động chương trình DNA club. Từ màn hình hoạt động của DNAclub, hãy nhập dữ liệu phân tích cho chương trình từ tập. 38.

<span class='text_page_counter'>(40)</span> tin TDNA1 trong thư mục Sequence của ổ đĩa hiện hành. Sau đó lưu dữ liệu này vào thư mục vừa tạo.. Hình 7.3. Truy nhập dữ liệu để phân tích gen 2. Nhập mới một trình tự DNA tùy ý. Cho biết chiều dài của trình tự vừa nhập vaø löu laïi trong thö muïc mang teân hoïc vieân. 3. Tìm trình tự DNA của enzyme amylase trong ngân hàng gen sau đó nhập trình tự này vào chương trình DNAclub. Cho biết chiều dài của gen này.. 39.

<span class='text_page_counter'>(41)</span> Baøi 8.. TÌM TRÌNH TỰ DNA VAØ KHUNG ĐỌC MỞ 1. Muïc ñích, nguyeân taéc Trong quá trình phân tích gen, rất nhiều trường hợp chúng ta muốn xác định một trình tự DNA đã biết có hiện diện hay không trong một trình tự DNA lớn hơn hay trong một bộ gen khổng lồ truy cập được từ GenBank. Ví dụ: tìm kiếm sự hiện diện của một trình tự giống với một trình tự đã biết (trình tự tương đồng); tìm sự hiện diện của một trình tự bảo tồn (consensus) đã biết trên một bộ gen nhằm mục đích phân loại; tìm kiếm và xác định tính đặc hiệu của một trình tự mồi v.v. Các trường hợp trên đều có một yêu cầu chung là tìm sự hiện diện của một trình tự đã biết (dưới dạng dữ liệu được nhập vào từ cửa sổ hoạt động của chương trình) trong một trình tự lớn hơn. Công cụ tìm kiếm được xây dựng trên nguyên tắc đi dọc theo chuỗi dữ liệu gốc (ở đây là dữ liệu về trình tự lớn hơn, trình tự bộ gen), so sánh trình tự cần tìm với dữ liệu gốc và chỉ ra cho người sử dụng thấy những trình tự tương đồng nằm trên dữ liệu gốc. Kết quả tìm kiếm được thể hiện bằng cách vị trí và trình tự của những đoạn đồng dạng được tô màu. Một trình tự DNA có thể mang thông tin mã hóa cho protein hay không. Trường hợp trình tự này mã hóa cho một protein thì sẽ có sự hiện diện của một chuỗi các codon được bắt đầu bằng codon ATG và kết thúc bằng các codon TGA, TAA hay TAG. Chuỗi codon này được gọi là khung đọc mở, Open Reading Frame (ORF), tức là một khung dịch mã cho phép sản phẩm mRNA từ trình tự DNA tương ứng được dịch mã thành một protein hoàn chỉnh. Trong nghiên cứu chức năng của một trình tự DNA, việc tìm khung đọc mở ORF là rất cần thiết. Việc xác định được khung đọc mở ORF giúp chúng ta biết chính xác được trình tự mã hóa cho protein. Chức năng của protein này có thể được xác định bằng cách so sánh với các ORF của các gen đã biết được chức năng trong GenBank. Trong kỹ thuật di truyền hay sinh học phân tử, việc xác định ORF là cần thiết cho việc thiết kế mồi để dòng hóa và biểu hiện gen hay tạo những đột biến có định hướng liên quan tới chức năng của protein… Nguyên tắc tìm kiếm khung đọc mở ORF cũng là dò tìm dọc theo trình tự DNA từng cụm bộ ba liên tục để xác định sự tồn tại của một chuỗi bộ ba bắt đầu bằng boä ba ATG vaø keát thuùc baèng moät trong caùc boä ba TGA, TAG vaø TAA. Keát quaû tìm khung đọc mở được thể hiện dưới dạng chuỗi trình tự được bôi đen trên cửa sổ hoạt động.. 40.

<span class='text_page_counter'>(42)</span> 2. Nội dung thực hành Sinh viên thực tập tìm kiếm một số các trình tự theo yêu cầu của bài thực hành trong các trình tự được nhập vào. Tìm kiếm các khung đọc mở trong các trình tự cho saün. 3. Thực hành 3.1. Tìm kiếm một trình tự DNA DNAclub cung cấp cho chúng ta một công cụ tìm kiếm hữu hiệu. Nhờ đó, ta có thể tìm một trình tự DNA trong toàn bộ bộ gen một cách nhanh chóng và chính xaùc. - Gọi DNAclub, nhập dữ liệu phân tích. Kích hoạt menu Edit, chọn Find. - Nhập trình tự cần tìm vào khung đợi lệnh và chọn Find. Vị trí và chiều dài của trình tự cần tìm sẽ dược trình bày trên màn hình cùng với dấu hiệu chọn chuỗi trình tự ấy dưới dạng bôi đen (Hình 8.1.).. Hình 8.1. Tìm một trình tự DNA trong DNA bộ gen. 3.2. Tìm khung đọc mở ORF. ORF.. - Khởi động DNAclub, nhập dữ liệu, kích hoạt menu Edit và chọn Find. - DNAclub sẽ lần lượt dò tìm trên toàn bộ gen sau đó liệt kê các trình tự khởi đầu dịch mã tìm được trên màn hình (Hình 8.2.).. 41.

<span class='text_page_counter'>(43)</span> Hình 8.2. Tìm khung đọc mở ORF.. 4. Baøi taäp 1. Tìm trình tự CTTCTGGACTACCAAGGTATGTTGCCCGTTTGT trong trình tự DNA được lưu ở tập tin Hb108 thuộc thư mục Sequence của ổ đĩa hiện hành. 2. Hãy cho biết vị trí của trình tự sau: TTTTACACAATGTGGTTA TCCTGCCTTACTCCCTTTG trên bộ gen của virus HBV. Biết rằng trình tự bộ gen HBV được lưu trong tập tin Hb1 thuộc thư mục Sequence. 3. Nhập trình tự bộ gen HBV từ tập tin Hb1, tìm các ORF của bộ gen này.. 42.

<span class='text_page_counter'>(44)</span> Baøi 9.. CHUYỂN ĐỔI TRÌNH TỰ DNA VAØ AMINO ACID 1. Muïc ñích, nguyeân taéc Như chúng ta đã biết, phân tử DNA có cấu trúc mạch kép song song và ngược chiều. Do vậy, trình tự DNA có thể chuyển đổi trên hai hình thức, ngược chiều (reverse) và bổ sung (complement) dựa trên nguyên tắc bổ sung A - T, G - C. Trong nhiều trường hợp, chúng ta có trong tay một trình tự DNA nhưng ta lại muốn nghiên cứu trên trình tự ngược chiều của trình tự DNA đã biết. Đặc biệt là trong ứng dụng việc tạo ra gen antisense (gen mang mạch đối nghĩa), sự biểu hiện của gen này sẽ tạo ra một mRNA có trình tự bổ sung và bắt cặp được với mRNA của gen gốc bằng cách này ức chế sự biểu hiện một gen gốc không mong muốn. Trong trường hợp này, người nghiên cứu cần chuyển đổi những dữ liệu của trình tự DNA ở gen gốc thành trình tự ngược chiều bổ sung của nó. Khi đó chúng ta cần được hỗ trợ bởi chức năng reverse của phần mềm để chuyển đổi trình tự DNA có sẵn thành trình tự ngược chieàu cuûa noù. Với chức năng reverse, trình tự DNA sẽ được đọc và trình bày theo chiều ngược lại với trình tự ban đầu: 5’- AAATTTGGGCCCAAAGGG – 3’ 5’ – GGGAAACCCGGGTTTAAA – 3’ Chức năng reverse and complement cho phép người sử dụng chuyển đổi trình tự cần phân tích sang thành trình tự ngược chiều và bổ sung với trình tự ban đầu. 5’ – AAATTTGGGCCCAAAGGG – 3’ 5’ – CCCTTTGGGCCCAAATTT- 3’ Mặt khác, trong quá trình phân tích gen, người sử dụng cũng có nhu cầu chuyển đổi, dịch mã từ các dữ liệu DNA thành các dữ liệu về protein. Nói cách khác, với một số phần mềm dành cho sinh học phân tử, chúng ta có thể “dịch mã nhân tạo”, để từ đó, nghiên cứu và xác định trên protein. Trước hết, bảng các codon mã hóa và acid amin tương ứng được lưu trong chương trình. Quá trình dịch mã trên máy tính được tiến hành bằng cách lập chuỗi liên tục các bộ ba nucleotide trên trình tự khuôn; sau đó, chuyển các nhóm ký tự này thành một mã ký tự qui ước cho acid amin tương ứng. Kết quả chúng ta sẽ có trình tự protein được mã hóa từ gen đang nghiên cứu (Hình 9.1.).. 43.

<span class='text_page_counter'>(45)</span> Hình 9.1. Dịch mã một đoạn gen 2. Nội dung thực hành Sinh viên thực hành chuyển đổi trình tự DNA và dịch mã một số gen cho sẵn. 3. Thực hành - Khởi động chương trình DNAclub. - Nhập trình tự cần phân tích vào từ các tập tin chỉ định. - Chuyển đổi trình tự DNA được gọi ra bằng cách kích hoạt menu Convert, choïn Reverse hay Reverse + Complement. - Với mục đích dịch mã, cũng kích hoạt menu Convert và chọn Translate.. 44.

<span class='text_page_counter'>(46)</span> 4. Baøi taäp 1. Chuyển trình tự DNA trong tập tin TT2 của thư mục Sequence thành trình tự ngược chiều của nó. Lưu kết quả này trong tập tin RTT2 thuộc thư mục mang tên hoïc vieân. 2. Hày tìm trình tự ngược chiều và bổ sung với trình tự DNA trong tập tin TT3, thư mục Sequence của ổ đĩa hiện hành. Chuyển kết quả tìm được vào tập tin RCTT3 thuoäc thö muïc mang teân hoïc vieân. 3. Tạo tập tin Protein 2 có nội dung là trình tự acid amin của protein được dịch mã từ gen Hb3. Trình tự của gen này được lưu giữ trong tập tin Hb3, thư mục Sequence cuûa oå ñóa hieän haønh.. 45.

<span class='text_page_counter'>(47)</span> Baøi 10.. THIẾT LẬP BẢN ĐỒ ENZYME CẮT GIỚI HẠN 1. Muïc ñích, nguyeân taéc Enzyme cắt giới hạn (Restriction enzyme) là enzyme của vi khuẩn, có chức năng cắt DNA ở những vị trí cắt chuyên biệt. Những vị trí cắt chuyên biệt này được gọi là vị trí cắt giới hạn. Trong tế bào vi khuẩn, enzyme cắt giới hạn có chức năng bảo vệ tế bào vi khuẩn khỏi sự xâm nhập nhập của những DNA lạ chẳng hạn như DNA của thực khuẩn thể. Trong kỹ thuật di truyền, enzyme cắt giới hạn là một công cụ hữu hiệu dùng để dòng hóa gen. Bản đồ enzyme cắt giới hạn là bản đồ các vị trí cắt giới hạn trên toàn bộ bộ gen. Trong phân tích gen, đặc biệt là trong kỹ thuật gen, việc thiết lập bản đồ enzyme cắt giới hạn là rất cần thiết giúp người sử dụng nắm vững được các vị trí cắt giới hạn có trên gen, giúp chọn enzyme cắt giới hạn hợp lý cho mục đích sử dụng. Danh sách và trình tự cắt giới hạn của các enzyme cắt giới hạn thường sử dụng trong kỹ thuật gen được liệt kê và lưu giữ trong phần mềm sử dụng. Trên cơ sở đó, khi người sử dụng kích hoạt chức năng thành lập bản đồ enzyme cắt giới hạn, phần mềm chức năng sẽ dò tìm trên toàn bộ bộ gen các trình tự cắt giới hạn đã được liệt kê và cuối cùng thống kê kết quả trên cửa sổ hoạt động của chương trình (Hình 10.1.).. Hình 10.1. Kiểm tra các vị trí cắt giới hạn trên bộ gen. 46.

<span class='text_page_counter'>(48)</span> Bên cạnh đó, sau khi tìm kiếm và liệt kê danh sách các enzyme cắt giới hạn có vị trí cắt trên trình tự DNA nghiên cứu. Một số phần mềm còn cho phép thiết lập bản đồ cắt giới hạn của bộ gen quan tâm (Hình 10.2.).. Hình 10.2. Thiết lập bản đồ enzyme cắt giới hạn. 2. Nội dung thực hành Sinh viên thực hành tìm vị trí cắt giới hạn của một số enzyme trên một số trình tự DNA cho sẵn. Thiết lập bản đồ cắt giới hạn của các trình tự bộ gen được lưu giữ trong máy. 3. Thực hành - Khởi động chương trình DNAclub, nhập dữ liệu vào chương trình. - Kích hoạt menu Restriction map. 4. Baøi taäp 1. Cho biết vị trí cắt của các enzyme EcoRI, PstI, BstXI trên trình tự DNA được lưu trữ trong tập tin TT5, thư mục Sequence của ổ đĩa hiện hành. 2. Hãy tạo tập tin RMap trong thư mục mang tên học viên với nội dung là bản đồ enzyme cắt giới hạn của trình tự DNA được lưu trong tập tin TT6, thư mục Sequence cuûa oå ñóa hieän haønh.. 47.

<span class='text_page_counter'>(49)</span> 3. Hãy liệt kê các enzyme cắt giới hạn không thể cắt trình tự DNA 14 biết rằng trình tự này được lưu trong tập tin TT7, thư mục Sequence của ổ đĩa hiện hành.. 48.

<span class='text_page_counter'>(50)</span> Baøi 11.. THIEÁT KEÁ MOÀI (PRIMER) 1. Muïc ñích, nguyeân taéc Mồi (primer) là một thành phần quan trọng không thể thiếu trong phản ứng PCR (polymerase reaction chain). Mồi là những đoạn nucleotide ngắn, bắt cặp bổ sung với đầu 5’ hay đầu 3’ của mạch DNA khuôn mẫu. Mồi được thiết kế dựa vào hai vùng trình tự đã được biết, nằm ở hai đầu của đoạn gen cần khuyếch đại. Trong phản ứng PCR, bao giờ cũng cần có cặp mồi bao gồm mồi xuôi và mồi ngược. Có rất nhiều tiêu chuẩn nghiêm ngặt đặt ra khi thiết kế một cặp mồi như chiều dài mồi, nhiệt độ nóng chảy (Tm) của mồi, nhiệt độ bắt cặp… để đảm bảo phản ứng PCR thành công và thu được sản phẩm khuếch đại (một số lượng lớn bản sao của đoạn DNA dùng làm khuôn ban đầu). Việc tính toán bằng phương pháp thủ công để kiểm tra các yêu cầu trên cho mỗi đoạn mồi dự định thiết kế rất tốn thời gian và công sức. Nhờ các phần mềm thiết kế mồi công việc này sẽ trở nên dễ dàng và nhanh choùng hôn. Một chương trình thiết kế mồi hoàn chỉnh đòi hỏi nhiều chức năng, công cụ tương đối phức tạp và tính lôgic cao. Thông thường chương trình phải đáp ứng được các tính năng như tính được nhiệt độ bắt cặp của mồi, kiểm tra khả năng hình thành cấu trúc kẹp tóc của mồi, kiểm tra sự bắt cặp giữa mồi ngược và mồi xuôi… Trong phạm vi bài thực tập này, sinh viên tập làm quen với việc thiết kế mồi cho phản ứng PCR dựa vào phần mềm DNAclub (tuy rằng ở phần mềm này, chức năng thiết kế mồi chưa phải là đã hoàn chỉnh)0. 2. Nội dung thực hành Sinh viên bước đầu làm quen với việc thiết kế mồi cho phản ứng PCR trên phaàn meàm DNAclub. 3. Thực hành - Khởi động chương trình DNAclub. - Kích hoạt menu PCR Primers. - Chọn Star Primer Selection. Cửa sổ PCR Parameters sẽ được mở ra cho phép người sử dụng lựa chọn các điều kiện cần thiết cho mục đích nghiên cứu (Hình 11.1.). 49.

<span class='text_page_counter'>(51)</span> - Sau khi nhaäp vaøo caùc ñieàu kieän, choïn Start Selection.. Hình 11.1. Cửa sổ PCR Parameters Phần mềm sẽ thực hiện công việc kiểm tra, đánh giá các cặp mồi. Các cặp mồi nào có thể đáp ứng được yêu cầu của người sử dụng sẽ được trình bày trên màn hình. Dựa vào đó người sử dụng có thể chọn lựa cặp mồi thích hợp nhất (Hình 11.2.).. Hình 11.2. Keát quaû thieát keá moài. 50.

<span class='text_page_counter'>(52)</span> 4. Baøi taäp 1. Hãy thiết kế mồi dùng cho phản ứng PCR nhằm khuyếch đại đoạn gen từ vị trí 1214 đến 3814 trong DNA genome B. Trình tự DNA genome B được lưu trong tập tin genome B thuoäc thö muïc sequence, oå ñóa hieän haønh. 2. Trong genome của chủng vi sinh vật A, người ta đã xác định được đoạn gen từ vị trí 670 đến 1638 là vùng gen có tính đặc trưng và bảo tồn cao. Dựa trên cơ sở này, người ta đề ra phương pháp phát hiện nhanh chủng A bằng phương pháp PCR thông qua việc kiểm tra sự hiện diện của đoạn gen có tính bảo tồn nêu trên. Hãy thiết kế mồi để khuyếch đại đoạn gen nêu trên. Biết rằng trình tự genome của chủng A được lưu giữ trong tập tin genome A1 thuộc thư mục Sequence của ổ đĩa hiện hành. 3. Hãy thiết kế cặp mồi để phát hiện nhanh chủng C bằng phương pháp PCR. Biết rằng chủng C có trình tự bảo tồn đặc trưng nằm trong vùng 3158-4321 và trình tự genome của chủng C được lưu giữ trong tập tin genome C.. 51.

<span class='text_page_counter'>(53)</span> Baøi 12.. VẼ BẢN ĐỒ PLASMID 1. Muïc ñích, nguyeân taéc Plasmid là những đoạn DNA ngắn ( có kích thước khoảng 2-5 kb), dạng vòng, nằm ngoài nhiễm sắc thể, được tìm thấy lần đầu tiên ở vi khuẩn. Sự sao chép plasmid không phụ thuộc sự sao chép nhiễm sắc thể vi khuẩn. Mỗi vi khuẩn có thể chứa hàng trăm plasmid. Plasmid có nhiều đặc tính phù hợp để làm vector trong sự dòng hóa nhö: - Có kích thước nhỏ nên dễ tách ly và thao tác. - Daïng voøng giuùp cho DNA oån ñònh trong quaù trình taùch chieát hoùa hoïc. - Sao chép độc lập với nhiễm sắc thể của tế bào chủ. - Soá baûn sao plasmid trong teá baøo coù theå ít hay raát nhieàu. - Có chứa gen chọn lọc thường là gen kháng kháng sinh giúp cho việc chọn loïc doøng teá baøo mang gen mong muoán moät caùch nhanh choùng. Với các ưu điểm kể trên, plasmid thường được dùng làm vector dòng hóa và vector bieåu hieän gen. Sau quaù trình thieát keá vector doøng hoùa hay vector bieåu hieän gen, thông tin về các vector này nhất thiết phải được mô hình hóa để tiện cho việc lưu giữ và truyền thông tin di truyền của plasmid mới thành lập. Bản đồ plasmid (plasmid map) nhất thiết phải chứa các thông tin về vị trí các gen quan trọng, vị trí của các enzyme cắt giới hạn cần thiết trên plasmid, promoter, gen chọn lọc… (Hình 12.1.). Như vậy, nhìn vào một bản đồ plasmid chúng ta sẽ biết được những thông tin cần thiết như tên, chiều dài plasmid, gen chọn lọc (thường là khả năng kháng một loại kháng sinh), plasmid thuộc loại vector biểu hiện hay chỉ có chức năng dòng hóa… Có rất nhiều phần mềm chuyên dụng có thể được dùng cho việc thiết lập bản đồ plasmid. Trong chương trình thực tập này, chúng ta cùng làm quen với việc thiết lập bản đồ plasmid với phần mềm Plasdraw.. 52.

<span class='text_page_counter'>(54)</span> Hình 12.1. Bản đồ plasmid pICAS1 2. Nội dung thực hành Sinh viên thực hành thiết lập bản đồ các plasmid với những thông tin cho sẵn. 3. Thực hành - Khởi động chương trình Plasdraw bằng cách nhắp đôi vào biểu tượng của chöông trình Plasdraw treân maøn hình desktop (Hình 12.2.).. Plasdraw.lnk Hình 12.2. Biểu tượng của Plasdraw - Sau khi khởi động chương trình, màn hình hoạt động của Plasdraw mở ra đợi lệnh. - Kích hoạt menu tập tin bằng cách nhấn vào nút File trên cửa sổ hoạt động cuûa Plasdraw (Hình 12.3).. 53.

<span class='text_page_counter'>(55)</span> Hình 12.3. Cửa sổ hoạt động của plasdraw - Để thiết lập một bản đồ plasmid mới, trong menu File, chúng ta chọn New. Tieáp theo, ñieàn teân vaø chieàu daøi plasmid vaøo khung Plasmid Parameters (Hình 12.4.). Chọn OK sau khi đã điền đầy đủ thông tin. Cũng trên cửa sổ Plasmid Parameters người sử dụng có thể lựa chọn dạng biểu diễn của plasmid là dạng thẳng bằng cách chọn khung Linear. Ngược lại, khi chúng ta không chọn Linear, mặc nhiên plasmid được biểu diễn ở dạng vòng.. Hình 12.4. Khung Plasmid parameters Khi đã nhập đủ thông tin cần cho bước đầu thiết lập một bản đồ plasmid mới, chúng ta sẽ thu được bản đồ sơ bộ của plasmid (Hình 12.5.).. 54.

<span class='text_page_counter'>(56)</span> - Để sửa chữa thiết kế lại một bản đồ plasmid đã có, chúng ta nhấn vào nút Open để mở bản đồ plasmid có sẵn trong tập tin lưu trữ .. Hình 12.5. Dạng bản đồ sơ bộ của plasmid - Để nhập các vị trí enzyme cắt giới hạn, chọn menu Restriction sites, nhập tên enzyme cắt giới hạn trong ô Site Name. Tương tự, nhập vị trí cắt giới hạn của enzyme này trong ô Location. Chọn Add site để nhập các dữ liệu này vào bản đồ. Nhấn OK để hoàn tất việc nhập vị trí enzyme cắt giới hạn (Hình 12.6.). - Sau khi nhập thông tin, tên của enzyme sẽ được chỉ rõ trên bản đồ plasmid ở vị trí đã chỉ định - Trường hợp cần thay đổi các vị trí hay tên một enzyme cắt giới hạn đã thiết lập trên bản đồ. Trước hết, chọn tên enzyme cần thay thay đổi. Chọn Delete để xóa dữ liệu cũ và nhập mới thông tin về enzyme này. - Để biểu diễn Multiple Cloning Site (MCS, là một trình tự ngắn gồm tập hợp các vị trí cắt duy nhất của nhiều enzyme cắt giới hạn, giúp cho có nhiều phương án lựa chọn enzyme khi thiết lập vector dòng hóa hay vector biểu hiện gen), thực hiện các động tác sau: - Kích hoạt menu Data. 55.

<span class='text_page_counter'>(57)</span> - Chọn Multiple cloning site. Cửa sổ hoạt động mang tên Multiple Cloning Site sẽ được mở ra (Hình 12.7.).. Hình 12.6. Cửa sổ nhập vị trí enzyme cắt giới hạn. Hình 12.7. Cửa sổ biễu diễn MCS - Tiếp theo, lần lượt nhập tên các enzyme cắt giới hạn và vị trí cắt trong khung Site vaø khung Start/End. - Nhấn Enter để nhập dữ liệu. Multiple cloning site sẽ được biểu diễn trên bản đồ plasmid như Hình 12.8.. - Để biễu diễn vị trí gen trên bản đồ plasmid, thực hiện các bước như sau: - Kích hoạt menu Data.. 56.

<span class='text_page_counter'>(58)</span> - Chọn Genes. Cửa sổ Genes mở ra cho phép người sử dụng nhập các dữ liệu caàn thieát (Hình 12.9.).. Hình 12.8. Bản đồ plasmid với Multiple cloning site.. Hình 12.9. Cửa sổ thông tin về gen và cách thể hiện.. 57.

<span class='text_page_counter'>(59)</span> - Ý nghĩa của các chức năng trên cửa sổ là như sau: Name: nhaäp teân gen Start/ End: vị trí khởi đầu và vị trí kết thúc của gen trên bản đồ plasmid Style/Thickness: chọn kiểu dáng biểu diễn của gen trên bản đồ - Chọn Add gene để xác nhận và chính thức nhập các thông tin về gen. - Nhấn OK để kết thúc việc thiết kế vị trí một gen trên bản đồ. - Để thêm (insert fragment) hay xóa (delete fragment) một gen trên bản đồ plasmid, thực hiện các thao tác sau: - Kích hoạt menu Data. - Goïi Insert fragment hay Delete fragment. - Khi các cửa sổ hoạt động được mở ra (Hình 12.10.), nhập các dữ liệu cần thiết như vị trí thêm hay xóa, kích thước đoạn DNA cần thêm vào hay xóa đi. - Nhấn OK để thi hành lệnh thêm hay xóa.. Hình 12.10. Cửa sổ hoạt động insert fragment và delete fragment. - Hình 12.11. là một ví dụ bản đồ của một plasmid hoàn chỉnh.. 58.

<span class='text_page_counter'>(60)</span> Hình 12.11. Bản đồ một plasmid đã được thiết kế hoàn chỉnh. 4. Baøi taäp 1. Hãy thiết kế bản đồ plasmid PlasI theo những thông tin sau đây: - PlasI coù chieàu daøi 10765 base pairs (bp); - Có gen kháng kháng sinh Ampiciline với chiều dài 800bp, cùng chiều kim đồng hồ (clock wise, cw); - Trình tự khởi đầu sao mã ColE1 ori nằm ở vị trí Nu thứ 3020 tới Nu thứ 3107; - Gen leu2-d có chiều dài 900bp nằm ở vị trí Nu thứ 5436, cw; - Multiple Cloning Site kéo dài từ Nu 8828 đến Nu 8884 với vị trí cắt giới haïn cuûa enzyme BamHI, XmaI vaø SmaI; - Lưu bản đồ plasmid vừa thiết kế vào tập tin PlasI trong thư mục mang tên hoïc vieân.. 59.

<span class='text_page_counter'>(61)</span> 2. Plasmid Based-PlasI được thiết kế dựa trên plasmid PlasI bằng cách gắn thêm gen ars1 vào vị trí Nu 65 biết rằng gen ars1 dài 1231bp. Hãy thiết kế bản đồ Based-PlasI vaø löu trong taäp tin PlasII, thö muïc mang teân hoïc vieân. 3. Tạo tập tin Dummy trong thư mục mang tên học viên với nội dung là bản đồ plasmid Dummy for 1.0 coù chieàu daøi 3200bp nhö trong hình sau.. 60.

<span class='text_page_counter'>(62)</span> Baøi 13.. BAØI TẬP TỔNG HỢP 1. Khởi động chương trình DNAclub và nhập dữ liệu từ tập tin GFP được lưu giữ trong thư mục sequence của ổ đĩa hiện hành. Cho biết dữ liệu nói trên thuộc dạng trình tự nào, DNA hay protein. Cho biết chiều dài của trình tự kể trên và truy xuất trình tự ấy sang thư mục khác mang tên học viên. 2. Tìm kiếm dữ liệu về trình tự nucleotid của gen mã hóa kháng sinh bề mặt HBsAg của virus HBV trong ngân hàng gen. Nhập trình tự ấy vào chương trình DNAclub vaø löu laïi trong taäp tin HBV thuoäc thö muïc mang teân hoïc vieân. 3. Gọi trình tự DNA một từ tập tin DNA một trong thư mục sequence của ổ đĩa hiện hành. Cho biết số lượng và vị trí của các trình tự khởi đầu dịch mã có trong trình tự bổ sung và ngược chiều của trình tự ấy. 4. Gọi tập tin HBV trong thư mục mang tên học viên. Hãy cho biết trình tự mạch còn lại của DNA trên theo chiều đọc 5’-3’ 5. Gọi trình tự DNA2 từ tập tin DNA2 trong thư mục sequence của ổ đĩa hiện hành. Cho biết trình tự của protein dài nhất được mã hóa bởi DNA2 kể trên. Có thể có bao nhiêu chuỗi polypeptid được mã hóa từ DNA2. 6. Trình tự DNA3 là trình tự ngược chiều của trình tự DNA2. Hãy cho biết trên trình tự ấy có bao nhiêu vị trí cắt giới hạn cho enzyme EcoRI và vị trí của các điểm cắt giới hạn đó. 7. Hãy cho biết vị trí của trình tự sau: AATGATCAATGAGCG CTAGCA trong toàn bộ trình tự DNA4. Biết rằng trình tự DNA4 được lưu giữ trong tập tin DNA4 coù trong thö muïc Sequence cuûa oå ñóa hieän haønh. 8. Bộ gen A đã được giải mã và các dữ liệu này được lưu giữ trong ổ đĩa hiện hành dưới dạng Text file mang tên Genome A. Hãy thành lập bản đồ enzyme cắt giới hạn của bộ gen A. Lưu kết quả vào tập tin BANDO trong thư mục mang tên học viên. Cho biết kết quả có thể thu được khi cắt bộ gen trên bằng cặp enzyme cắt giới haïn EcoRI vaø PstI. 9. Nội độc tố δ của vi khuẩn Bacillus thuringiensis được mã hóa bởi một nhóm gen trong đó có gen cryA. Trình tự các gen này được lưu giữ trong tập tin Bt thuộc thư mục Sequence của ổ đĩa hiện hành. Hãy cho biết chính xác trình tự gen cryA dựa vào các dữ kiện sau : - Protein CRYA bao goàm 226 acid amin 61.

<span class='text_page_counter'>(63)</span> - Gen crysA có chứa một trình tự DNA như sau gctggatgtgtctgcggcgtttta 10. Gen bar ở Streptomyces hygroscopicus mã hóa cho enzyme phosphinothricin acetyltransferase giuùp chuyeån hoùa thuoác dieät coû phosphinothricin. Trong quá trình tách chiết DNA bộ gen của Streptomyces hygrococcus người ta đã vô tình làm DNA bộ gen thành bị đứt đúng ngay tại vị trí cắt giới hạn của enzyme RsaI. Hãy cho biết sự đứt gãy trên có ảnh hưởng tớùi sự biểu hiện của gen bar không? Tại sao? Biết rằng gen bar dài 459 bp và nằm trong trình tự DNA5 (tập tin DNA5, thư muïc sequence, oå ñóa hieän haønh). 11. Hãy thiết kế bản đồ plasmid Red dựa trên các thông tin sau: - Plasmid Red coù chieàu daøi 7490bp; - Red mang gen kháng kháng sinh Ampiciline với chiều dài 800bp, ngược chiều kim đồng hồ (counter clock wise, ccw); - Ori nằm ngay trước gen kháng kháng sinh Amp và dài 100bp; - Gen yap1, ccw, được chèn vào giữa gen pgk5’(2250, 2400) và gen pgk3’(3197-3397) bằng đầu dính của enzyme XhoI và enzyme EcoRI; - Multiple Cloning Site (2074-2140) với các vị trí cắt giới hạn như sau: SacI, SacII, NotI, Eco521, XbaI, SpeI, SmaI vaø SalI (2074). - Lưu bản đồ Red vào tập tin Red trong thư mục mang tên học viên. 12. Người ta thiết kế plasmid Red1 bằng cách cắt gen yap1 và chèn vào đó gen aeq với chiều dài 700bp. Hãy vẽ bản đồ của Red1 và cho biết chiều dài của nó.. 62.

<span class='text_page_counter'>(64)</span> PHUÏ LUÏC 1. Địa chỉ các web site dùng trong thực tập AEM journal (Search) BLAST searching Entrez Google search NCBI ORF finder TreeView (download) Clustalx (download). 2. Địa chỉ một số web site sinh học phân tử trên thế giới Bioinformatics Biology Cell and molecular biologists www.cellbio.com/ Centre for Biochemical Technology European Molecular Biology Laboratory (UK) European Molecular Biology Organization www.embo.org/ ExPASy Molecular Biology Highwire (search) Molecular Biology Database List Molecular Biology Protocols www.nwfsc.noaa.gov/protocols.html Molecular ToolBox Protein Data Bank (PDB) Protein Information Resource (PIR) Protocol-online Restrictions Enzymes WebCutter 2.0 (R.E) WebFerret (ñòa chæ download) 63.

<span class='text_page_counter'>(65)</span>

×