Báo cáo Khai phá dữ liệu: Nghiên cứu và tìm hiểu Tin sinh học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (187.62 KB, 12 trang )

1. Giới thiệu tin sinh học.
1.1. Tin sinh học là gì?
Tin sinh học (bioinformatics) là một lĩnh vực khoa học sử dụng các công nghệ của ngành
toán học ứng dụng, tin học, thống kê, khoa học máy tính và toán sinh học (biomathematics) để
giải quyết các vấn đề sinh học
1.2. Các lĩnh vực nghiên cứu
1.2.1. Genomics - Hệ gene học
* Phân tích trình tự axit nucleic và axit amin trong protein:
- Năm 1977, lần đầu tiên Sanger và cộng sự đã xác định được trình tự ADN của virut jx-174 và
từ đó đến nay, trình tự ADN của rất nhiều loài sinh vật đã được phân tích và lưu giữ trong các
ngân hàng cơ sở dữ liệu gene.
-> Tìm ra những gen cấu trúc, gen mã hoá cho một phân tử protein nào đó, cũng như tìm ra quy
luật của những trình tự tương đồng của các protein.
- Sau đó, sự tăng trưởng khổng lồ của dữ liệu này, việc phân tích trình tự ADN một cách thủ
công không thể thực hiện nổi. Các chương trình máy tính ra đời được sử dụng để giúp tìm các
trình tự tương đồng trong bản đồ gen (genome) của hàng loạt sinh vật dù số lượng nucleotide
trong trình tự có đến hàng tỷ.
- Kỹ thuật xác định trình tự hiện nay không thể tiến hành trên cả một phân tử ADN lớn, nên xác
định trình tự nhỏ có kích thước khoảng 600-800 nucleotide. Sau đó, những đoạn trình tự nhỏ này
được sắp xếp thứ tự và nối lại qua việc bắt cặp trình tự của những đầu gối lên nhau (overlap) tạo
nên một trình tự genome hoàn chỉnh. Nhờ kỹ thuật xác định chuỗi trình tự nhỏ đã tạo ra chuỗi dữ
liệu một cách nhanh chóng nhưng việc sắp xếp các chuỗi trình tự ADN nhỏ là khá phức tạp, cho
nên khi phân tích bản đồ gen người (Human genome) các nhà tin sinh học với các siêu máy tính
(máy DEC Alpha ra đời năm 2000) phải làm việc hàng tháng mới có thể xếp đúng trình tự những
đoạn ADN ngắn lại với nhau.
1
- Hiện nay, kỹ thuật xác định trình tự nhỏ đang được ưu tiên để giải mã genome và giải thuật lắp
ráp genome
* Bản đồ gen và đánh dấu gen:
- Bản đồ trình tự gen (sequence map) là loại bản đồ có độ chính xác cao được sử dụng rộng rãi
hiện nay và có thể xác định chính xác vị trí từng nucleotid trong bộ gen, góp phần xác

định nguồn gốc phân loại, sự tiến hoá của các quần thể hoặc các loài sinh vật, đồng thời
giúp con người xác định được những gen liên quan đến các tính trạng quý hiếm ở vật
nuôi cây trồng, hoặc các gen đột biến, gen bị sai lệch do rối loạn di truyền ở người.
- Mục đích: nghiên cứu sự tiến hóa của loài người, xác định nguyên nhân một số bệnh di truyền,
bệnh truyền nhiễm, từ đó có cơ sở để phát triển các loại thuốc mới, các liệu pháp chữa trị
hiệu quả.
- Hiện nay, có nhiều loại bản đồ gen: bản đồ di truyền liên kết (genetic linkage), bản đồ di truyền
tế bào (cytogenetic map), bản đồ lai phóng xạ (radianation hybrides map), bản đồ di
truyền giới hạn (restriction map), bản đồ trình tự gen (sequence map)
- Có nhiều phương pháp được sử dụng trong nghiên cứu bộ gen, bản đồ di truyền của các loài
sinh vật như bản đồ lai phóng xạ, bản đồ lai tại chỗ huỳnh quang, bản đồ tạo dòng định
vị.
* Dò tìm đột biến và SNP:
- Kỹ thuật PCR (Polymerase Chain Reaction) là một trong những kỹ thuật được sử dụng để phát
hiện nhanh các gen đặc hiệu, gen kháng nguyên của nhiều loại virus gây ung thư.
- Ở đây, tập dữ liệu sơ khởi được tạo ra đòi hỏi các hệ thống tự động đọc từ đó so sánh các trình
tự đã biết trên hệ gen người, bao gồm cả những điểm đa hình trên tế bào dòng tính
(germline) đã biết, hoặc sử dụng hệ thống để phát hiện điểm đa hình đơn nucleotide
(single nucleotide microarray) hoặc khảo sát tính dị biệt so sánh genome cho phép nghiên
cứu hàng trăm ngàn vị trí trên bản đồ gen đang dược sử dụng để xác định những đột biến
nhiễm sắc thể liên quan tới ung thư.
- Nhờ dò tìm các đột biến, phát hiện các gen mà các các công ty công nghệ sinh học hàng đầu thế
giới như Millenium Pharmaceutical, tập đoàn Roche, Eli Lilly, Bayer AG đã được cấp
bằng độc quyền sử dụng hàng trăm gen liên quan đến bệnh lý để phát triển các loại dược
phẩm phân tử và sinh học phòng ngừa bệnh tật.
- Một số thành tựu:
+ Saito và cộng sự (1989) ung thư vòm họng phần lớn do virus Eptein-Barr (EBV) gây
nên có thể chẩn đoán chính xác trên 90%.
2
+ Năm 2001, các nhà nghiên cứu của đại học California (Beckley) đã phát hiện ra 2 họ

protein H60 và Rael có đặc tính kích thích thụ thể NKG 2D1 của tế bào diệt u NK (natural killer)
và sản xuất ra g-interferon vốn đảm đương nhiệm vụ hoạt hoá các tế bào của hệ miễn dịch.
+ GS Allison tại Đại học California và Viện Y khoa Howard Hughes (Mỹ, 2001) đã tìm
ra gen SPAS-1 có tác dụng kích thích tế bào T đặc hiệu của adenocarcinom, từ đó nghiên cứu
dùng gen này trong sản xuất vacxin phòng ung thư tuyến tiền liệt.
1.2.2. Sinh học tiến hoá
* Phân loại học phân tử
- Phân tích dữ liệu gen, bộ gen và xây dựng cây phân loại không chỉ cho thấy chiều hướng tiến
hoá của các loài trong sinh giới mà còn chỉ rõ mức độ quan hệ trong loài và sự tiến hoá
trong nội bộ loài. Vì vậy, việc xây dựng cây phân loại phân tử có vị trí hết sức quan
trọng.
- Cây phân loại (phylogeny, dendregram) được nghiên cứu có hệ thống và khoa học từ những
năm đầu thế kỷ 20. Năm 1909, từ các số liệu phân tích tần số các allen trong locus
hemoglobin, Reichert và Brown đã xây dựng cây phân loại đầu tiên của một số loài cá.
- Hiện nay sự phát triển trong lĩnh vực xác định trình tự gen, trình tự axit amin và sự phổ biến
các máy tính tốc độ cao cho phép các nhà nghiên cứu theo dõi sự tiến hoá của các loài
dựa trên sự thay đổi trong trình tự ADN.
- Mặt khác cây phân loại còn góp phần giúp các nhà khoa học thực hiện các phép lai có hiệu quả
kinh tế cao, chẩn đoán ưu thế lai sớm hoặc tìm kiếm nguồn gốc phát sinh của các loài
sinh vật.
* Bảo tồn đa dạng sinh học:
- Xác định các trình tự ADN ở các loài động vật, thực vật, vi sinh vật là căn cứ để từ đó xác
định hệ số di truyền của các loài. Thông tin quan trọng nhất được thu thập chính là tên,
các đặc điểm hình thái, sinh lý, sinh hoá, di truyền, sự phân bố, tập tính được truy xuất
bởi các chương trình phần mềm để tìm kiếm, hiển thị, phân tích các thông tin một cách tự
động. Ngoài ra, trên cơ sở lý thuyết ma trận (matrix), tính toán xây dựng cây phân loại,
tìm ra quan hệ giữa các loài, giữa các thế hệ trong loài.
- Vì các lí do trong suốt quá trình dài tiến hóa và phát triển mà con người đã tác động đến cây
trồng, vật nuôi nhằm tăng năng suất có thể làm thay đổi tính di truyền của chúng cũng
như khả năng thích nghi của chúng.

Ví dụ:
Ở Hy Lạp, năm 1983 đã bỏ đi 95% các giống lúa mì địa phương,
3
Ở Tây Ban Nha, từ năm 1970 đến năm 1973 mất đi 70% giống dưa địa phương.
Ở Pháp, nước có 2000 giống táo nhưng năm 1970 chỉ còn chục giống.
Ở Mỹ nước xuất khẩu ngô vào loại nhiều nhất thế giới nhưng năm 1970 hơn một nửa diện tích
ngô bị bệnh tiêm lửa (Helminthos porium maydis) nòi Texas tàn phá thiệt hại hàng tỷ đô
la.
- Cho nên bảo vệ đa dạng sinh vật chính là bảo vệ cho mình và đó là ý thức, trách nhiệm của mọi
người không riêng gì các nhà chuyên môn nông-lâm-ngư nghiệp. Mặt khác, bảo vệ đa
dạng sinh học tốt và có hiệu quả thì không chỉ bảo vệ đa dạng di truyền (genetic
diversitry) đối với các vật nuôi cây trồng mà còn phải chú ý đến bảo vệ đa dạng loài, đa
dạng riêng biệt (specific diversity) đối với các sinh vật hoang dại.
1.2.3. Phân tích chức năng gene
* Phân tích biểu hiện gen:
- Những nghiên cứu của sinh học phân tử (molecular biology) có thể đánh giá mức độ biểu hiện
gen (gene expression) thông qua việc xác định ARN thông tin (mARN) thông qua các kĩ
thuật như microarray, EST (expressed sequence tag), SAGE (serial analisis of gene
expression), MPSS (massively parallel signature sequencing) hay khối phổ (mass-
spectrometry), các kĩ thuật này khiến việc tính toán, phân tích trở nên phức tạp. Từ đó
sinh ra các công cụ thống kê để lọc tín hiệu xác đáng khỏi thông tin nhiễu trong những
nghiên cứu biểu hiện gen đa lượng.
- Người ta có thể so sánh dữ liệu microarray từ những tế bào bị ung thư với tế bào bình thường
để xác định những protein nào được tăng cường hay giảm thiểu do ung thư.
- Dữ liệu biểu hiện gen cũng được dùng để nghiên cứu điều hoà gen.
- Nhận diện trình tự axit amin trong chuỗi polypeptide cũng là một giải pháp quan trọng để từ đó
có thể suy ra cấu trúc của gen tương ứng.
* Nhận diện protein
- Protein microarray và hệ thống khối phổ cao năng (high throughput mass spectrometry) có thể
cung cấp hình ảnh (snapshot) tổng thể của các protein hiện có trong một mẫu sinh học

(biological sample). Các ứng dụng tin sinh học có liên quan rất nhiều đến việc lý giải các dữ liệu
thu được từ những hệ thống này. Đối với protein microarray, những nhà tin sinh học cần chuyển
kiểm tra dữ liệu mRNA gắn trên array. Trong khi đó, những vấn đề tin sinh học liên quan đến
việc so trùng (matching) dữ liệu khối phổ với cơ sở dữ liệu về trình tự axit amin trong
polypeptid, hay trong protein. Chẳng hạn virus lở mồm long móng (Foot Mouth Disease Virus-
FMDV) nhờ nhận diện trình tự các axit amin ở “điểm quyết định kháng nguyên” trên protein vỏ
VP1. Trên cơ sở đó công nghệ sinh học hiện đại đã tạo ra được vacxin phân tử để sử dụng.
4
* Dự đoán cấu trúc protein
- Dự đoán cấu trúc là một ứng dụng quan trọng nữa của tin sinh học. Có thể dễ dàng xác định
trình tự axit amin hay còn gọi là cấu trúc bậc một của protein từ trình tự gene mã hóa
cho nó. Nhưng, protein chỉ có chức năng vốn có khi nó cuộn gấp thành hình dạng chính
xác (nếu điều này xảy ra ta có cấu trúc bậc hai, cấu trúc bậc ba và cấu trúc bậc bốn).
Tuy nhiên, sẽ là vô cùng khó khăn nếu chỉ dự đoán các cấu trúc gấp nếp này từ trình tự
axit amin. Một số phương pháp dự đoán cấu trúc bằng máy tính hiện đang phát triển.
- Trong tin sinh học người ta cũng chú ý đến tính tương đồng khi dự đoán cấu trúc của gen.
Chẳng hạn nếu biết trình tự và chức năng của gen X và trình tự đó tương đồng với gen Y
thì có thể biết được chức năng của gen Y. Và, với kỹ thuật mô phỏng tính tương đồng
(homology modelling) thông tin này được dùng để dự đoán cấu trúc của protein khi đã
biết cấu trúc của một protein khác tương đồng với nó. Hiện nay, đây là cách dự đoán cấu
trúc đáng tin cậy. Các kỹ thuật dự đoán cấu trúc protein khác là protein threading và de
novo (from scratch) physics-based modeling.
1.2.4. Phân tích hình ảnh mức độ cao
Các kĩ thuật tính toán cũng được dùng để tăng tốc độ hoặc giúp tự động hoàn toàn quá trình xử
lí, định lượng và phân tích một lượng lớn các hình ảnh sinh học có chứa-thông-tin-cao. Các hệ
thống xử lí ảnh hiện đại tăng cường khả năng quan sát để giúp cho việc tính toán từ một tập lớn
và phức tạp các hình ảnh, bằng cách cải tiến độ chính xác, tính khách quan, hay tốc độ. Những
hệ thống này đang dần trở thành quan trọng đối với cả chẩn đoán và nghiên cứu. Một vài ví dụ
là:
• Định lượng với tốc độ cao, độ tin cậy cao và xác định vị trí các tế-bào-con (hiển thị hình

ảnh giàu nội dung (high-content screening), cytohistopathology)
• Động học hình thái (Morphometrics) được dùng để phân tích các hình ảnh về quá trình
phát triển của phôi nhằm theo dõi và dự đoán số phận của từng cụm tế bào (cell cluster)
trong suốt quá trình phát sinh hình thái (morphogenesis).
• Phân tích và hiển thị hình ảnh các hình ảnh lâm sàng
• Xác định các mẫu dòng khí trong phổi của mỗi sinh vật sống tại thời gian thực
• Định lượng mức độ lưu giữ trong các hình ảnh thời gian thực từ sự phát triển và hồi phục
trong suốt thời gian tổn thương động mạch (arterial injury)
• Đưa ra các quan sát về sự xử sự từ các đoạn phim được thu lại của các động vật thí
nghiệm
• Đo đạc bằng tia hồng ngoại để xác định các hoạt động trao đổi chất
1.2.5. Các hệ thống sinh học kiểu mẫu
5
- Sinh học hệ thống bao gồm việc sử dụng khả năng mô phỏng bằng máy tính (computer
simulation) các hệ cơ quan tế bào cellular (như mạng các metabolites và enzyme, chúng bao gồm
các metabolism, signal transduction pathways và gene regulatory networks) để có thể phân tích
và hiển thị hoá (visualize) việc kết nối phức tạp của các quá trình tế bào này. Sự sống nhân tạo
(Artificial life) hay tiến hoá ảo nỗ lực nhằm tìm hiểu quá trình tiến hoá thông qua việc mô phỏng
bằng máy tính các dạng sự sống (nhân tạo) đơn giản.
1.2.6. Mạng điều khiển sinh học
- Mạng điều khiển sinh học (biological regulatory network) là các mạng tương tác giữa gene,
protein để điều khiển một quá trình sinh học nào đó trong tế bào, ví dụ như là quá trình trao đổi
chất (metabolism), quá trình chu kỳ tế bào (cell cycle), nhịp sinh học (circadian rhytm), …
- Các bài toán đặc trưng thường xây dựng mạng tương tác điều khiển một quá trình sinh học cụ
thể với các gene và protein có vai trò trọng trong quá trình sinh học đó, lập mô hình toán học (có
thể là nhị phân, hệ vi phân, hệ ngẫu nhiên, …) để phân tích các tính chất, quy luật của quá trình
sinh học. Từ đó đưa ra các dự đoán liên quan đến các điểm bất thường như là bệnh, tật, đặc biệt
là ung thư.
1.3. Các lĩnh vực liên quan
1. Lý sinh

2. Biocybernetics
3. Y sinh học tin học
4. Sinh học tính toán
5. Tin y tế
6. Gen
7. Sinh học tính toán và toán học và sinh học mô hình
8. proteomics
9. Pharmacogenomics
10. Dược
11. Chemoinformatics
12. Phân tử và chuyển hóa mô hình mạng
13. trí tuệ nhân tạo
14. Neuroinformatics
15. Thống kê
16. Khai thác dữ liệu và phân tích thông tin
1.4. Một số khái niệm quan trọng.
6
- Một chuỗi DNA luôn được định nghĩa như một chuỗi nucleotit, những nucleotit này gồm
4 thành phần cấu trúc hoa sinh mà Walson và Crick đã khám phá ra ở những năm 1956:
adenine, guanine, cytosine, thynine.
- Chuỗi Palindrome là trình tự nucleotide cái mà có thể đọc theo cách giống nhau ở cả hai
chiều vì cái này đóng vai trò sinh học quan trọng.
- Phân tử RNA là cấu trúc xoắn được tạo ra từ DNA của hạt nhân cái mà ra ngoài thành tế
bào và làm cồn việc đó, ví dụ, tạo thành protein hoặc là cấu trúc hoặc quy định các con
đường hóa học khác và cấu trúc nhỏ hơn.
- Hệ gen sinh học là sự nghiên cứu các gen có tổ chức lớn, làm việc với tất cả các gen ở
cùng thời điểm, ví dụ, xem xét toàn bộ sự thiết kế.
- Pubmed là một danh sách của những tài liệu được xuất bản về sinh học và di truyền học
(từ năm 1965 về trước) cái mà cho phép những nhà nghiên cứu trong lĩnh vực đó tìm ra
cái gì họ cần nhanh để mà họ có thể thấy được cái gì đã được nghiên cứu và do vậy quyết

định những chiều hướng mới của sự nghiên cứu sẽ có giá trị gì. Xem www….
- Blast là một chương trình khai thác sơ sở dữ liệu, được sử dụng rộng rãi trong tin sinh
học, để khai thác cơ sở dữ liệu của thông tin được xây dựng từ những gì đã được phát
hiện và lập danh mục về cấu trúc DNA, RNA và protein. Blast sẽ mang một trình tự và so
sánh nó với một CSDL của trình tự đã được phân tích để xem liệu có sự phù hợp không
và do vậy giúp nhận ra một protein hoặc trình tự. Xem www…
- ClustalW2 là một chương trình phân tích dữ liệu cái mà tìm kiếm cho sự bắt cặp đa trình
tự để xem một trình tự mà một nhà nghiên cứu đã khám phá ra phù hợp với cái đã biết
như thế nào.
- Fasta là sự bắt cặp khác và chương trình quét CSDL được sáng tạo ra năm 1988 mặc dù
ClustalW2, được liệt kê trước đây, hầu hết được sử dụng rộng rãi.
- Ngân hàng gen là một kho chứa cho việc dự trữ các chuỗi nucleoticles .và chuỗi protein
do vậy những nhà nghiên cứu có thể kiểm tra các chuỗi mới được phát hiện dựa vào cái
đã biết. Xem http….
- Entrez/Gên là một trong những ngân hàng gen mới hơn cái mà nhiều “gen trung khu thần
kinh”; ví dụ, nó cho phép những câu hỏi, thắc mắc về môt loại gen đặc biệt; một số loại
này có thể được tìm thấy ở http….
- Dự án tập hợp tập trung vào bộ di truyền của con người bên cạnh những động vật khác.
2. Phương pháp phân tích dữ liệu trong tin sinh học
BLAST, viết tắt cho Basic Local Alignment & Search Tool, là công cụ khai thác dữ liệu
đầu tiên và phổ biến nhất cho trình tự DNA/Protein. Trước sự phát triển của công cụ này, các
nhà sinh học phải tìm kiếm một cơ sở dữ liệu của trình tự xuất bản, in chúng ra, treo
7
chúng/tường, và nhìn chúng hàng giờ để cố gắng phân biệt bất kỳ mẫu nào và hiểu được
chúng. Cũng vậy, họ phải xác định xem liệu bất kỳ trình tự mới đã phát hiện thực sự là mới
hay đã tồn tại trong tài liệu. BLAST làm điều này tự động.
Chương trình máy tính khác tìm kiếm CSDL giống như BLAST nhưng BLAST là cái
phổ biến nhất. Một số sự lựa chọn khác thay thế cho BLAST là:
- Smith-Waterman: Cái này được xem như là chính xác hơn BLAST nhưng hoạt động
chậm hơn.

- FASTA: Cái này chính xác hơn cho sự so sánh DNA nhưng cũng chậm hơn BLAST.
BLAST: Cái này có thể xác định vị trí cDNA nhanh chóng và cũng tìm protein gần gũi (vd,
chuột với người vì cả hai là động vật có vú).
2.1. ClusteralW2: Sự bắt cặp trình tự
Sau khi trình tự được tìm thấy, những trình tự này phải được bắt cặp, trong một sự nỗ lực
để thấy được toàn bộ hình ảnh, để thấy được cái gì là quan trọng và xác định cái gì có lẽ chỉ
là trình tự xa lạ hoặc dư thừa (có nhiều, sự thật là có xem xét sự dư thừa trong DNA). Một
vài công cụ có thể làm điều này tương tự như ClustalW2 là Tcoffee, MUSCLE nhưng
ClustalW2 là cái hay được dùng nhất.
ClustalW2 là một giải thuật tiến bộ sử dụng một mẹo nhỏ để xây dựng sự bắt cặp trình tự:
nó so sánh hai trình tự một và cuối cùng nhóm chúng thành cái trông như cây phát sinh loài,
hoặc cái mà các nhà thống kê gọi trong sự phân tích nhóm truyền thống, dendogram.
ClustalW2 là một trong số những sự tham khảo được trích dẫn nhiều nhất trong toàn bộ
lịch sử sinh học. W trong ClustalW2 là viết tắt cho từ cân nặng (weight); mỗi trình tự nhận
một tỷ lệ cân nặng cho số lượng thông tin nó đóng góp cho sự bắt cặp toàn bộ và bộ di
truyền. ClustalW2 có thể được tìm ở địa chỉ sau: www….
Một khi các trình tự được nhận ra và một protein được được nhận ra, điều tiếp theo mà
nhiều nhà nghiên cứu tin sinh học muốn làm là quan sát trình tự trong mẫu 3D. Điều này có
thể làm được bằng việc đi đến địa chỉ web khác của chính phủ NIH: www….
Chúng tôi sẽ không đi vào chi tiết ở đây trong cuốn sách này nhưng cung cấp địa chỉ web
này cho sự phác thảo chung tin sinh học là về cái gì.
Sau khi quan sát cấu trúc 3D, một nhà nghiên cứu có lẽ muốn tìm các protein với hình dạng
giống nhau; điều này có thể làm được ở địa chỉ web NIH khác, được biết như dịch vụ VAST
8
2.2. Tìm kiếm CSDL cho phân tử RNA
Sau khi trình tự được tìm thấy, những trình tự này phải được bắt cặp, trong một sự nỗ lực
để thấy được toàn bộ hình ảnh, để thấy được cái gì là quan trọng và xác định cái gì có lẽ chỉ
là trình tự xa lạ hoặc dư thừa (có nhiều, sự thật là có xem xét sự dư thừa trong DNA). Một
vài công cụ có thể làm điều này tương tự như ClustalW2 là Tcoffee, MUSCLE nhưng
ClustalW2 là cái hay được dùng nhất.

ClustalW2 là một giải thuật tiến bộ sử dụng một mẹo nhỏ để xây dựng sự bắt cặp trình tự:
nó so sánh hai trình tự một và cuối cùng nhóm chúng thành cái nhìn như cây phát sinh loài,
hoặc cái mà các nhà thống kê gọi trong sự phân tích nhóm truyền thống, dendogram.
ClustalW2 là một trong số những sự tham khảo được trích dẫn nhiều nhất trong toàn bộ
lịch sử sinh học. W trong ClustalW2 là viết tắt cho từ cân nặng (weight); mỗi trình tự nhận
một tỷ lệ cân nặng cho số lượng thông tin nó đóng góp cho sự bắt cặp toàn bộ và bộ di
truyền. ClustalW2 có thể được tìm ở địa chỉ sau: www….
Một khi các trình tự được nhận ra và một protein được được nhận ra, điều tiếp theo mà
nhiều nhà nghiên cứu tin sinh học muốn làm là quan sát trình tự trong mẫu 3D. Điều này có
thể làm được bằng việc đi đến địa chỉ web khác của chính phủ NIH: www….
Chúng tôi sẽ không đi vào chi tiết ở đây trong cuốn sách này nhưng cung cấp địa chỉ web
này cho sự phác thảo chung tin sinh học là về cái gì.
Sau khi quan sát cấu trúc 3D, một nhà nghiên cứu có lẽ muốn tìm các protein với hình dạng
giống nhau; điều này có thể làm được ở địa chỉ web NIH khác, được biết như dịch vụ VAST
3. Dịch vụ Web trong tin sinh học
Giao diện cơ sở SOAP và REST đã được phát triển cho hàng loạt những ứng dụng tin
sinh học, cho phép một ứng dụng chạy trên một máy tính trong một phần của thế giới sử
dụng giải thuật, dữ liệu và các nguồn tính toán trên các máy chủ ở các nơi khác nhau trên thế
giới. Thuận lợi chính nằm ở người dùng cuối cùng sẽ không phải giải quyết sự gìn giữ phần
mềm và CSDL ở trên đầu. Dịch vụ tin sinh học cơ bản được phân loại bởi viện nghiên cứu
tin sinh học châu Âu (EBI-http) thành 3 loại: Dịch vụ tìm kiếm trình tự (SSS), sự bắt cặp đa
trình tự (MSA) và sự phân tích trình tự sinh học (BSA). Sự sẵn có của các nguồn tin sinh học
định hướng dịch vụ này chứng minh sự có thể ứng dụng các giải pháp tin sinh học dựa trên
web và xếp loại từ sự sưu tập các công cụ độc lập với một mẫu DL chung dưới một giao diện
đơn , độc lập hoặc cơ sở web,cho các hệ thống quản lý quy trình tin sinh hoc trở thành một
hệ thống thống nhất, phân bổ và có thể mở rộng.
Lĩnh vực tin sinh học, với sự phát triển caurnos với nhiều loại phần mềm, khá là hỗn
loạn, một lời giái thích cho vấn đề này là tin sinh học là một lĩnh vực rất lớn gồm nhiều kiến
thức, hiểu biết khác nhau về domains, với mỗi sự hiểu biết của những người thực hành làm
9

việc trong môi trường cách ly với nhau. Chỉ gần đây những khu vực đa dạng này mới được
mang lại cùng nhau dưới cái ô tin sinh học như nhau. Sau đó, chúng tôi sẽ đề xuất rằng chúng
ta đang ở trong giai đoạn “chọn lọc ra” cái gì thực sự cần và những năm trong tương lai sẽ
mang lại nhiều hơn hay ít hơn phương pháp luận phân tích dữ liệu chuẩn mực, liên quan đến
khai thác dữ liệu và khai thác văn bản. Nhưng bây giờ, bảng 15.5 cung cấp một danh sách
của các chương trình phần mềm cái mà đang được sử dụng trong lĩnh vực tin sinh học.
BLAST là công cụ tìm kiếm CSDL chính, và ClustalW2 là công cụ bắt cặp đa trình tự chính,
đã được thảo luận trước do vậy không được bao gồm trong bảng này.
4. Làm thế nào để áp dụng phương pháp khai phá dữ liệu vào tin sinh học
Có vô số các nguồn mở và các nguồn phần mềm máy tính phần mềm miễn phí/web, cung
cấp các chương trình được viết bởi nhiều nhà nghiên cứu tin sinh học. Thêm vào đó,, một số
sách đã được viết giải thích người dùng có thể viết chương trình của chính họ như thế nào.
Một trong những điều này là với sự sử dụng Perl, sẵn có như một cơ sở dữ liệu mà nguồn
mở. Tisdall (2001) đã viết Beginning Perl For Bioinformatics, những ví dụ của trình tự được
nhấn mạnh trong đó. Perl là một ngôn ngữ máy tính tương đối dễ để học, và chúng ta đã đề
cập đến nó trong chương 9 về khai thác văn bản. Tisdall (2001) chỉ ra để xây dựng một giao
diện cho CSDL ngân hàng gen NIH như thế nào, cái mà đã được đề cập ở đầu chương này.
Nó cho phép người dùng phát triển những kỹ năng trong việc sử dụng Perl để phân tích
những chú thích trong ngân hàng và kết quả BLAST.
* Một số giải thuật
- Gollery (2008) và nhiều nguồn khác miêu tả Hidden Markov Models (HMM) và các
phương pháp liên quan như bộ HMMER, phương pháp phân tích trình tự (SAM) và giải thuật
PSI-BLAST. Khu vực này có bộ CSDL HMM của chính nó với tên như Pfam, PANTHER,
COG và metaSHARK
- Shui Qing Ye (2008) miêu tả một số DNA công thêm và công cụ phân tích bộ gen, một
số sự phân tích hệ thống sinh, sự phân tích SNP, sự phân tích haplotype,và sự quy định biểu
hiện gen. SAGE là một trong những công cụ được miêu tả. SNP, được phát âm là “snip”, viết
tắt cho Simple Nucleoticle Polymorphism
- Parida (2007):
+ Giải thuật của Prim

+ Giải thuật của Fitch
+ Sự khám phá giải thuật
+ Giải thuật mẫu thống kê, chẳng hạn:
• Cây – đếm cây nhị phân
10
• Cây – đếm cây bật rễ ( trình tự Prufer)
• Định lý Bayes với nhiều biến cố.
• Khả năng khoảng cách
• Sự phân phối có khả năng rời rạc
• Khoảng cách có khả năng liên tục
+ Giải thuật dựa trên bản đồ Parikh
+ Giải thuật ngây thơ
+ Giải thuật Uno-Yagiura
- Mitra (2008):
+ Kết luận thống kê thường xuyên nhất
+ Kết luận Bayesian
+ Phương pháp nghiên cứu không được giám sát, như:
• Sự phân tích thành phần chính
• Sự chia tỷ lệ đa chiều
• Sự phân tích nhóm
+ Tập hợp mơ hồ (FS)
+ Sự tính toán tiến triển (EC)
+ Tập hợp gần đúng
+ Kết luận mạch mạng
+ Bi-Clustering, gồm:
• Multi-object bi-clustering
• Fuzzy possibilistic bi-clustering
+ Sự phân tích hình ảnh protein 3D, sử dụng:
• ARP/WARP
• RESOLVE

• TEXTAL
11
• ACMI
MỞ RỘNG
- Tổng quan Tin sinh học
/>- Tin sinh học ở Việt Nam

12

Báo cáo Khai phá dữ liệu: Nghiên cứu và tìm hiểu Tin sinh học

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về