Tải bản đầy đủ (.ppt) (43 trang)

Nghiên Cứu Các Phương Pháp Phân Tích Và Phát Triển Các Công Cụ Tin Sinh Học Nhằm Giải Quyết Các Bài Toán Quan Trọng Trong Sinh Học Phân Tử Và Ứng Dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (978.08 KB, 43 trang )

Báo cáo nghiệm thu
Đề tài độc lập cấp nhà nước

Nghiên cứu các phương pháp phân tích và
phát triển các công cụ tin sinh học nhằm
giải quyết các bài toán quan trọng trong
sinh học phân tử và ứng dụng
Học viện CNBCVT 1/2012


Các nội dung đăng ký


ND1: xây dựng báo cáo



ND2-ND6: xây dựng phần
mềm



ND7: thử nghiệm với dữ
liệu Việt Nam



ND8: xây dựng cổng
thông tin tin sinh học




4 bài báo khoa học


Các kết quả đạt được
ND2-ND6

◦ Xây dựng đầy đủ các phần mềm đăng ký
◦ Đạt các tiêu chí về độ chính xác, chức năng, hình thức
◦ Tích hợp một số phương pháp tính toán mới do nhóm đề
tài đề xuất và phát triển
ND7

◦ Đã thu thập và thử nghiệm với dữ liệu tôm sú, lúa, gen
người, virus cúm. Kết quả thử nghiệm đạt yêu cầu.
ND8

◦ Thiết lập cổng thông tin và cụm tính toán hiệu năng cao


Các kết quả khác
 Bài

báo (đã công bố)

◦ Tạp chí quốc tế: 3 bài
◦ Hội nghị quốc tế: 4 bài
 Đào

tạo:


◦ Tiến sĩ: 1 đã bảo vệ, 1 đang thực hiện
◦ Thạc sĩ: 2 đã bảo vệ


Sử dụng kinh phí
Tổng

kinh phí: 2,6 tỷ
Thực tế sử dụng: 2,525 tỷ
Tiết kiệm: 75 triệu (theo nghị quyết 11)
Tình hình quyết toán:
◦ Đã hoàn thành hồ sơ quyết toán
◦ Đang thực hiện thủ tục nhận tiền


CÁC KếT QUả Cụ THể


ND2. Nghiên cứu xây dựng phần
mềm xác định gen
 Trường

hợp 1: cho trình tự hệ gen (genomic DNA)

 Trường

hợp 2: cho cDNA/EST
Tìm kiếm


 Trường

hợp 3: trình tự hệ gen + cDNA/EST


ND2. Giải pháp
Kết

hợp các giải pháp cho cả 3 trường hợp
GHMM

Blast
CSDL
cDNA

Blat

GHMM + thông
tin ngoài


ND2. Kết quả


ND2. Kết quả


ND3.1. Chú giải chức năng
gen/protein dựa trên trình tự
 Bài


toán: cho trình tự gen/protein, cần xác định chức
năng của gen dưới dạng các GO term (Gene
Ontology term)
MSKVAPMQLGAADAHTQ

 Là

GO term 1 ?
GO term 2 ?

bước tiếp theo sau khi xác định được gen


ND3.1.
Cách

giải quyết truyền thống
Blast

MSKVAPMQLGAADAHTQ
gán GO x, GO y, GO z

CSDL
Gen/Pro đã
biết chức
năng

Protein A với GO x, GO y
Protein B với GO x, GO z


Khó

khăn:

◦ Độ tương đồng thấp -> mâu thuẫn độ chính xác và độ
nhậy


ND3.1. Giải pháp
 Tăng

độ chính xác:

◦ Tính điểm cho các GO term dựa trên kết quả của Blast

Protein
với GO x,
 Tăng
độAnhậy:

E = 1e-20
Protein B với GO y, GO z, E = 0.01
◦ Protein
Sử dụngCtruy
vấn y,
nhiều mức
quan hệ bắc cầu
với GO
E =và

0.05

Protein A giống Protein B
Protein B giống Protein C

GO x
GO y

Thêm C vào
tập láng
giềng của A


Chuỗi truy vấn Q

A

S1

S2

……………………

SN

Chuỗi truy vấn Q

B

S2


S1

……………………

SN
………..
.

………...

S21
………...

S22 ………...


ND3.1. Kết quả
 Xây

dựng phần mềm dựa trên phương pháp CKNN
đề xuất
 Thử nghiệm trên 3 bộ dữ liệu
0.9
0.8
0.7
0.6
0.5
CKNN


0.4

TOP-PSI-BLAST

0.3
0.2
0.1
0
A. thaliana

E. coli

Độ nhậy

S. cerevisiae


ND3.1. Kết quả
0.9
0.8
0.7
0.6
0.5
CKNN

0.4

TOP-PSI-BLAST

0.3

0.2
0.1
0
A. thaliana

E. coli

Độ chính xác

S. cerevisiae


ND3.2. Chú giải chức năng
gen/protein dựa trên mạng chuyển
hóa
G1

Bài toán:

G3

G2

G4

G5
G7
G6
G10


G8
G9

Mạng chuyển hóa các
metabolite/ Mạng điều hòa gien

Profiling data

Chức năng gene/protein/metabolite


ND3.2.
Cách

giải quyết truyền thống:

Sử dụng độ đo mutual information (MI) giữa 2 biến

Tương tác cặp đôi

Khó

khăn:

- Không xác định được các tương tác cặp đôi nào xảy ra
đồng thời.
- Không xác định các tương tác đa biến


ND3.2. Giải pháp

 Xác

định các tương tác đa biến:

◦ Mở rộng công thức MI từ 2 biến sang nhiều biến

MI(X,Y,Z)

Tương tác ba


ND3.2. Kết quả
 Xây

dựng phần mềm phát hiện tương tác đa biến từ
dữ liệu biểu hiện gien hoặc dữ liệu nồng độ các chất
 Đánh giá ở mức tương tác 3 biến (so với phương
pháp chỉ sử dụng thông tin từ các tương tác 2 biến)


ND4.1. Bắt cặp đa chuỗi
Bài

toán

Khó

khăn:

◦ Bài toán tối ưu, độ phức tạp hàm mũ

◦ Ý nghĩa sinh học của hàm mục tiêu -> độ chính xác
Đối

với người dùng

◦ Quá nhiều phương pháp với những ưu/nhược điểm
riêng


ND4.1. Giải pháp 1
Mục

tiêu: thuận tiện cho người dùng
Tự chọn phương pháp
◦ Lựa chọn các phương pháp tốt nhất
◦ Xây dựng cây quyết định
◦ Sử dụng cây quyết định chọn phương pháp phù hợp
dữ liệu và yêu cầu



ND4.1. Giải pháp 2
Mục

tiêu: tăng độ chính xác
Kết hợp kết quả bắt cặp của nhiều phương pháp
Probcons
Kết hợp

Muscle

Kalign

MAFT

Thuật

toán kết hợp:

◦ Xây dựng ma trận bắt cặp đôi dựa trên voting


ND4.1. Kết quả
Phần

mềm với nhiều phương pháp bắt cặp
Mô đun bắt cặp chính xác cao kết hợp nhiều
phương pháp


×