Báo cáo nghiệm thu
Đề tài độc lập cấp nhà nước
Nghiên cứu các phương pháp phân tích và
phát triển các công cụ tin sinh học nhằm
giải quyết các bài toán quan trọng trong
sinh học phân tử và ứng dụng
Học viện CNBCVT 1/2012
Các nội dung đăng ký
ND1: xây dựng báo cáo
ND2-ND6: xây dựng phần
mềm
ND7: thử nghiệm với dữ
liệu Việt Nam
ND8: xây dựng cổng
thông tin tin sinh học
4 bài báo khoa học
Các kết quả đạt được
ND2-ND6
◦ Xây dựng đầy đủ các phần mềm đăng ký
◦ Đạt các tiêu chí về độ chính xác, chức năng, hình thức
◦ Tích hợp một số phương pháp tính toán mới do nhóm đề
tài đề xuất và phát triển
ND7
◦ Đã thu thập và thử nghiệm với dữ liệu tôm sú, lúa, gen
người, virus cúm. Kết quả thử nghiệm đạt yêu cầu.
ND8
◦ Thiết lập cổng thông tin và cụm tính toán hiệu năng cao
Các kết quả khác
Bài
báo (đã công bố)
◦ Tạp chí quốc tế: 3 bài
◦ Hội nghị quốc tế: 4 bài
Đào
tạo:
◦ Tiến sĩ: 1 đã bảo vệ, 1 đang thực hiện
◦ Thạc sĩ: 2 đã bảo vệ
Sử dụng kinh phí
Tổng
kinh phí: 2,6 tỷ
Thực tế sử dụng: 2,525 tỷ
Tiết kiệm: 75 triệu (theo nghị quyết 11)
Tình hình quyết toán:
◦ Đã hoàn thành hồ sơ quyết toán
◦ Đang thực hiện thủ tục nhận tiền
CÁC KếT QUả Cụ THể
ND2. Nghiên cứu xây dựng phần
mềm xác định gen
Trường
hợp 1: cho trình tự hệ gen (genomic DNA)
Trường
hợp 2: cho cDNA/EST
Tìm kiếm
Trường
hợp 3: trình tự hệ gen + cDNA/EST
ND2. Giải pháp
Kết
hợp các giải pháp cho cả 3 trường hợp
GHMM
Blast
CSDL
cDNA
Blat
GHMM + thông
tin ngoài
ND2. Kết quả
ND2. Kết quả
ND3.1. Chú giải chức năng
gen/protein dựa trên trình tự
Bài
toán: cho trình tự gen/protein, cần xác định chức
năng của gen dưới dạng các GO term (Gene
Ontology term)
MSKVAPMQLGAADAHTQ
Là
GO term 1 ?
GO term 2 ?
bước tiếp theo sau khi xác định được gen
ND3.1.
Cách
giải quyết truyền thống
Blast
MSKVAPMQLGAADAHTQ
gán GO x, GO y, GO z
CSDL
Gen/Pro đã
biết chức
năng
Protein A với GO x, GO y
Protein B với GO x, GO z
Khó
khăn:
◦ Độ tương đồng thấp -> mâu thuẫn độ chính xác và độ
nhậy
ND3.1. Giải pháp
Tăng
độ chính xác:
◦ Tính điểm cho các GO term dựa trên kết quả của Blast
Protein
với GO x,
Tăng
độAnhậy:
E = 1e-20
Protein B với GO y, GO z, E = 0.01
◦ Protein
Sử dụngCtruy
vấn y,
nhiều mức
quan hệ bắc cầu
với GO
E =và
0.05
Protein A giống Protein B
Protein B giống Protein C
GO x
GO y
Thêm C vào
tập láng
giềng của A
Chuỗi truy vấn Q
A
S1
S2
……………………
SN
Chuỗi truy vấn Q
B
S2
S1
……………………
SN
………..
.
………...
S21
………...
S22 ………...
ND3.1. Kết quả
Xây
dựng phần mềm dựa trên phương pháp CKNN
đề xuất
Thử nghiệm trên 3 bộ dữ liệu
0.9
0.8
0.7
0.6
0.5
CKNN
0.4
TOP-PSI-BLAST
0.3
0.2
0.1
0
A. thaliana
E. coli
Độ nhậy
S. cerevisiae
ND3.1. Kết quả
0.9
0.8
0.7
0.6
0.5
CKNN
0.4
TOP-PSI-BLAST
0.3
0.2
0.1
0
A. thaliana
E. coli
Độ chính xác
S. cerevisiae
ND3.2. Chú giải chức năng
gen/protein dựa trên mạng chuyển
hóa
G1
Bài toán:
G3
G2
G4
G5
G7
G6
G10
G8
G9
Mạng chuyển hóa các
metabolite/ Mạng điều hòa gien
Profiling data
Chức năng gene/protein/metabolite
ND3.2.
Cách
giải quyết truyền thống:
Sử dụng độ đo mutual information (MI) giữa 2 biến
Tương tác cặp đôi
Khó
khăn:
- Không xác định được các tương tác cặp đôi nào xảy ra
đồng thời.
- Không xác định các tương tác đa biến
ND3.2. Giải pháp
Xác
định các tương tác đa biến:
◦ Mở rộng công thức MI từ 2 biến sang nhiều biến
MI(X,Y,Z)
Tương tác ba
ND3.2. Kết quả
Xây
dựng phần mềm phát hiện tương tác đa biến từ
dữ liệu biểu hiện gien hoặc dữ liệu nồng độ các chất
Đánh giá ở mức tương tác 3 biến (so với phương
pháp chỉ sử dụng thông tin từ các tương tác 2 biến)
ND4.1. Bắt cặp đa chuỗi
Bài
toán
Khó
khăn:
◦ Bài toán tối ưu, độ phức tạp hàm mũ
◦ Ý nghĩa sinh học của hàm mục tiêu -> độ chính xác
Đối
với người dùng
◦ Quá nhiều phương pháp với những ưu/nhược điểm
riêng
ND4.1. Giải pháp 1
Mục
tiêu: thuận tiện cho người dùng
Tự chọn phương pháp
◦ Lựa chọn các phương pháp tốt nhất
◦ Xây dựng cây quyết định
◦ Sử dụng cây quyết định chọn phương pháp phù hợp
dữ liệu và yêu cầu
ND4.1. Giải pháp 2
Mục
tiêu: tăng độ chính xác
Kết hợp kết quả bắt cặp của nhiều phương pháp
Probcons
Kết hợp
Muscle
Kalign
…
MAFT
Thuật
toán kết hợp:
◦ Xây dựng ma trận bắt cặp đôi dựa trên voting
ND4.1. Kết quả
Phần
mềm với nhiều phương pháp bắt cặp
Mô đun bắt cặp chính xác cao kết hợp nhiều
phương pháp