Tải bản đầy đủ (.docx) (12 trang)

BLAST là một công cụ tìm kiếm tương tự cục bộ được sử dụng rộng rãi để xác định trình tự tương đồng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (305.36 KB, 12 trang )

BLAST là một công cụ tìm kiếm tương tự cục bộ được sử dụng rộng rãi để xác định trình tự
tương đồng. Khi trình tự gen (trình tự protein hoặc trình tự nucleotide) được sử dụng làm truy
vấn để tìm kiếm trình tự tương đồng trong bộ gen, kết quả tìm kiếm, được biểu thị dưới dạng
danh sách các cặp điểm cao (HSP), là các đoạn của gen ứng cử viên thay vì gen ứng cử viên đầy
đủ chiều dài. Các HSP có liên quan (Tín hiệu có liên quan), đại diện cho các gen ứng cử viên
trong trình tự bộ gen đích, được chôn trong một báo cáo có chứa hàng trăm đến hàng ngàn HSP
ngẫu nhiên (tiếng ồn ầm ầm). Do đó, kết quả BLAST thường áp đảo và khó hiểu ngay cả với
người dùng có kinh nghiệm. Để sử dụng hiệu quả BLAST, cần có một chương trình để trích xuất
các HSP có liên quan đại diện cho các gen tương đồng ứng cử viên từ toàn bộ báo cáo HSP. Để
đạt được mục tiêu này, chúng tôi đã thiết kế một thuật toán dựa trên đồ thị, genBlastA, tự động
lọc HSP thành các nhóm được xác định rõ, mỗi nhóm đại diện cho một gen ứng cử viên trong bộ
gen mục tiêu. Tính mới của genBlastA là một số liệu độ dài cạnh phản ánh một tập hợp các yêu
cầu có động cơ sinh học để mỗi con đường ngắn nhất tương ứng với một nhóm HSP đại diện cho
một gen tương đồng. Chúng tôi đã chứng minh rằng thuật toán mới này vừa hiệu quả vừa chính
xác để xác định các chuỗi tương đồng và nó vượt trội hơn so với các phương pháp tiếp cận hiện
có với các chức năng tương tự. Tính mới của genBlastA là một số liệu độ dài cạnh phản ánh một
tập hợp các yêu cầu có động cơ sinh học để mỗi con đường ngắn nhất tương ứng với một nhóm
HSP đại diện cho một gen tương đồng. Chúng tôi đã chứng minh rằng thuật toán mới này vừa
hiệu quả vừa chính xác để xác định các chuỗi tương đồng và nó vượt trội hơn so với các phương
pháp tiếp cận hiện có với các chức năng tương tự. Tính mới của genBlastA là một số liệu độ dài
cạnh phản ánh một tập hợp các yêu cầu có động cơ sinh học để mỗi con đường ngắn nhất tương
ứng với một nhóm HSP đại diện cho một gen tương đồng. Chúng tôi đã chứng minh rằng thuật
toán mới này vừa hiệu quả vừa chính xác để xác định các chuỗi tương đồng và nó vượt trội hơn
so với các phương pháp tiếp cận hiện có với các chức năng tương tự. Ví dụ: BLAST phát hiện
các vùng tương tự giữa chuỗi truy vấn và chuỗi mục tiêu trong cơ sở dữ liệu. Như minh họa
trong Hình 1, mỗi trận đấu giữa đoạn chuỗi truy vấn và đoạn chuỗi đích được báo cáo là một cặp
điểm cao (HSP), bao gồm một cặp chuỗi: [Q, T], trong đó Q là một đoạn từ chuỗi truy vấn (nghĩa
là , phân đoạn truy vấn) và T là phân đoạn khớp từ chuỗi mục tiêu trong cơ sở dữ liệu đích (nghĩa
là phân đoạn đích). Khi tìm kiếm BLAST trả về nhiều HSP cho một gen truy vấn (chuỗi protein
hoặc chuỗi cDNA) trong bộ gen đích, nó cho thấy sự tồn tại của một hoặc nhiều gen tương đồng
trong bộ gen (hoặc cơ sở dữ liệu nucleotide), với mỗi HSP thường tương ứng với một


exon BLAST chỉ định cho mỗi HSP một điểm bit, giá trị kỳ vọng ( E -value), cũng như tỷ lệ
phần trăm nhận dạng (PID) và các giá trị tương tự. Ví dụ, khi protein được mã hóa
bởi Caenorhabd viêm Elegansgen C11G6.3 được sử dụng làm truy vấn TBLASTN cho bộ
gen C. Elegans , nhiều HSP được báo cáo. Mỗi HSP là duy nhất, với E -value và PID tương
ứng . Trong số các HSP này, một số có thể đại diện cho các gen ứng cử viên và có thể cung cấp
cho các nhà sinh vật học một điểm khởi đầu có ý nghĩa để nghiên cứu thêm, trong khi những
người khác là các cú đánh ngẫu nhiên. Do đó, mặc dù BLAST và các công cụ tìm kiếm tương tự
khác tạo ra danh sách các HSP, chúng không tiết lộ HSP nào đại diện cho các gen ứng cử viên,
chứ đừng nói đến việc có bao nhiêu gen tương đồng tồn tại trong bộ gen đích.


Hình 1.
Nhóm các HSP thành các nhóm đại diện cho parolog (Gene1 và Gene2) song song trong bộ gen đích. Để
đơn giản, con số này chỉ hiển thị một phần nhỏ HSP được BLAST trả về. Mỗi HSP có thể tương ứng với
một đoạn mã hóa (có thể là exon) của gen, do đó một nhóm HSP có thể đại diện chung cho một gen có
chiều dài đầy đủ. Mỗi ô được tô bóng ở dưới cùng của các hình đại diện cho một HSP ở vị trí bộ gen
tương ứng của nó. Các gen ứng cử viên được hiển thị trên bộ gen, với exon (hộp đen) được kết nối bởi
các intron (dòng). Các nhóm HSP đại diện tốt nhất cho các gen được hiển thị dưới các gen tương ứng, với
các HSP có liên quan trong các nhóm được khoanh tròn. Hai gen paroteous song song (Gene1 và Gene2)
được hiển thị. Ranh giới của hai gen phải được giải quyết chính xác.

Trong những năm qua, các giải pháp đặc biệt đã được phát triển để lọc và nhóm HSP, được sản
xuất bằng BLAST và các công cụ tìm kiếm dựa trên sự tương tự khác, thành các nhóm đại diện
cho gen. Vấn đề là các giải pháp ad hoc này có thể giải quyết một số gen nhưng thất bại trong
nhiều trường hợp. Chương trình nổi tiếng nhất cung cấp chức năng phân nhóm HSP là WUBLAST ( Lopez và cộng sự 2003), một dẫn xuất chương trình BLAST. Nó có thể phân loại các
HSP thành các nhóm khi người dùng kích hoạt tùy chọn topcomboE trực tiếp. Trong mỗi nhóm
được sản xuất bởi WU-BLAST, HSP thường liền kề và cộng tuyến. Mặc dù WU-BLAST có thể
nhóm thành công một số HSP thành các cấu trúc giống như gen, đối với các HSP đại diện cho
các gen ứng cử viên trong các cụm song song trong bộ gen mục tiêu, WU-BLAST chắc chắn thất
bại. Đối với những trường hợp này, WU-BLAST có xu hướng nhóm các HSP tương ứng với các

gen khác nhau vào cùng một nhóm, như được thảo luận sau. Một chương trình dựa trên thuật
toán tăng dần dài nhất (LIS) đã được phát triển để lọc và nhóm BLAST HSP (Zhang
2003). Tương tự như chương trình WU-BLAST, nó không giải thích một cách đáng tin cậy các
HSP đại diện cho nhiều gen di truyền. Một chương trình khác, BLAST2GENE, đã được phát
triển để giải quyết cụ thể vấn đề đa gen di truyền (Suyama et al. 2004);
Gần đây, Cui et al. (2007)đã phát triển một thuật toán lọc và nhóm mới xử lý các kết quả
BLAST, lần lượt được sử dụng để xác định các gen tương đồng. Các nhà điều tra đã áp dụng quy
trình ba bước để lọc và nhóm các HSP đại diện cho các gen ứng cử viên: (1) lọc tất cả các HSP
bằng cách loại bỏ các HSP có điểm thấp hơn giá trị heuristic; (2) nhóm HSP dựa trên khoảng
cách vật lý của chúng dọc theo nhiễm sắc thể; và (3) tiếp tục lọc HSP bằng cách ước tính khoảng
cách bộ gen của các vùng mục tiêu. Tất cả các HSP nằm ngoài vùng mục tiêu được loại trừ khỏi
phân tích sâu hơn. So sánh với WU-BLAST, thất bại trong việc lọc và nhóm các HSP đại diện
cho tất cả các gen tương đồng song song, chương trình này lọc chính xác và nhóm các HSP đại
diện cho một số gen tương đồng song song. Tuy nhiên, chương trình này có một điểm yếu quan
trọng, đó là sự phụ thuộc của nó vào khoảng cách vật lý (bước 2) giữa các cấu trúc gen (các
nhóm HSP) với các nhóm riêng biệt. Nó giả định rằng khoảng cách giữa các gen khác nhau lớn
hơn đáng kể so với khoảng cách giữa các HSP trong một nhóm, điều này không đúng, đặc biệt là
đối với các gen paroteous trong các cụm song song. Do việc sử dụng ngưỡng khoảng cách ad hoc


để tách các gen liền kề, chương trình bằngCui et al. (2007) không giải quyết được các gen di
truyền riêng lẻ trong các cụm song song. Một mặt, nếu giá trị ngưỡng khoảng cách để tách gen
quá lớn, các HSP tương ứng với nhiều gen sẽ được gộp lại thành một nhóm lớn. Mặt khác, nếu
giá trị ngưỡng quá nhỏ, các HSP tương ứng với cùng một gen có thể được chia thành các nhóm
HSP khác nhau. Ngoài điểm yếu quan trọng này, chương trình của Cui et al. (2007) không thể
được áp dụng để lọc các HSP đại diện cho gen vì chương trình này không loại bỏ các HSP ngẫu
nhiên rơi vào vùng gen có chứa gen ứng cử viên.
Nhiệm vụ lọc và nhóm đặc biệt khó khăn khi gen truy vấn có số lượng lớn gen di truyền song
song trong bộ gen đích, như minh họa trong Hình 1. Hình 1 cho thấy một gen truy vấn có thể có
hai (hoặc nhiều) gen tương đồng (Gene1 và Gene2) nằm ở các vùng gen liền kề. Người ta biết

rằng một số lượng lớn gen trong hầu hết các bộ gen được giải trình tự cho đến nay là một phần
của cụm gen tương đồng song song. Ví dụ, trong bộ gen của giun tròn C. Elegans , hơn 1400 gen
hóa trị tạo thành nhiều cụm gen song song, mỗi gen chứa hai hoặc nhiều gen tương đồng
( Robertson và Thomas 2006). Do đó, một chương trình có khả năng lọc và lắp ráp các HSP đại
diện cho các gen trong các cụm song song là rất quan trọng.
Trong dự án này, chúng tôi đã phát triển một thuật toán dựa trên đồ thị mới, genBlastA, để giải
quyết trực tiếp thách thức được mô tả ở trên, trong số các vấn đề khác, trong việc lọc và lắp ráp
HSP vào các vùng gen gen. Một tính năng đặc biệt của genBlastA là nó không phụ thuộc vào
việc sử dụng ngưỡng ad hoc để lọc các HSP nhiễu và khoảng cách vật lý giữa các gen mục
tiêu. Thay vào đó, genBlastA mô hình hóa các mối quan hệ và các ràng buộc giữa các HSP dưới
dạng biểu đồ có hướng, chỉ định biểu đồ HSP và mô hình hóa vấn đề lọc và lắp ráp HSP như một
tìm kiếm các đường đi ngắn nhất trong biểu đồ này. Tính mới của thuật toán dựa trên biểu đồ này
là một số liệu độ dài cạnh sáng tạo phản ánh một tập hợp các yêu cầu có động lực sinh học để
mỗi con đường ngắn nhất tương ứng với một nhóm HSP đại diện cho một gen tương
đồng. Không giống như các phương pháp phân nhóm ad hoc hiện có,tối ưu hóa độ dài đường dẫn
để nắm bắt tốt nhất chất lượng của một nhóm HSP làm gen ứng cử viên. Do đó, phương pháp
của chúng tôi mạnh mẽ hơn và nó tìm ra một giải pháp tối ưu (liên quan đến một số liệu độ dài
nhất định) mà không áp đặt một ràng buộc trước đó (tức là ngưỡng ad hoc) trên cấu trúc gen.
Chúng tôi đã thử nghiệm hiệu suất của genBlastA trong việc lọc và lắp ráp các HSP được tìm
thấy trong bộ gen của hai loài tuyến trùng có liên quan chặt chẽ với nhau: C.
Elegans ( Consortium 1998 ) và Caenorhabd viêm briggsae ( Stein và cộng sự 2003 ). Những bộ
gen này đã được chọn để thử nghiệm vì cả hai đã được chú thích rộng rãi. Nghiên cứu của chúng
tôi cho thấy hiệu suất của genBlastA tốt hơn đáng kể so với WU-BLAST và chương trình
của Cui et al. (2007) .
Đi đến:

Các kết quả
Trong dự án này, chúng tôi đã phát triển chương trình genBlastA (được mô tả trong Phương
thức) sử dụng thuật toán dựa trên biểu đồ mới, cung cấp cho chương trình khả năng tuyệt vời để
xác định các nhóm HSP đại diện cho orthologs (gen ở các loài khác nhau nhưng có cùng nguồn

gốc trong quá trình tiến hóa), parolog ( các gen được nhân đôi trong một loài), cũng như các gen
mới (các gen chưa được xác định).


Giải quyết các gen di truyền trong các cụm song song
Để kiểm tra khả năng của ba chương trình để giải quyết các gen trùng lặp song song, chúng tôi
đã kiểm tra các nhóm HSP được tạo ra cho 30 gen truy vấn trong bộ gen kiểm tra là thành viên
của các họ gen lớn. Để so sánh, sau khi chúng tôi xác định các nhóm HSP sử dụng genBlastA,
WU-BLAST và ML, chúng tôi đã giữ lại tất cả các khu vực ứng cử viên với độ bao phủ truy vấn
≥50%. Các nhóm HSP sau đó đã được kiểm tra và chia thành hai loại: Các nhóm đặc biệt và các
nhóm không chuyên biệt. Một nhóm HSP được gọi là cụ thể nếu vùng gen tương ứng chỉ chứa
một gen chú thích và được gọi là không đặc hiệu nếu vùng đó có nhiều gen chú thích. Các nhóm
HSP có độ tương tự cao với truy vấn và chỉ chứa các gen đơn lẻ có khả năng là parolog thực
sự.Hình 2 minh họa một ví dụ, trong đó có năm gen paroteous trong một cụm gen song
song. Đúng như dự đoán, WU-BLAST chỉ xác định chính xác một gen mục tiêu và không thể tạo
ra các nhóm HSP tương ứng với bốn gen còn lại. ML đã tạo ra ba nhóm, hai trong số đó chứa
nhầm HSP tương ứng với các gen lân cận khác. ML đã bỏ lỡ các nhóm cho hai gen mục tiêu
(T27B7.4 [ nhr-115 ] và T27B7.6a [ nhr-228 ]) và nhóm HSP bị nhầm lẫn tương ứng với
T27B7.6a với nhóm HSP tương ứng với T27B7.5 ( nhr-227 ) (Hình 2 ). Ngược lại, genBlastA đã
giải quyết thành công tất cả năm gen, tạo ra năm nhóm HSP.


Hình 2.
Nhóm các HSP thành các nhóm đại diện cho các gen riêng lẻ. genBlastA đã có thể giải quyết tất cả năm
thành viên, trong khi ML chỉ giải quyết được hai và WU chỉ có một. Các mô hình gen được hiển thị trong
theo dõi Mô hình gen. HSP được hiển thị dưới dạng hộp màu xanh trong bản nhạc Tất cả HSP. Màu sắc
biểu thị các PID khác nhau cho HSP. Màu tối hơn cho thấy PID cao hơn. Các bản nhạc genBlastA Group,
ML Group và WU Group hiển thị các nhóm HSP được trả về bởi genBlastA, ML và WU-BLAST, tương
ứng.


Tóm lại, khi BLAST được thực thi với cài đặt chưa được khai thác trong các bộ EvsE, tỷ lệ trung
bình của các nhóm HSP cụ thể theo genBlastA là ∼80%, cao hơn đáng kể so với WU-BLAST
(∼20%) hoặc ML (20%) 40%) ( Hình 3). Các kết quả tương tự đã được quan sát khi BLAST
được thực hiện với cài đặt bị rách. Do đó, trong mọi trường hợp, genBlastA có thể giải quyết các
nhóm HSP cụ thể hơn theo các bản sao song song so với WU-BLAST hoặc ML. WU-BLAST
thường tạo ra nhiều nhóm HSP, nhưng chúng thường kéo dài các vùng có nhiều gen (do đó
không đặc hiệu). Do đó, các nhóm WU-BLAST kết hợp các gen di truyền song song, dẫn đến
hiệu suất kém trong việc giải quyết các gen di truyền song song. ML có hiệu suất kém do sử


dụng ngưỡng khoảng cách. Đặc biệt, khi ngưỡng khoảng cách tăng lên, khả năng ML giải quyết
các nhóm parologous khoảng cách gần nhau sẽ giảm.

Hình 3.
Nhóm các HSP để biểu diễn các gen tương đồng riêng lẻ trong các cụm song song. Hình này cho thấy tỷ
lệ phân giải trung bình cho tổng số 30 cụm gen được nhân đôi trong bộ dữ liệu EvsE cho genBlastA
(GB), Cui et al. (2007) (ML) và WU-Blast (WU). Tỷ lệ của các nhóm cụ thể được tính bằng số lượng gen
được phân giải trên tổng số gen trong mỗi cụm gen song song. Một gen được coi là được giải quyết nếu
nhóm HSP trùng lặp với chỉ một gen duy nhất trong WormBase và độ tương tự nhịp là ≥50%. Gaps và
unsaps đại diện cho hai kết quả BLAST độc lập bằng cách sử dụng cài đặt bị rách hoặc cài đặt không bị
chặn. Giá trị alpha GB là 0,5. Ngưỡng khoảng cách ML là 1000. Thanh lỗi, SE. (***) Ý nghĩa thống kê
( P <0,001) theo t- test của Sinh viên được ghép nối .

Tìm kiếm các nhóm chỉnh hình
Trong thử nghiệm này, nhóm HSP được xếp hạng hàng đầu tương ứng với từng gen truy vấn
được đánh giá bằng cách so sánh với gen dự kiến được chú thích trong WormBase (WS170). Đầu
tiên, chúng tôi so sánh tỷ lệ chính xác của ba chương trình khi các gen C. Elegans được sử dụng
làm gen truy vấn để tìm kiếm các gen được xếp hạng hàng đầu trong C. Elegansbộ gen. Tỷ lệ
chính xác được xác định là tỷ lệ phần trăm của các nhóm HSP được lắp ráp chính xác. Tỷ lệ
chính xác cho genBlastA là 97,2%, cao hơn nhiều so với WU-BLAST và ML, tương ứng là

67,0% và 82,8%. Để so sánh chính xác hơn, sự giống nhau hoặc trùng lặp giữa nhóm HSP và gen
dự kiến đã được định lượng. Chúng tôi đã sử dụng hai tiêu chí sau để đánh giá các nhóm HSP
được xếp hạng hàng đầu: (1) phạm vi truy vấn và (2) khoảng cách gen. Phạm vi truy vấn đo
lường sự tương đồng giữa nhóm HSP và gen truy vấn. Nó được định nghĩa là tỷ lệ của chuỗi truy
vấn được bao phủ bởi các HSP trong nhóm HSP được xác định bởi mỗi trong số ba chương
trình. Một chương trình nên xác định nhóm HSP bao gồm tốt nhất gen truy vấn. Khoảng cách bộ
gen đo lường mức độ chồng chéo giữa vùng gen được đưa ra bởi nhóm HSP và vùng gen dự kiến
trong bộ gen mục tiêu. Chúng tôi đã đánh giá điều này bằng cách sử dụng độ tương tự của


Jaccard: Đối với vùng gen mục tiêu được chú thích RA và vùng gen được báo cáo R R , sự giống
nhau của chúng là (| R A R R | / | R A R R |). Kết quả này bằng 0 khi hai vùng không trùng nhau.
Kiểm tra phạm vi truy vấn

Hình 4, A và C , hiển thị phạm vi truy vấn trung bình cho 464 gen truy vấn trong bộ gen thử
nghiệm. Khi BLAST được thực thi bằng cách sử dụng cài đặt chưa được khai thác trong thử
nghiệm EvsE (Hình 4A ) và thử nghiệm EvsB (Hình 4 ), genBlastA xác định các nhóm HSP với
độ bao phủ truy vấn gần 100% và vượt trội đáng kể cả WU-BLAST và ML. Tương tự, khi
BLAST được thực thi bằng cài đặt bị rách, genBlastA vượt trội đáng kể so với cả WU-BLAST
và ML trong thử nghiệm EvsE (Hình 4A ) và thử nghiệm EvsB (Hình 4 ).

Hinh 4.
( A ) Phạm vi bảo hiểm trung bình cho tập dữ liệu EvsE. ( B ) Độ tương tự nhịp trung bình cho tập dữ liệu
EvsE. ( C ) Bảo hiểm trung bình cho tập dữ liệu EvsB. ( D ) Độ tương tự nhịp trung bình cho tập dữ liệu
EvsB. Trong mọi trường hợp, số liệu biểu thị kết quả trung bình trên 464 gen thử nghiệm cho ba chương
trình khác nhau genBlastA (GB), Cui et al. (2007) (ML) và WU-Blast (WU). Gaps và unsaps đại diện cho
hai kết quả BLAST độc lập bằng cách sử dụng cài đặt bị rách hoặc cài đặt không bị chặn. Độ tương tự của
khoảng cách được tính bằng độ tương tự của Jaccard. Giá trị alpha GB là 0,5. Ngưỡng khoảng cách ML là
1000. Thanh lỗi, SE. (***) Ý nghĩa thống kê ( P <0,001) theo t- test của Sinh viên được ghép nối .



Kiểm tra nhịp gen

Như được hiển thị trong Hình 4B , khi BLAST được chạy bằng cài đặt chưa được khai thác, đối
với cả hai thử nghiệm EvsE và EvsB, genBlastA vượt trội đáng kể so với cả WU-BLAST và ML
bởi các lề lớn, cho thấy rằng các vùng gen được dự đoán bởi WU-BLAST và ML các khu vực
genomic thực sự. Tương tự, khi BLAST được chạy bằng cài đặt bị rách, đối với cả hai bài kiểm
tra EvsE và EvsB, genBlastA vượt trội hơn cả WU-BLAST và ML, trong khi WU-BLAST vượt
trội hơn ML.
Được kết hợp với nhau, genBlastA vượt trội hơn cả WU-BLAST và ML trong việc xác định các
nhóm HSP chỉnh hình.
Xác định gen mới
Vì genBlastA có thể được áp dụng để xác định hiệu quả các vùng gen tương đồng trong bộ gen
mục tiêu, chúng tôi cho rằng nó có thể được sử dụng để xác định các gen di truyền mới đã bị bỏ
qua bởi các phương pháp khác. Để chứng minh điều này, chúng tôi đã kiểm tra xem genBlastA
có thể được sử dụng để xác định các nhóm HSP trong bộ gen C. Elegans tương đồng với các gen
kiểm tra và không trùng lặp với bất kỳ chú thích gen hiện có nào, do đó, xác định các gen tiểu
thuyết giả định hoặc các giả thuyết mới.
Chúng tôi đã đánh giá tất cả các vùng gen tương đồng ứng cử viên cho 464 gen truy vấn cho
những gen thể hiện cả phạm vi bao phủ gen truy vấn quan trọng (> 80%) và không tương ứng
với các gen đã biết. Chúng tôi tìm thấy tám ứng cử viên. Đặc biệt, bốn trong số chúng chứa các
gen tiểu thuyết giả định tương đối dài (> 300 axit amin) (Bảng bổ sung 1; Hình 5 ). Những gen
tiểu thuyết giả định này sẽ được thử nghiệm trong phòng thí nghiệm để kiểm tra xem chúng có
phải là gen thật hay không. Do bộ gen thử nghiệm chiếm ∼2% bộ gen của C. Elegans , chúng tôi
ước tính genBlastA sẽ xác định hàng trăm gen tương đồng mới (bao gồm hàng trăm gen dài)
trong toàn bộ bộ gen. Do đó, phát hiện của chúng tôi đã chứng minh rằng genBlastA có khả năng
xác định các gen di truyền mới.


Hình 5.

( A ) HSP được trả về bởi BLAST. Q 1 , Q 2 , Q 3 và Q 4 đại diện cho các phân đoạn truy vấn, trong khi T 1 ,
T 2 , T 3 , T 4 , T 5 và T 6 đại diện cho các phân đoạn mục tiêu. ( B ) Ví dụ về các nhóm HSP. ( C ) Biểu đồ
HSP, với các đường liền nét thể hiện các cạnh và các chấm chấm biểu thị các cạnh bỏ qua. ( D ) Biểu đồ
HSP, với các thanh dọc biểu thị các cạnh tách biệt.
Đi đến:

Thảo luận
BLAST và các chương trình tìm kiếm có liên quan đã được sử dụng rộng rãi để xác định trình tự
tương đồng vì chúng nhạy cảm và hiệu quả trong việc tìm kiếm các đoạn tương đồng cho các gen
truy vấn. Tuy nhiên, kết quả BLAST thường chứa một số lượng lớn HSP và có thể là thách thức
nếu không áp đảo cho người dùng cuối. GenBlastA chương trình của chúng tôi cung cấp một
cách hiệu quả để diễn giải danh sách HSP lớn được báo cáo bởi BLAST để cho phép người dùng
tập trung vào các mục tiêu mà họ thấy thú vị. genBlastA cho phép người dùng xác định một cách
hiệu quả các vùng gen tương đồng đại diện cho các gen ứng cử viên có chiều dài đầy đủ, thay vì
các đoạn của gen (HSP). Do đó, genBlastA trao quyền cho người dùng bằng cách cho phép họ
xác định hiệu quả các gen ứng cử viên trong bộ gen mục tiêu. Điều này sẽ làm cho BLAST và
các chương trình liên quan thậm chí hữu ích hơn.
Phân tích của chúng tôi đã chỉ ra rõ ràng rằng genBlastA vượt trội hơn các chương trình hiện có
được phát triển trước đây với các mục tiêu tương tự. Đặc biệt, genBlastA rất hiệu quả trong việc
nhóm các HSP tương ứng với các gen riêng lẻ trong các cụm gen tương đồng. Cả WU-BLAST
và chương trình được phát triển bởi Cui et al. (2007) thất bại trong nhiệm vụ này. Ngoài ra, mặc
dù ML hoạt động tốt hơn WU-BLAST trong việc giải quyết nhiều gen di truyền trong các cụm
song song, chương trình ML hiện tại chưa sẵn sàng cho công việc này vì chương trình ML hiện
tại không có khả năng loại bỏ HSP ngẫu nhiên trong các vùng gen.


Khả năng giải quyết hiệu quả các nhóm HSP bằng genBlastA sẽ cho phép người dùng tận dụng
các nhóm HSP, rất hữu ích theo nhiều cách. Đầu tiên, genBlastA có thể được các nhà nghiên cứu
sử dụng để nhanh chóng xác định vị trí cấu trúc gen ứng cử viên trong các vùng gen tương đồng
đã xác định trong bộ gen mục tiêu. So với bộ sưu tập HSP lớn được báo cáo bởi BLAST và các

chương trình tương tự, các nhóm HSP được xếp hạng cung cấp thông tin hữu ích hơn nhiều liên
quan đến cấu trúc gen mục tiêu đầy đủ, thay vì các đoạn gen mục tiêu. Vì người dùng cuối như
nhà sinh học thực nghiệm thường quan tâm đến gen hơn, genBlastA làm cho kết quả tìm kiếm dễ
tiếp cận và có ý nghĩa hơn đối với họ.
Thứ hai, genBlastA có thể được sử dụng để tiền xử lý các chuỗi DNA bộ gen cho các chương
trình tìm kiếm gen, bao gồm cả genewise ( Birney et al. 2004 ) và exon Cả ( Slater và Birney
2005). Cả genewise và exon Cả đều được sử dụng rộng rãi để dự đoán gen dựa trên tương
đồng. Tuy nhiên, cả hai chương trình, đặc biệt là genewise, đều có giá trị tính toán khi được sử
dụng để tìm kiếm các gen ứng cử viên trong toàn bộ bộ gen. Hiệu suất của chúng có thể được
tăng cường đáng kể nếu không gian tìm kiếm bộ gen của chúng bị giảm. genBlastA, có khả năng
xác định các vùng gen ứng cử viên, có thể được sử dụng một cách hiệu quả để xử lý trước các
trình tự gen để giảm không gian tìm kiếm. Nó cũng có thể được tích hợp vào chương trình
bởi Cui et al. (2007) để xác định các gen tương đồng.
Thứ ba, các HSP này có thể được sử dụng để giải quyết các cấu trúc gen, bằng tay hoặc tính
toán. Các mô hình gen ứng cử viên có thể được xác định chính xác bởi các HSP trong mỗi nhóm
HSP, thông tin ghép nối exron intron ở các cạnh của HSP, cũng như sự tương đồng giữa các gen
truy vấn và ứng cử viên. Một chương trình dự đoán gen dựa trên điều này đang được phát triển
và sẽ được báo cáo riêng.
Đi đến:

Phương pháp
Định nghĩa vấn đề
Trong nghiên cứu này, chúng tôi nghiên cứu vấn đề sau: đưa ra một chuỗi truy vấn (gen), đó là
protein (sản phẩm gen) và cơ sở dữ liệu về trình tự gen mục tiêu, chúng tôi muốn xác định tất cả
các vùng gen tương đồng có chứa gen mục tiêu (gen trong trình tự đích tương đồng với gen truy
vấn). Đầu tiên, là một bước tiền xử lý, chúng tôi áp dụng BLAST để tìm sự sắp xếp cục bộ giữa
chuỗi truy vấn và chuỗi mục tiêu. Bước này tạo ra một danh sách các HSP, với mỗi HSP chứa
thông tin sau: (1) phân đoạn đích T và vị trí của nó trong chuỗi mục tiêu và phân đoạn truy vấn
tương ứng Q và vị trí của nó trong chuỗi truy vấn, (2) một E-giá trị và (3) một giá trị PID. Trong
bước thứ hai, chúng tôi lọc và nhóm các HSP sao cho mỗi nhóm HSP tạo thành một vùng ứng cử

viên chứa gen mục tiêu, được gọi là vùng gen ứng cử viên. genBlastA tập trung vào bước thứ
hai.
Một ví dụ về danh sách các HSP được hiển thị trong Hình 5A , trong đó sự tương ứng giữa phân
đoạn đích (T) và phân đoạn truy vấn (Q) trong HSP được minh họa bằng các đường chấm
chấm. Ví dụ: [Q 1 , T 1 ] và [Q 1 , T 2 ] đại diện cho hai HSP khác nhau. HSP có thể trùng lặp về vị
trí bộ gen và / hoặc tương ứng truy vấn của chúng. Lưu ý rằng các HSP được hiển thị trong hình


này chỉ nhằm mục đích minh họa, mặc dù thuật toán của chúng tôi có thể xử lý đúng các HSP
với nhiều loại mối quan hệ khác nhau.
Mỗi trình tự bộ gen có hai chuỗi Tích cực và tiêu cực. Mỗi chuỗi được coi là một chuỗi mục tiêu
riêng biệt bởi genBlastA. Sự khác biệt duy nhất của chúng là hướng liên kết giữa gen mục tiêu
và gen truy vấn. Do mỗi chuỗi mục tiêu là độc lập và có danh sách HSP riêng, chúng tôi xử lý
riêng từng chuỗi mục tiêu để có được các vùng gen ứng cử viên cho chuỗi đó. Cuối cùng, tất cả
các ứng cử viên cho tất cả các chuỗi mục tiêu được xếp vào một danh sách xếp hạng duy nhất
theo điểm số của họ như được tính toán bằng thuật toán của chúng tôi (sẽ thảo luận sau). Từ giờ
trở đi, để đơn giản, tất cả các cuộc thảo luận sẽ dựa trên một chuỗi truy vấn và một chuỗi mục
tiêu chuỗi tích cực duy nhất.
Trong báo cáo này, do giới hạn về không gian, chúng tôi trình bày ngắn gọn một phương pháp
mới dựa trên biểu đồ genBlastA để mô hình hóa nhóm HSP tốt nhất là vấn đề tìm kiếm các
đường dẫn ngắn nhất trong biểu đồ. Chi tiết về thuật toán genBlastA được mô tả trong Dữ liệu
Bổ sung.
Các nhóm HSP
Với mỗi phân đoạn mục tiêu HSP phù hợp với một phân đoạn truy vấn, một nhóm các phân đoạn
mục tiêu HSP tuần tự có thể khớp chung với một phần lớn hơn của chuỗi truy vấn. Chúng tôi
quan tâm đến các nhóm HSP đó, tương ứng với các gen tương đồng với gen truy vấn. Những
nhóm như vậy được gọi là nhóm HSP. Nói chung, có các số nhóm HSP khác nhau trong chuỗi
mục tiêu cho mỗi gen truy vấn. Nếu gen truy vấn không được bảo tồn trong bộ gen đích, thì
không thể tìm thấy nhóm HSP nào. Nếu gen truy vấn thuộc về một nhóm đa gen (hoặc gen truy
vấn có nhiều gen paroteous), sẽ có nhiều nhóm HSP trong chuỗi mục tiêu, mỗi nhóm đại diện

cho một vùng ứng cử viên mã hóa một gen paroteous.
Xem xét ví dụ trong Hình 5A.T 3 và T 4 theo cùng thứ tự với các phân đoạn truy vấn của
chúng. Vì vậy, [Q 3 , T 4 ] có thể nằm trong cùng một nhóm với [Q 2 , T 3 ]. Trong thực tế, bằng
cách hợp nhất T 3 và T 4 thành một vùng mục tiêu liên tục và hợp nhất các phân đoạn truy vấn
của chúng thành một vùng truy vấn liên tục, chúng ta có sự liên kết lớn hơn, do đó tốt hơn. Hình
5Bcho thấy một nhóm các HSP có thể đáp ứng các yêu cầu tuần tự và đồng tuyến tính. Lưu ý
rằng Nhóm 1 và Nhóm 3 có phạm vi bao phủ gen truy vấn không đầy đủ vì một phần lớn của
chuỗi truy vấn không nằm trong các phân đoạn truy vấn của chúng. Ngược lại, Nhóm 2 bao gồm
toàn bộ chuỗi truy vấn. Một nhóm HSP tốt nên có phạm vi truy vấn lớn.
Đối với một nhóm HSP, vùng kết hợp của các phân đoạn truy vấn của họ sẽ bao gồm chuỗi truy
vấn càng nhiều càng tốt. Trong Hình 5B , Nhóm 2 tốt hơn Nhóm 1 hoặc Nhóm 3 vì nó bao phủ
một vùng lớn hơn của chuỗi truy vấn.
Mô hình đồ thị
Biểu đồ HSP là biểu diễn biểu đồ nắm bắt các yêu cầu trên đối với các nhóm HSP. Mỗi HSP
được đại diện bởi một nút, với các cạnh mô hình hóa thứ tự tuần tự của các phân đoạn mục tiêu
HSP và các cạnh bỏ qua HSP. Một nhóm HSP được mô hình hóa bằng cách nhóm các nút trên


một đường dẫn, sao cho mỗi nhóm bao gồm càng nhiều phân đoạn truy vấn càng tốt trong khi
duy trì trạng thái thông thường. Bằng cách sử dụng số liệu độ dài (Dữ liệu bổ sung), chúng tôi sẽ
chỉ ra rằng một nhóm HSP tối ưu là một con đường ngắn nhất trong biểu đồ HSP.
Hình 5C cho thấy biểu đồ HSP cho các HSP trongHình 5A.Các cạnh chấm là bỏ qua các
cạnh. Mỗi đường dẫn trong biểu đồ biểu thị một cách chọn HSP dọc theo đường dẫn. Với các
cạnh bỏ qua, biểu đồ HSP cung cấp một không gian tìm kiếm hoàn chỉnh cho tất cả các nhóm
HSP có thể. Số lượng các cạnh bỏ qua có thể rất lớn. Tuy nhiên, sau khi giới thiệu số liệu độ dài
trên các cạnh (Dữ liệu bổ sung), chúng tôi sẽ chỉ ra rằng nhiều cạnh bỏ qua có thể được loại bỏ
mà không ảnh hưởng đến kết quả. GenBlastA chương trình của chúng tôi sẽ không xây dựng các
cạnh bỏ qua như vậy, do đó làm tăng đáng kể hiệu quả của genBlastA.
Trong hình 5D , để phân biệt hai loại cạnh này, chúng ta thêm một thanh dọc cho mỗi cạnh tách
biệt. Ví dụ, H 1 → H 2 là một cạnh tách biệt, có nghĩa là nút nguồn và nút đích của nó phải thuộc

về các nhóm HSP khác nhau. Cạnh bỏ qua H 1 → H 3 là cạnh mở rộng và cạnh bỏ qua H 1 →
H 6 là cạnh tách biệt.
Với các cạnh mở rộng và các cạnh tách biệt, mỗi đường dẫn trong biểu đồ HSP biểu thị cách lọc
và nhóm các HSP: Khi chúng ta đi qua một đường dẫn, theo cạnh mở rộng sẽ mở rộng nhóm
HSP hiện tại để bao gồm nút đích và theo cạnh tách biệt kết thúc nhóm HSP hiện tại tại nút
nguồn của nó và bắt đầu một nhóm HSP mới tại nút đích của nó. Nếu cạnh mở rộng là cạnh bỏ
qua, theo cạnh sẽ bỏ qua các nút trên các đường dẫn được tắt theo cạnh. Theo nghĩa này, biểu đồ
HSP cung cấp một không gian tìm kiếm hoàn chỉnh để lọc và nhóm các HSP.
Thuật toán đường dẫn ngắn nhất nguồn đơn cho đồ thị chu kỳ có hướng có thể được thực hiện
hiệu quả trong thời gian O ( E ), trong đó E là số cạnh ( Manber 1989 ). Thực hiện thuật toán này
một lần cho mỗi thể nút khởi H 1 , tổng thời gian chạy là O ( E ⋅ V ), nơi Vlà số nút cuối mép tách
và được bao bọc bởi số lượng HSPs.



×