Tải bản đầy đủ (.pdf) (3 trang)

Phương pháp lọc nâng cao hiệu quả dự đoán liên kết Residue

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (288.81 KB, 3 trang )

Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8

PHƯƠNG PHÁP LỌC NÂNG CAO HIỆU QUẢ
DỰ ĐOÁN LIÊN KẾT RESIDUE
Nguyễn Quỳnh Diệp1, Lê Thị Tú Kiên2
Trường Đại học Thủy lợi, email:
2
Khoa Công nghệ thông tin, Đại học Sư Phạm Hà Nội, email:
1

1. GIỚI THIỆU

2. NỘI DUNG

Protein là những đại phân tử được cấu tạo
theo nguyên tắc đa phân mà các đơn phân
là axít amin. Để thực hiện các chức năng của
mình, các protein tương tác với các protein
khác hoặc các phân tử khác trong tế bào. Sự
tương tác này ảnh hưởng đến các hoạt động
sống trong tế bào và các quá trình sống của
động thực vật. Vì vậy, việc nghiên cứu về sự
tương tác của các protein là một trong những
vấn đề quan trọng trong sinh học.
Trong những năm gần đây, các nhóm
nghiên cứu Weigt [1] và Marks [2] đã phát
triển thuật tốn Direct-coupling analysis để
tìm ra thông tin liên kết trực tiếp giữa các cặp
residue và ứng dụng vào dự đoán cấu trúc
bậc ba của các protein. Bên cạnh đó, các
nhóm nghiên cứu của González [3], Tu Kien


T. Le [4] đã xây dựng phương pháp dự đốn
liên kết residue giữa các protein domain bằng
cách tích hợp các thông tin liên kết residue
trong các cấu trúc protein phức hợp. Mặc dù
kết quả thực nghiệm đã chứng minh phương
pháp đề xuất trong [4] cho kết quả dự đốn
tốt hơn các phương pháp trước đó, nhưng số
cặp residue khơng liên kết được dự đốn là
liên kết (false positive samples) thường nhiều
hơn số cặp residue liên kết và được dự đoán
là liên kết (true positive samples). Bởi vậy,
trong nghiên cứu này chúng tôi đề xuất một
phương pháp lọc bỏ các mẫu false positive
nhằm nâng cao chất lượng dự đoán liên kết
giữa các residue.

2.1. Dự đoán liên kết ResidureResidure dựa trên phương pháp ipHMM
và SVM
Trong nghiên cứu [4], chúng tôi đã xây
dựng phương pháp dự đoán liên kết residue–
residue của các protein domain bằng cách
tích hợp các thơng tin liên kết residue từ một
số nguồn. Thứ tự thực hiện của phương pháp
được mơ tả tóm tắt như sau:
Bước thứ nhất, một tập con các cặp protein
domain tương tác (DDIs) cùng với thông tin
liên kết ở mức residue của chúng được lọc ra
với điều kiện “khoảng cách” giữa cặp protein
domain truy vấn và khoảng cách với từng cặp
protein domain trong tập này nhỏ hơn một

ngưỡng t.
Bước thứ hai, tập các DDIs được lọc ra ở
bước một được dùng để huấn luyện hai mơ
hình ipHMM. Sau đó, các ipHMMs này được
dùng để tính véc tơ Fisher cho từng residue.
Bước thứ ba, tập dữ liệu huấn luyện được
sử dụng để huấn luyện một mơ hình phân lớp
SVM. Mơ hình phân lớp này sau đó được sử
dụng để phân lớp các cặp residue trong tập
đánh giá (chính là các cặp residue của cặp
chuỗi protein truy vấn) vào hai lớp: liên kết
hoặc không liên kết.
Kết quả thực nghiệm trong nghiên cứu [4]
đã chứng minh độ chính xác của kết quả dự
đốn là cao. Tuy nhiên, phương pháp này còn
tồn tại một số vấn đề như sau:
• Thứ nhất, việc kết hợp các cặp residue của
từng cặp chuỗi Protein Domain bằng cách

225


Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8

lấy tuần tự từng residue ở chuỗi này ghép
tuần tự với từng residue của chuỗi kia sẽ
khiến kết quả dự đốn có thể xảy ra khả
năng dự đốn sai, hay gọi là mẫu false
positive (Hình 1).
M

N

Hình 1: Ví dụ mơ tả dự đốn liên kết residue
bất thường có thể xảy ra trong [9]
• Thứ hai, với mỗi cặp chuỗi Protein
Domain thì số cặp residure liên kết với
nhau ít hơn nhiều so với số lượng cặp
residue không liên kết. Sự mất cân bằng
này sẽ dẫn đến trường hợp: cho dù tỉ lệ các
cặp residue khơng liên kết được dự đốn là
có liên kết thấp đối với cặp DDI truy vấn
(khoảng từ 2 đên 5 phần trăm) nhưng số
lượng residue được dự đoán là false
positive vẫn nhiều hơn nhiều lần so với số
cặp residue thực sự liên kết.
Từ những phân tích trên, trong phần tiếp
theo sau chúng tôi đề xuất phương án để làm
tăng chất lượng kết quả dự đoán cho phương
pháp ở [4] .
2.2. Phương pháp lọc các cặp residue dự
đốn sai
Để lọc được các cặp residue false positive,
chúng tơi đề xuất một phương án giải quyết
như sau: giả sử một residue ở chuỗi protein
domain M được dự đoán liên kết với hai
residue ở chuỗi protein domain N. Tuy nhiên,
nếu vị trí của hai residue ở chuỗi thứ hai cách
xa nhau thì một trong trong hai cặp residue
được dự đốn là liên kết này sẽ sẽ được coi là
dự đoán sai. Phương án đề xuất này được

trình bày tường minh như sau:
Input:
Danh sách P các cặp residue đã được dự
đoán là liên kết
Thứ tự của các residue trong hai chuỗi
protein domain.

Output:
- Danh sách Q bao gồm các cặp residue
còn lại sau khi đã lọc bỏ các trường hợp được
cho là dự đoán sai (false positive).
Phương pháp:
Bước 0: Gán danh sách Q rỗng.
Bước 1: Chọn một cặp residue (m, n) trong
danh sách P và đưa vào vào danh sách T.
Bước 2: Lọc ra các cặp residue khác trong
danh sách P có cùng thứ tự với residue m và
đưa vào danh sách T.
Bước 3: Sắp xếp danh sách T theo thứ tự
tăng dần của các residue thuộc vào chuỗi
protein domain N.
Bước 4: Chọn cặp residue (x, y) đầu tiên
trong danh sách T và đưa vào danh sách Q.
Với mỗi cặp residue từ vị trí thứ 2 trở đi
trong T, tính khoảng cách giữa residue thuộc
vào chuỗi protein domain N với residue y
(dựa trên thứ tự của residue trên chuỗi). Nếu
khoảng cách lớn hơn một ngưỡng d thì cặp
residue này được cho là false positive. Ngược
lại, đưa nó vào danh sách Q.

Bước 5: Cập nhật danh sách P bằng cách
loại bỏ các cặp residue có trong danh sách T
từ danh sách P. Sau đó, xóa tất cả các cặp
residue trong danh sách T.
Bước 6: Nếu danh sách P khơng cịn cặp
residue nào chuyển sang bước 7, hoặc P chỉ
cịn một cặp residue thì đưa nó vào danh sách
Q và chuyển sang bước 7. Ngược lại, chuyển
về bước 1.
Bước 7: Kết thúc.
2.3. Thực nghiệm và đánh giá kết quả
Để đánh giá hiệu quả phương pháp đã đề
xuất trong mục 2.2., chúng tôi thực hiện thực
nghiệm trên ba bộ dữ liệu được liệt kê trong
Bảng 1.

226

Bảng 1. Danh sách dữ liệu thực nghiệm
ID

DomainM

DomainN

#DDIs

1

Fib_alpha


Fib_alpha

101

2

Rhv

Rhv

101

3

Insulin

Insulin

103

4

C1_set

C1_set

482



Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8

Trong đó, cột thứ nhất là số thứ tự các bộ dữ
liệu, cột thứ hai và thứ ba là tên các họ Pfam
protein domain, cột thứ tư là số lượng các cặp
protein domain tương tác. Thông tin về khả
năng liên kết của các cặp amino acid (AAPCPs)
được lấy từ cơ sở dữ liệu Aaindex [5].
Với mỗi bộ dữ liệu như trong Bảng 1 và
với mỗi giá trị ngưỡng t (t=0.1, 0.2, 0.3, 0.5,
0.7, 0.9), chúng tôi thực hiện phương pháp
đánh giá Odd one out 5 lần. Mỗi lần lựa chọn
ngẫu nhiên một cặp DDI làm dữ liệu kiểm tra
(DDI truy vấn) và những DDI còn lại làm tập
huấn luyện. Sau khi dự đoán nhãn 1 hoặc 0
(liên kết hoặc không liên kết) cho các cặp
residue của DDI truy vấn, chúng tơi áp dụng
thuật tốn đề xuất trong mục 2.3 để loại bỏ
các cặp residue được cho là False positive.
Giá trị ngưỡng d trong thực nghiệm này được
chọn là 10.
Hình 2 biểu diễn kết quả MCC trung bình
(trục đứng) trên hai bộ dữ liệu Fib_alphaFib_alpha, Rhv- Rhv, tương ứng với các giá
trị của ngưỡng t (trục ngang) từ 0.1 đến 0.9
của hai trường hợp trước và sau khi lọc
các cặp residue false positive. Kết quả trong

Hình 2. So sánh MCC trung bình trên hai
bộ dữ liệu Fib_alpha-Fib_alpha, Rhv-Rhv


Hình 2 cho thấy, với cặp họ Pfam Fib_alphaFib_alpha, phép lọc cho kết quả MCC trung
bình tốt hơn tại các giá trị t từ 0.1 đến 0.5
nhưng lại kém hơn ở các giá trị 0.7 và 0.9. Ở
cặp họ Pfam Rhv - Rhv, thuật tốn của chúng
tơi cho giá trị MCC trung bình tốt hơn tại tất
cả giá trị của ngưỡng t. Đặc biệt khi t = 0.1
hoặc t = 0.2 thì tất cả các bộ giữ liệu đều cho
kết quả MCC tốt hơn.
3. KẾT LUẬN

Trong nghiên cứu này, chúng tôi đã đề
xuất một giải pháp làm tăng chất lượng của
kết quả dự đoán cặp residue liên kết. Tuy
nhiên, phương pháp đề xuất chưa thể hiện sự
hiệu quả rõ rệt trong mọi trường hợp nhưng
đã mở thêm ra một số vấn đề tiếp theo cần
phải nghiên cứu. Hy vọng trong những
nghiên cứu tiếp theo chúng tôi sẽ giải quyết
được những trường hợp này.
4. TÀI LIỆU THAM KHẢO
[1] M. Weigt, R. A. White, H. Szurmant, J. A.
Hoch, and T. Hwa, “Identification of direct
residue contacts in protein – protein
interaction by message passing,” vol. 106,
no. 1, 2009.
[2] D. S. Marks et al., “Protein 3D structure
computed from evolutionary sequence
variation,” PLoS One, vol. 6, no. 12, 2011.
[3] A. J. González, L. Liao, and C. H. Wu,
“Prediction of contact matrix for proteinprotein interaction,” Bioinformatics, vol.

29, no. 8, pp. 1018–1025, 2013.
[4] T. Kien T. Le et al., “Predicting residue
contacts for protein-protein interactions by
integration of multiple information,” J.
Biomed. Sci. Eng., vol. 07, no. 01, pp. 28–
37, 2014.
[5] S. Kawashima, P. Pokarowski, M.
Pokarowska, A. Kolinski, T. Katayama, and
M. Kanehisa, “AAindex/: amino acid index
database , progress report 2008,” vol. 36,
no. November 2007, pp. 202–205, 2008.

227



×