BỘ GIÁO DỤC VÀ ĐÀO TẠO
BỘ Y TẾ
ĐẠI HỌC Y DƯỢC THÀNH PHỐ HỒ CHÍ MINH
PHAN THIỆN VY
NGHIÊN CỨU XÂY DỰNG MÔ HÌNH DOCKING VÀ
QSAR CỦA CÁC CHẤT ỨC CHẾ BƠM NGƯỢC
ABCC2/MRP2
LUẬN VĂN THẠC SĨ DƯỢC HỌC
Thành phố Hồ Chí Minh – 2016
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC Y DƯỢC THÀNH PHỐ HỒ CHÍ MINH
PHAN THIỆN VY
BỘ Y TẾ
NGHIÊN CỨU XÂY DỰNG MÔ HÌNH DOCKING VÀ
QSAR CỦA CÁC CHẤT ỨC CHẾ BƠM NGƯỢC
ABCC2/MRP2
Chuyên ngành: Công nghệ dược phẩm Bào chế
Mã số: 60.72.04.02
LUẬN VĂN THẠC SĨ DƯỢC HỌC
Thầy hướng dẫn:
PGS.TS. Thái Khắc Minh
PGS.TS Lê Minh Trí
Thành phố Hồ Chí Minh – 2016
Luận văn tốt nghiệp Thạc sĩ Dược học – Năm học 2014 – 2016
NGHIÊN CỨU XÂY DỰNG MÔ HÌNH DOCKING VÀ QSAR CỦA CÁC
CHẤT ỨC CHẾ BƠM NGƯỢC ABCC2/MRP2
Phan Thiện Vy
Thầy hướng dẫn: PGS. TS. Thái Khắc Minh
PGS. TS. Lê Minh Trí
Mở đầu
Bơm ABCC2 (ATP Binding Cassette subfamily C member 2) thuộc họ bơm sử dụng
năng lượng ATP để vận chuyển các chất qua màng. Bơm ABCC2 còn được gọi là
MRP2 (Multidrug Resistance Protein 2) vì bơm góp phần gây ra tình trạng kháng
thuốc ở các tế bào ung thư. Bơm phân bố ở tế bào biểu mô ống mật ở gan, tế bào
ống lượn gần, tế bào biểu mô ruột do đó bơm ảnh hưởng đến sự hấp thu và đào thải
các chất độc nội sinh và các thuốc sử dụng đường uống. Trong đề tài này, mô hình
mô tả phân tử docking và mô hình 2D-QSAR được xây dựng nhằm xác định tương
tác của các chất ức chế với các acid amin tại khoang trung tâm và dự đoán các chất
có khả năng ức chế hoạt tính bơm.
Đối tượng và phương pháp nghiên cứu
Công cụ FlexX tích hợp trong LeadIT được sử dụng để nghiên cứu mô hình mô tả
phân tử docking của 204 chất có hoạt tính ức chế bơm. Cấu trúc homology của bơm
ABCC2 được xây dựng bằng server tự động I-TASSER. Bảy mô hình phân loại và 2
mô hình hồi quy được xây dựng bằng phần mềm SONNIA 4.2, 2 mô hình hồi quy
được xây dựng bằng phần mềm MOE 2008.10 dựa trên cơ sở dữ liệu gồm 372 chất
được thu thập từ 16 bài báo khoa học.
Kết quả và bàn luận
Có 2 mô hình phân loại CPG-NN và 2 mô hình hồi quy PLS được xây dựng với kết
quả dự đoán tốt. Mô hình CPG-NN C iABCC2 phân loại khả năng ức chế bơm có
độ đúng 0,88 và MCC = 0,75. Mô hình CPG-NN C iEG phân loại khả năng ức chế
bơm trên cơ chất EG có độ đúng 0,91 và MCC = 0,82. Mô hình hồi quy PLS-EG dự
đoán IC50 của các chất ức chế bơm trên cơ chất EG có RMSE = 0,26 và R 2 = 0,72.
Mô hình PLS-CDCF dự đoán IC50 của các chất ức chế bơm trên cơ chất CDCF có
RMSE = 0,30 và R2 = 0,67. Bốn mô hình này được ứng dụng để sàng lọc một thư
viện 1661 chất, kết quả thu được 369 chất có khả năng ức chế bơm trên cả 2 cơ chất
EG và CDCF. Kết quả docking tại khoang trung tâm trên bơm ABCC2 cho thấy
Arg943 là acid amin quan trọng tại khoang gắn kết, Arg943 tạo 2 liên kết hydro và 1
tương tác kỵ nước với đa số các chất ức chế.
Kết luận
Đề tài đã xây dựng được mô hình homology của bơm ABCC2 bằng server ITASSER với chất lượng tốt và độ tin cậy khá cao. Mô hình này tạo cơ sở cho việc
docking các chất ức chế vào khoang trung tâm nhằm tìm ra các aicd amin và các
liên kết quan trọng tại khoang gắn kết. Hai mô hình hồi quy CPG-NN và hai mô
hình phân loại PLS có tính ứng dụng cao trong việc tìm kiếm những chất có khả
năng ức chế bơm ABCC2.
Final thesis for the degree of Master Pharm. - Academic year: 2014 – 2016
QSAR MODELING AND MOLECULAR DOCKING OF HUMAN
ABCC2/MRP2 EFFLUX PUMP INHIBITORS
Phan Thien Vy
Supervisor: Dr. Khac-Minh Thai, Dr. Minh-Tri Le
Introduction
ABCC2/MRP2 is a member of ATP-binding cassette family of transporters. This
efflux transporter is found in the apical membranes of polarized cells and is
expressed mainly in the liver, kidney and intestine. ABCC2 involves in absorption,
distribution and excretion of drugs and xenobiotics. Overexpression of this pump
also contributes to the drug resistance of cancer cells. In this thesis, molecular
docking and pharmacophore models on ABCC2 inhibitors have been developed.
These models are aimed to identify the residues making contact with ABCC2
inhibitors and to establish a computational prediction model on ABCC2 inhibitors.
Materials and Methods
FlexX tool integrated in Lead IT was used for molecular docking studies of 204
ABCC2 inhibitors. 3D structure of ABCC2 pump has been predicted by I-Tasser
online server. Seven classification models and 2 regression models were built by
SONNIA 4.2, 2 regression models were built by MOE 2008.10 based on dataset
containing of 372 compounds collected from 16 scientific articles.
Results and Discussion
A total of 2 CPG-NN classification models and 2 PLS regression models were built
with good predicting results. The CPG-C iABCC2 for classifying inhibitors ABCC2
pump has total accuracy 0,88 and MCC = 0,75. The CPG-C iEG for classifying
inhibitors ABCC2 pump (substrate EG) has total accuracy 0,91 and MCC = 0,82.
The regression model PLS EG for predicting inhibitors pump (substrate EG) was
resulted with RMSE = 0,26 and R 2 = 0,72 The regression model PLS CDCF for
predicting inhibitors pump (substrate CDCF) was resulted with RMSE = 0,30 and
R2 = 0,67. Four 2D-QSAR models were applied on 1661 compounds, the results is
obtaining of 369 compounds that had inhibitory activities in both of subtrates. For
molecular docking, amino acid played an important roles in central cavity was
Arg943, Arg943 was identified to bind with majority of ligands by 2 hydrogen
bonds and 1 hydrophobic interaction.
Conclusions
ABCC2 homology was successfully developed with good quality and high
confidence by I-Tasser server. This 3D-structure homology was used to built
molecular docking model at central cavity in order to find out important residues
and bonds. Two classifying models CPG-NN and two regression models PLS are
built with high applicability in looking for inhibitory activities ABCC2 pump drugs.
LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và
chưa từng được ai công bố trong bất kỳ công trình nào khác.
PHAN THIỆN VY
6
MỤC LỤC
7
DANH MỤC CÁC CHỮ VIẾT TẮT
2D-QSAR
3D-QSAR
ANN
ABCC2
CDCF
Cmoat
CPG-C
CPG-NN
CPG-R
EG
GH
IC50
LOO
MCC
MOE
MSD
MRP2
NBD
PLS
QSAR
RMSE
STT
UT
VT
2 Dimensions – QSAR
3 Dimensions – QSAR
Artificial Neural Network (Mạng thần kinh nhân tạo)
ATP Binding Cassette sub-family C member 2
5(6)-carboxy-2,'7'-dichlorofluorescein
Major Canalicular Organic Aninon Transporter
Counter-propagation Neural Network Classification (Phân loại
dựa vào mạng nơ-ron nhiều lớp ngược hướng)
Counter-propagation Neural Network (Mạng nơ-ron nhiều lớp
ngược hướng)
Counter-propagation Neural Network Regression (Hồi quy dựa
vào mạng nơ-ron nhiều lớp ngược hướng)
β-estradiol 17-β-d-glucuronide
Goodness of Hit lists
50% inhibitory concentration (Nồng độ tối thiểu ức chế 50%)
Leave-one-out (Bỏ-ra-một)
Matthews correlation coefficient (Hệ số tương quan Mathew)
Molecular Operating Environment
Membrane Spanning Domain
Multidrug resistance associated protein 2
Nucleotid Binding Domain
Partial Least Squares (Bình phương tối thiểu từng phần)
Quatitative Structure Activity Relationship (Mối quan hệ định
lượng giữa cấu trúc và tác dụng)
Root mean square error (Sai số bình phương trung bình)
Số thứ tự
Uptake Transport (Vận chuyển hấp thu)
Vesicular Transport (Vận chuyển qua màng túi)
8
DANH MỤC CÁC HÌNH
9
DANH MỤC CÁC BẢNG
10
LỜI CẢM ƠN
Với lòng biết ơn sâu sắc em xin gời lời cảm ơn đến thầy PGS. TS. Thái Khắc Minh.
Trong suốt quá trình làm luận văn, thầy đã luôn quan tâm động viên, theo sát và chỉ
bảo tận tình. Thầy luôn sẵn sàng giải giảng và truyền đạt cho em những kiến thức
quý báu để em hiểu rõ và thực hiện tốt luận văn của mình. Thầy đã dành rất nhiều
thời gian để góp ý và chỉnh sửa cho luận văn của em được đầy đủ và hoàn chỉnh
hơn.
11
MỞ ĐẦU
ABCC2 hay còn gọi là bơm ngược MRP2 (Multidrug resistance associated protein
2) là bơm vận chuyển duy nhất của họ ABCC nằm ở màng đỉnh (màng đối mặt với
các khoang của cơ thể) của tế bào phân cực đặc biệt ở gan, thận, ruột và nhau thai.
Trong khi đó, MRP1 và những bơm MRP khác (MRP3, MRP6) chủ yếu nằm ở
màng đáy của tế bào (màng tiếp giáp mạch máu) (ngoại trừ MRP4 ở thận). Do vậy,
bơm MRP2 có một vai trò đặc biệt quan trọng trong việc đào thải thuốc và các chất
độc nội sinh [12].
ABCC2 được xếp vào nhóm protein đa kháng thuốc trong các dòng ung thư kháng
cisplatin. ABCC2 còn vận chuyển nhiều thuốc trị ung thư ra khỏi tế bào như
vinblastin, vincristin, epirubicin và chlorambucil. Vai trò sinh lý quan trọng được
biết đến hiện nay của ABCC2 là đào thải các anion hữu cơ và các chất chuyển hóa
khác như leukotrien-C4, glutathion, bilirubin dạng mono hay bi-glucuronid,
estradiol glucuronid và p-aminohippurat. Có báo cáo cho thấy phần lớn các chất nền
ABCC2 có yếu tố anion [41].
Các thuốc không biến đổi được bơm bởi ABCC2 bao gồm doxorubicin, các chất ức
chế HIV protease, nucleosid phosphonat, p-aminohippuric acid và các kháng sinh
nhóm fluoroquinolon [42].
Hiện nay, tuy trên lâm sàng chưa có tương tác thuốc tác động đáng kể đến bơm
ABCC2, nhưng người ta tin rằng điều này có nguy cơ cao sẽ xảy ra [23]. Khi hoạt
động bơm ABCC2 bị suy giảm do di truyền hoặc bị ức chế do tương tác thuốc sẽ
làm tăng lượng bilirubin liên hợp trong máu. Tầm quan trọng của việc xem xét các
thuốc có khả năng ức chế ABCC2 dẫn đến tăng bilirubin liên hợp đã được Hiệp hội
bơm vận chuyển quốc tế (International Transporter Consortium) nhấn mạnh [23].
Các hợp chất này hoặc các chất chuyển hóa của chúng sẽ ức chế ABCC2, cũng như
các bơm vận chuyển khác như MRP3, MRP4 dẫn đến nhiễm độc gan [23]. Tương
tự như vậy, ức chế ABCC2 có thể gây ra sự tích tụ các anion hữu cơ bên trong các
tế bào ống lượn gần gây suy thận, các anion hữu cơ còn gây ức chế tổng hợp DNA
ty thể dẫn đến hội chứng Fanconi [11]. Trong bối cảnh đó, các chất ức chế mạnh
12
ABCC2 là mối quan tâm đáng kể trong nghiên cứu tương tác thuốc. Ngoài ra, việc
phát triển các thuốc có thể ức chế sự đào thải của ABCC2 cũng cần được xem xét
để cải thiện hiệu quả điều trị.
Chính vì vậy, việc xây dựng mô hình QSAR – nhằm dự đoán mối liên hệ giữa cấu
trúc và tác động ức chế ABCC2/MRP2 – để ứng dụng trong sàng lọc số lượng lớn
các chất có sẵn trong ngân hàng dữ liệu, định hướng thiết kế và tổng hợp nhằm mục
đích giải thích cơ chế tác động cũng như tìm ra những chất ức chế ABCC2/MRP2 là
rất cần thiết. Bên cạnh đó, mô hình mô tả phân tử docking cũng được tiến hành dựa
vào cấu trúc bơm xây dựng từ kỹ thuật mô tả tính tương đồng (homology) nhằm
khảo sát khả năng gắn kết của các chất ức chế này vào đích tác động. Mô hình này
có thể được ứng dụng để khảo sát một tập hợp hơn 1500 thuốc đã được sử dụng
trong thực tiễn lâm sàng nhằm tìm ra những chất có khả ức chế hoạt động của bơm,
ảnh hưởng đến sinh khả dụng của các thuốc khác khi dùng chung.
Mục tiêu tổng quát
Nghiên cứu xây dựng mô hình dự đoán các chất có khả năng ức chế bơm
ABCC2/MRP2 và nghiên cứu khả năng gắn kết của các chất ức chế với bơm
ABCC2/MRP2 nhằm thiết kế sàng lọc các chất có khả năng ức chế bơm.
Mục tiêu cụ thể
- Tập hợp cơ cở dữ liệu các chất ức chế ABCC2/MRP2, từ đó xây dựng mô hình
QSAR giúp dự đoán hoạt tính ức chế ABCC2/MRP2.
- Xây dựng mô hình mô tả phân tử docking các chất ức chế bơm ngược
ABCC2/MRP2.
- Ứng dụng trên tập cơ sở gồm các chất ức chế ABCC2/MRP2 nhằm mục đích giải
thích cơ chế tác động.
- Sàng lọc và thiết kế các chất có khả năng ức chế bơm ABCC2/MRP2 từ ngân hàng
dữ liệu.
13
CHƯƠNG 1.
1.1.
TỔNG QUAN TÀI LIỆU
Bơm vận chuyển ABCC2
1.1.1.
Các bơm vận chuyển thuộc họ ABC
Bơm vận chuyển thuộc họ ABC là các protein xuyên màng, sử dụng năng lượng
thủy phân nucleotid để vận chuyển cơ chất nội sinh qua màng tế bào. Các bơm
thuộc họ gia đình ABC gồm 49 gen được chia ra làm 7 phân họ từ ABCA tới ABCG
dựa trên trình tự tương đồng. Chức năng sinh lý chính của các bơm này là giải độc
và bảo vệ tế bào khỏi các tác nhân hóa học có hại. Tuy nhiên, bên cạnh các chất có
hại, các bơm này còn đẩy thuốc ra khỏi tế bào do đó ảnh hưởng đến sinh khả dụng
và sự đào thải thuốc. [31]
1.1.2.
Cấu trúc của bơm ABCC2
Protein ABCC2 có 1545 acid amin cấu tạo nên 2 phần gắn ATP là Nucleotid
biniding domain (NBD) và 17 xoắn xuyên màng là Membrane spanning domain
(MSD) trong 3 vùng xuyên màng MSD 0, 1, 2. Hai MSD có chức năng chính là
MSD 1 và 2, MSD0 chứa 200 acid amin gồm 5 xoắn xuyên màng chưa được xác
định rõ vai trò. [12] Các loài chủ yếu khác nhau ở trình tự acid amin trong vùng
MSD còn hai NBD có trình tự bảo tồn giữa các loài. [9]
Hình 1.1.
Cấu trúc bơm ngược ABCC2 [7]
Mỗi MSD gồm 6 xoắn xuyên màng. Hai phần NBD nằm trên các vùng liên kết giữa
MSD1, MSD2 và trên đầu C tận nội bào của MSD2. NBD1 và NBD2 của ABCC2
14
có chức năng không tương xứng nhau. NBD1 có ái lực cao với ATP hơn NBD2.
Trong khi đó, NBD2 lại có khả năng thủy giải ATP cao hơn NBD1. [12]
Vị trí gắn kết cơ chất và chất ức chế của ABCC2 là một vấn đề khá phức tạp và cần
được nghiên cứu thêm. Một số bằng chứng về vị trí gắn kết đã được công bố trong
một số bài báo khoa học. Hirono và cộng sự bằng phương pháp pharmacophore và
tạo đường viền dựa vào CoMFA trên ABCC2 của chuột đã đưa ra giả thuyết rằng
có thể có 2 vị trí gắn kết cơ chất (Hình 1.2.). Vị trí sơ cấp được tạo bởi 2 vị trí kỵ
nước và hai vị trí mang điện tích dương. Trong khi đó, vị trí thứ cấp được cho là tạo
nên sự đa dạng cơ chất vận chuyển cho ABCC2 lại cấu tạo bởi hai vị trí tích điện
dương và hai vị trí tích điện âm. [19]
Vùng mang điện tích dương
Vị trí gắn kết sơ cấp
Vùng mang điện tích âm
Vị trí gắn kết thứ cấp
Vùng kỵ nước
Hình 1.2.
1.1.3.
Vị trí gắn kết cơ chất của ABCC2 ở chuột [6]
Sự phân bố của bơm ABCC2 trong cơ thể
Sự phân bố của bơm ngược ABCC2 trong các mô và tế bào ảnh hưởng tới sự đào
thải, hiệu quả và độc tính của thuốc. ABCC2 phân bố chủ yếu tại gan, thận và ruột.
Các bơm ngược này hiện diện ở màng tế bào vi ống ở gan, tế bào biểu mô túi mật,
màng đỉnh (apical membrane) ống lượn gần, tế bào ung thư có nguồn gốc từ ống
1.2.
Sàng lọc ảo
15
Sàng lọc ảo (Virtual screening – VS) hay còn gọi là sàng lọc in silico, là một kỹ
thuật máy tính được sử dụng trong nghiên cứu thiết kế thuốc. Walter và cộng sự đã
định nghĩa sàng lọc ảo là “việc tự động đánh giá các thư viện rất lớn của các hợp
chất hóa học bằng cách sử dụng các chương trình máy tính” [40]. Cụ thể, VS bao
gồm một loạt các mô hình tin học được khởi chạy tuần tự để dự đoán hoạt tính sinh
học hay ái lực liên kết của các hợp chất trên mục tiêu tác động. VS đã trở thành một
phần không thể thiếu trong quá trình khám phá các thuốc mới.
1.2.1.
Các phương pháp sàng lọc ảo
Sàng lọc ảo có hai phương pháp chủ yếu là sàng lọc dựa vào các chất có hoạt tính
hay phối tử (ligand) và sàng lọc dựa vào cấu trúc mục tiêu. [24]
1.2.2.
Sàng lọc ảo dựa trên ligand
Nếu biết trước một tập hợp các ligand có cấu trúc đa dạng có khả năng gắn kết với
mục tiêu tác động thì các mô hình dự đoán hoạt tính trên mục tiêu đó có thể được
xây dựng bằng cách khai thác các thông tin từ tập ligand đã biết. Các mô hình này
có thể là mô hình pharmacophore hoặc mô hình 2D-QSAR, 3D-QSAR. Sau khi các
mô hình đã được xây dựng, một ligand mới có thể được áp dụng lên mô hình để dự
đoán khả năng gắn kết của nó lên mục tiêu tác động. Quá trình này gọi là VS dựa
trên các chất có hoạt tính.
1.3.
Docking
1.4.1.
Định nghĩa
Docking là phương pháp thiết kế thuốc dựa vào mục tiêu nhằm dự đoán khuynh
hướng và cấu dạng gắn kết của các hợp chất (ligand) vào điểm gắn kết (binding
site).
Docking được chia làm ba bước chính: gắn các chất vào nơi gắn kết, chấm điểm,
xếp hạng. Đầu tiên, thuật toán docking được áp dụng để tìm cấu dạng gắn kết của
các phân tử nhỏ với đích tác động. Bước mở đầu này xác định liệu một cấu dạng có
định hướng đúng vào vị trí gắn kết không. Tiếp theo các cấu dạng gắn kết được
chấm điểm. Điểm số gắn kết thường là thước đo mức độ gắn kết phù hợp của hợp
chất đối với một đích tác động. Sau đó, một số cấu dạng gắn kết tốt nhất được giữ
16
lại và được đánh giá lại lần nữa. Bước xếp hạng được tiến hành nhằm xác định năng
lượng tự do của sự gắn kết một cách chính xác nhất. Bên cạnh các dạng năng lượng
đơn giản như lực tĩnh điện hay lực Van der Waals, quá trình này liên quan tới các
dạng năng lượng phức tạp hơn như entropy hay năng lượng solvat hóa. [21]
Kết luận
Dựa vào tổng quan tài liệu và các phương tiện hiện có, nghiên cứu này tiến hành
xây dựng mô hình QSAR – nhằm dự đoán mối liên hệ giữa cấu trúc và tác động ức
chế ABCC2/MRP2 – để ứng dụng trong sàng lọc số lượng lớn các chất có sẵn trong
ngân hàng dữ liệu, định hướng thiết kế và tổng hợp nhằm mục đích giải thích cơ chế
tác động cũng như tìm ra những chất ức chế ABCC2/MRP2. Bên cạnh đó, mô hình
mô tả phân tử docking cũng được tiến hành dựa vào cấu trúc bơm xây dựng từ kỹ
thuật mô tả tính tương đồng (homology) nhằm khảo sát khả năng gắn kết của các
chất ức chế này vào đích tác động.
17
CHƯƠNG 2.
PHƯƠNG PHÁP NGHIÊN CỨU
2.1.
Xây dựng mô hình homology của bơm ABCC2
2.1.1.
Xây dựng mô hình
Để xây dựng mô hình homology của bơm ABCC2 đầu tiên cần tìm trình tự acid
amin của protein này. I-TASSER server chỉ cho phép nhập vào chuỗi trình tự chứa
từ 10 đến 1500 acid amin. Do ABCC2 chứa 1545 acid amin nên chuỗi trình tự của
vùng xuyên màng đầu tiên (MSD0) được loại bỏ bớt vì hiện nay chưa có nghiên cứu
nào cho thấy vùng này ảnh hưởng đến khả năng vận chuyển và gắn kết cơ chất của
bơm ngược ABCC2. Trình tự protein được lấy từ trang web www.uniprot.org [50].
Sau khi loại bỏ bớt các acid amin của xoắn thứ 1 tới xoắn thứ 5 thuộc vùng MSD0,
vùng còn lại chứa 1231 acid amin. Các acid amin này được tải lên trang web
để xây dựng mô hình tương đồng
[47].
2.1.2.
Đánh giá mô hình
Cấu trúc homology được đánh giá dựa trên các thang điểm C-score, TM-score,
RMSD và mật độ đám (Cluster density). C-score đánh giá mức độ tin cậy về chất
lượng của mô hình dự đoán. Điểm số này được tính toán dựa trên sự gióng hàng với
các cấu trúc mẫu tương tự và sự đồng quy của các thông số cấu trúc. C-score
thường nằm trong khoảng [-5,2], trong đó, giá trị C-score càng cao chứng tỏ mô
hình có chất lượng càng tốt và ngược lại [34]. TM-score và RMSD được dùng để đo
lường mức độ tương đồng giữa hai cấu trúc. Các điểm số này thường được áp dụng
để đánh giá độ chính xác của mô hình khi có protein mẫu. Khi không có protein
mẫu, các điểm số này được dùng để đánh giá chất lượng của mô hình cùng với Cscore. TM-score lớn hơn 0,5 chứng tỏ mô hình có dạng hình học đúng
và TM-score nhỏ hơn 0,17 chứng tỏ chỉ có một sự tương đồng ngẫu nhiên giữa hai
cấu trúc [22]. Mật độ đám là số cấu trúc mồi tại một đơn vị không gian trong đám
SPICKER. Mật độ đám cao nghĩa là mô hình có chất lượng tốt [34].
2.2.
Docking
18
Các protein một khi đã có cấu trúc tinh thể tia X thường có ligand đồng kết tinh đi
kèm trong cấu trúc. Để dock một ligand mới vào mục tiêu, ligand đồng kết tinh
trong cấu trúc protein sẽ được loại bỏ. Tuy nhiên, bơm ngược ABCC2 vẫn chưa
được xác định cấu trúc tinh thể bằng tia X, mô hình sử dụng chỉ là mô hình được
xây dựng bằng kỹ thuật mô phỏng tính tương đồng không chứa ligand đồng kết tinh
nên để có thể tiến hành docking cần xác định vị trí gắn kết trên protein. Công cụ
Site Finder trong MOE được sử dụng nhằm tìm ra các vị trí gắn kết có thể trên cấu
trúc protein mục tiêu.
2.2.1.
Đánh giá kết quả
Điểm số docking (KJ/mol) được đánh giá dựa trên các liên kết tạo thành giữa ligand
và protein bao gồm liên kết ion, liên kết hydro, liên kết van der Waals, liên kết π- π ,
… . Kết quả docking cho biết ái lực gắn kết của ligand với protein và tương tác giữa
ligand với các acid amin xung quanh. Kết quả docking này được sử dụng để hỗ trợ
việc tìm kiếm khoang gắn kết phù hợp nhất.
2.3.
Xây dựng mô hình phân loại và hồi quy dự đoán hoạt tính ức chế
bơm ABCC2 bằng CPG-NN
Quy trình nghiên cứu được thực hiện như trình bày ở Hình 2.1.
19
Chuẩn bị cơ sở dữ liệu
Cấu trúc hóa học 2D (ChemBioDraw) và hoạt tính sinh học.
Tối thiểu hóa năng lượng (MOE 2008.10)
Tính toán thông số mô tả phân tử (MOE 2008.10 và Dragon 5.5)
Phân chia tập hợp (đa dạng, ngẫu nhiên - MOE 2008.10)
Tập huấn luyện (80%)
Tập kiểm tra (20%)
Chia tỉ lệ thông số mô tả
trong khoảng 0 – 1
(Rapid Miner 5.2)
Chia tỉ lệ thông số mô tả
trong khoảng 0 – 1
(Rapid Miner 5.2)
Đánh giá ngoại
Chọn lọc thông số mô tả
(QSAR-Contigency + Weka)
Mô hình
phân loại và dự đoán
Xây dựng mô hình
(CPG-NN với SONNIA 4.2)
Ứng dụng mô hình
trong dự đoán
Hình 2.1.
Các bước xây dựng mô hình phân loại và hồi quy bằng CPG-NN
CHƯƠNG 3.
3.1.
KẾT QUẢ NGHIÊN CỨU
Các mô hình phân loại hoạt tính trên bơm ABCC2 và các mô hình
hồi quy dự đoán hoạt tính ức chế bơm ABCC2 bằng CPG-NN
Xây dựng được các mô hình phân loại với cơ sở dữ liệu được trình bày trong Bảng
3.1..
Bảng 3.1.
Các mô hình phân loại
20
STT
1
Mô hình
CPG-C ABCC2
2
3
4
CPG-C iABCC2
CPG-C iVT
CPG-C iUT
5
CPG-C EG
6
7
CPG-C iEG
CPG-C iCDCF
3.1.1.
Hoạt tính
Ức chế
Cảm ứng
Ức chế
Ức chế
Ức chế
Số chất
372
Cơ chất
Tất cả
Phương pháp thử
Tất cả
349
280
90
Tất cả
Tất cả
Tất cả
Tất cả
Sử dụng màng túi
Hấp thu
Ức chế
Cảm ứng
Ức chế
Ức chế
290
EG
Sử dụng màng túi
258
115
EG
CDCF
Sử dụng màng túi
Sử dụng màng túi
Kết quả mô hình phân loại hoạt tính trên bơm ABCC2 (CPG-C
ABCC2)
Cơ sở dữ liệu để xây dựng mô hình gồm 372 chất, trong đó có 12 chất vừa ức chế
vừa cảm ứng bơm, 192 chất chỉ có hoạt tính ức chế, 23 chất chỉ có hoạt tính cảm
ứng và 145 chất không có hoạt tính. Cấu trúc và hoạt tính của 372 chất được trình
bày trong PHỤ LỤC 1. và PHỤ LỤC 2..
Mô hình phân loại CPG-C ABCC2 được xây dựng bằng CPG-NN dựa trên 11 thông
số mô tả MOE và Dragon.
Mạng được khởi tạo với kích thước mạng = 17 × 17 nơ-ron (kết quả của
N
, với N
= 298 là số lượng chất của tập huấn luyện). Thông số huấn huấn luyện mạng được
đặt ở các giá trị: Epochs = 100; Span(x) = Span(y) = 8,5; Step(x) = Step(y) = 0,085;
Rate = 0,5 và Rate Factor = 0,995.
Bản đồ tự tổ chức tập huấn luyện và kết quả đánh giá mô hình được trình bày ở
PHỤ LỤC 9., ý nghĩa các thông số mô tả phân tử được trình bày ở PHỤ LỤC 8..
Mô hình CPG-C ABCC2 có độ đúng toàn tập, tập huấn luyện và tập kiểm tra tương
ứng là 0,83; 0,84; 0,54. Khả năng phân loại trên tập kiểm tra đối với các chất
có hoạt tính cảm ứng kém, do số chất cảm ứng bơm chỉ chiếm 10% toàn tập
(39/372). Khả năng phân loại trên các chất có hoạt tính ức chế và không có hoạt
tính tương đối tốt.
3.1.2.
Kết quả mô hình phân loại hoạt tính ức chế trên bơm ABCC2
(CPG-C iABCC2)
21
Cơ sở dữ liệu để xây dựng mô hình gồm 349 chất, trong đó có 204 chất có hoạt tính
ức chế và 145 chất không có hoạt tính (PHỤ LỤC 2.).
Mô hình được đặt tên là CPG-C iABCC2, được xây dựng bằng CPG-NN với 5
thông số mô tả tính bởi MOE và Dragon.
Mạng được khởi tạo với kích thước mạng = 16 × 16 nơ-ron (kết quả của
N
, với N
= 279 là số lượng chất của tập huấn luyện). Thông số huấn huấn luyện mạng được
đặt ở các giá trị: Epochs = 100; Span(x) = Span(y) = 8,0; Step(x) = Step(y) = 0,08;
Rate = 0,5 và Rate Factor = 0,995.
Bản đồ tự tổ chức của tập huấn luyện mô hình được thể hiện ở Hình 3.1.. Thông số
mô tả xây dựng và kết quả đánh giá mô hình được trình bày chi tiết ở Bảng 3.2.. Ý
nghĩa các thông số mô tả phân tử được trình bày ở PHỤ LỤC 8..
Mô hình CPG-C iABCC2 có độ đúng của tập huấn luyện, tập kiểm tra và toàn tập
lần lượt là 0,87; 0,67; 0,88 (đều cao hơn 0,5). Điểm số GH cũng từ 0,6 – 0,9 cho
thấy mô hình có khả năng phân loại có hoặc không có hoạt tính ức chế khá tốt. Hệ
số MCC toàn tập là 0,75 cho thấy có sự tương quan khá cao giữa giá trị phân loại
thực và dự đoán.
Từ kết quả Y ngẫu nhiên cho thấy hiệu R 2 ở tập huấn luyện và phép Y ngẫu nhiên
50 lần là 0,23 ≥ 0,20 chứng tỏ giá trị dự đoán từ mô hình không phải do ngẫu nhiên
mà có. Đây là mô hình phân loại tốt có thể ứng dụng để sàng lọc các chất có
khả năng ức chế bơm ABCC2.
22
Hình 3.1.
Bản đồ tự tổ chức của tập huấn luyện mô hình CPG-C iABCC2.
(Màu sắc nơ-ron ứng với giá trị hoạt tính. Xanh nhạt: không có hoạt tính; Xanh đậm: ức chế)
Bảng 3.2.
Kết quả mô hình CPG-C iABCC2 phân loại hoạt tính ức chế trên bơm
ABCC2
Mô hình
CPG-C iABCC2
Phân chia đa dạng
Tập huấn Tập kiểm
Y ngẫu
luyện
tra
nhiên
Phân chia ngẫu nhiên
Tập huấn
Tập kiểm
luyện
tra
Thông số mô tả
SlogP, piPC09, GATS8v, H-047, MLOGP2
TP
FP
TN
FN
140
21
95
23
31
13
16
10
100,3
67,7
70,4
40,6
147,2
18,2
96,2
17,4
28,6
12,8
18,4
10,2
Tổng số chất
279
70
279
279
70
Độ đúng của mô hình
0,84
0,67
0,61
0,87
0,67
Chất có Độ đúng
hoạt tính Độ chính xác
ức chế
GH
Chất
Độ đúng
không
Độ chính xác
có hoạt
GH
tính
Độ đúng trên toàn tập
0,87
0,86
0,86
0,81
0,82
0,70
0,76
0,73
0,62
0,55
0,89
0,89
0,89
0,85
0,84
0,69
0,74
0,66
0,64
0,58
0,81
0,58
0,60
0,71
0,65
0,63
0,51
0,57
0,89
0,69
MCC trên toàn tập
0,88
0,75
23
3.2.
Ứng dụng sàng lọc ảo hoạt tính ức chế bơm ABCC2
Mô hình CPG-C iABCC2, mô hình CPG-C iEG, mô hình 2D-QSAR EG và mô
hình 2D-QSAR CDCF được dùng để dự đoán hoạt tính ức chế bơm ABCC2 trên tập
ứng dụng bao gồm 1661 chất được lấy từ trang web w.w.w.drugbank.ca. Tiến hành
sàng lọc qua các mô hình dự đoán được thể hiện khái quát như trình bày ở Hình
3.2..
24
Hình 3.2.
CHƯƠNG 4.
Kết quả quá trình sàng lọc ảo thư viện 1661 chất
BÀN LUẬN
25
Trong nghiên cứu này, để cải thiện khả năng dự đoán cho các mô hình đã có và bổ
sung những mô hình dự đoán hoạt tính ức chế bơm ABCC2, các mô hình QSAR
mới đã được xây dựng dựa trên các phương pháp mạng nơ-ron nhiều lớp ngược
hướng (CPG-NN) và bình phương tối thiểu từng phần (PLS).
Có tổng cộng 7 mô hình phân loại và 2 mô hình hồi quy dự đoán hoạt tính trên bơm
ABCC2 đã được xây dựng bằng CPG-NN trên tập cơ sở dữ liệu gồm 372 chất thuộc
nhiều nhóm cấu trúc khác nhau. Các tập chất được phân chia theo cả hai phương
pháp là phân chia đa dạng và phân chia ngẫu nhiên. Các mô hình phân loại được
đánh giá bằng các giá trị MCC, độ đúng, độ chính xác, điểm số GH. Các mô hình
hồi quy được đánh giá bằng phương pháp đánh giá chéo 5 lần bỏ ra 20% với các giá
trị RMSE, Q2, R2pred, r2m.