Tải bản đầy đủ (.pdf) (117 trang)

nghiên cứu xác định đích phân tử bằng phương pháp phân tích mạng protein (ppin) nhằm ứng dụng tìm kiếm thuốc điệu trị ung thư dạ dày

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (9.24 MB, 117 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

BỘ Y TẾ

TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI

NGUYỄN QUỐC DOANH

NGHIÊN CỨU XÁC ĐỊNH ĐÍCH PHÂN TỬ BẰNG
PHƯƠNG PHÁP PHÂN TÍCH MẠNG PROTEIN
(PPIN) NHẰM ỨNG DỤNG TÌM KIẾM THUỐC
ĐIỆU TRỊ UNG THƯ DẠ DÀY

LUẬN VĂN THẠC SĨ DƯỢC HỌC

HÀ NỘI 2019


BỘ GIÁO DỤC VÀ ĐÀO TẠO

BỘ Y TẾ

TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI
NGUYỄN QUỐC DOANH

NGHIÊN CỨU XÁC ĐỊNH ĐÍCH PHÂN TỬ
BẰNG PHƯƠNG PHÁP PHÂN TÍCH MẠNG
PROTEIN (PPIN) NHẰM ỨNG DỤNG TÌM
KIẾM THUỐC ĐIỆU TRỊ UNG THƯ DẠ DÀY
LUẬN VĂN THẠC SĨ DƯỢC HỌC
CHUYÊN NGÀNH:


CÔNG NGHỆ DƯỢC PHẨM VÀ BÀO CHẾ THUỐC
MÃ SỐ: 8720202

Người hướng dẫn khoa học: TS. PHẠM THẾ HẢI

HÀ NỘI 2019


LỜI CẢM ƠN
Trong suốt quá trình nghiên cứu thực hiện luận văn, tôi đã nhận được sự
giúp đỡ tận tình của thầy cô hướng dẫn, các giảng viên, kỹ thuật viên của bộ
môn Hóa Dược. Với tất cả lòng kính trọng và biết ơn sâu sắc, tôi xin được bày
tỏ lời cảm ơn chân thành tới các thầy cô.
Tôi xin cảm ơn thầy TS. Phạm Thế Hải là người trực tiếp hướng dẫn chỉ
bảo tận tình, tạo điều kiện thuận lợi và động viên tôi trong suốt quá trình thực
hiện luận văn. Cám ơn PGS. TS. Lê Đức Hậu và TS. Lê Thị Thu Hường đã
tận tình chỉ bảo.
Cảm ơn thầy cô, kỹ thuật viên bộ môn Hóa Dược đã giúp đỡ và tạo điều
kiện để tôi hoàn thành luận văn này.
Tôi xin cảm ơn sự quan tâm của ban giám hiệu, phòng đào tạo sau đại
học,
các thầy cô trường Đại học Dược Hà Nội đã truyền đạt kiến thức và tạo điều
kiện cho tôi trong suốt thời gian học tập và thực hiện luận văn.
Cuối cùng xin bày tỏ lòng cảm ơn sâu sắc tới người thân trong gia đình và
bạn bè, những người luôn động viên giúp đỡ tôi trong cuộc sống và học tập.

Hà Nội, ngày 31 tháng 03 năm 2019
HỌC VIÊN

Nguyễn Quốc Doanh



MỤC LỤC
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
DANH MỤC HÌNH VẼ
DANH MỤC BẢNG
ĐẶT VẤN ĐỀ ............................................................................................... 1
Chương 1. TỔNG QUAN.............................................................................. 3
1.1. Sơ lược quá trình nghiên cứu và phát triển thuốc mới......................... 3
1.2. Xu hướng nghiên cứu thuốc hiện nay ................................................... 5
1.3. Mạng tương tác protein (PPIN) trong nghiên cứu thuốc mới ................ 6
1.3.1. Thành phần, đặc điểm mạng PPIN.................................................. 6
1.3.2. Gót chân achille ........................................................................... 11
1.4. Quy trình xây dựng và phân tích mạng PPIN ..................................... 14
1.5. Sàng lọc thuốc hợp lý (virtual screening)............................................. 15
1.6. Mô phỏng Protein Docking................................................................. 17
1.6.1. Tổng quan về phương pháp mô phỏng Protein Docking ................. 17
1.6.2. Quy trình Docking ........................................................................ 18
1.7. Ung thư dạ dày (UTDD) ..................................................................... 19
1.7.1. Vài nét về dịch tễ học UTDD ......................................................... 19
1.7.2. Điều trị hóa chất trong ung thư dạ dày .......................................... 20
1.8. Tổng quan một số nghiên cứu chemogenomics trong chuẩn đoán và
tìm kiếm thuốc điều trị ung thư dạ dày ..................................................... 23

Chương 2: ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU................ 25
2.1. Đối tượng nghiên cứu......................................................................... 25
2.1.1. Các ngân hàng dữ liệu về gen, tương tác protein (interactome) và
chuyển hóa............................................................................................ 25
2.1.2. Dữ liệu về các hợp chất hóa học dùng cho sàng lọc ........................ 27
2.2. Các công cụ tính toán......................................................................... 34



2.2.1. Công cụ tra cứu và phân tích biểu hiện gen trực tuyến ................... 34
2.2.2. Các phần mềm (off-line) phục vụ mô phỏng và phân tích dữ liệu .... 35
2.3. Thiết bị dùng trong nghiên cứu: ......................................................... 35
2.4. Phương pháp nghiên cứu ................................................................... 35
2.4.1. Phân tích dự đoán gene/protein liên quan đến bệnh ....................... 36
2.4.2. Sàng lọc hoạt chất có tác dụng trên đích đã chọn bằng phương
pháp Docking phân tử............................................................................ 39
2.4.3. Dự đoán các thông số hóa lý và ADMET của các hợp chất được
chọn…. ................................................................................................. 41

Chương 3: KẾT QUẢ NGHIÊN CỨU........................................................ 44
3.1. Xác định các gen liên quan đến bệnh UTDD ....................................... 44
3.1.1. Các gen có biểu hiện khác biệt trên tế bào bệnh và tế bào thường ... 44
3.1.2. Phân tích làm giàu chú giải (Annotation enrichment analysis)........ 48
3.1.3. Xây dựng và phân tích mạng tương tác protein (PPIN)................... 62
3.1.4. Phân tích sống còn các hub gene. .................................................. 65
3.2. Sàng lọc một số hợp chất có ái lực cao với đích phân tử ...................... 66
3.5.1. Docking phân tử........................................................................... 66
3.5.2. Nghiên cứu tính toán các thông số hoá lý và ADMET .................... 75

Chương 4. BÀN LUẬN ............................................................................... 78
4.1. Về phương pháp phân tích mạng PPIN nhằm dự đoán các
gene/protein liên quan đến ung thư dạ dày ............................................... 80
4.2. Về xác định đích phân tử liên quan đến ung thư dạ dày...................... 83
4.3. Về sàng lọc được một số hợp chất có ái lực cao với SPARC và FN1 .... 84
4.4. Ưu điểm của phương pháp nghiên cứu.............................................. 90
4.5. Nhược điểm phương pháp nghiên cứu .............................................. 90


KẾT LUẬN VÀ KIẾN NGHỊ ..................................................................... 92
TÀI LIỆU THAM KHẢO
PHỤ LỤC


DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
ADMET

Quá trính hấp thu, phân bố, chuyển hóa, thải trừ, độc tính

BP

Quá trình sinh học
(Biological Process)

CC

Thành phần tế bào
(Cell Component)

DEG

Gene có biểu hiện khác biệt
(Different expression gene)

DNA

Deoxyribonucleic Acid

FDA


Cục quản lí Thực phẩm và Dược phẩm Hoa Kỳ

GO

Bản thể gene
(Gene Onology)

KEGG

Từ điển bách khoa toàn thư về gen và bộ gen của Kyoto
(Kyoto Encyclopedia of Genes and Genomes)

MD

Động học phân tử
(molecular dynamics)

MF

Chức năng phân tử
(Molecular Function)

MW

Khối lượng phân tử
(Molecular weight)

PPIN


Mạng tương tác protein-protein
(protein – protein interaction network)

QSAR

Tương quan định lượng cấu trúc-tác dụng

RNA

Axit ribonucleic

TPSA

Diện tích bề mặt phân cực
(Topological polar surface area)

UTDD

Ung thư dạ dày
(gastric cancer)


DANH MỤC HÌNH VẼ
Hình 1.1: Quá trình nghiên cứu phát triển thuốc

3

Hình 1.2: Các dạng đồ thị Graph

7


Hình 1.3. Đồ thị vô hướng G và đồ thị có hướng H

8

Hình 1.4: Minh họa chiến lược can thiệp hiệu quả trong
nghiên cứu thuốc.
Hình 1.5: Sơ đồ quy trình xây dựng và phân tích mạng sinh
học
Hình 1.6. Số lượng bài báo về “virtual screening” trong cơ
sở dữ liệu Scopus theo năm công bố.
Hình 1.7. Mô phỏng Docking – một phương pháp nghiên cứu
thuốc dựa trên cấu trúc đích phân tử

12

14
16

17

Hình 2.1. Mô tả phương pháp nghiên cứu

36

Hình 2.2. Qui trình tính toán bằng công cụ admetSAR

42

Hình 2.3. Qui trình tính toán bằng công cụ SwissADME


43

Hình 3.1. Biểu đồ dạng núi lửa của các gen trong GSE13911có biểu
hiện khác biệt (DEG)
Hình 3.2. Biểu đồ dạng núi lửa của các gen trong GSE19826 có biểu
hiện khác biệt (DEG)
Hình 3.3. Biểu đồ dạng núi lửa của các gen trong GSE54129 có biểu
hiện khác biệt (DEG)
Hình 3.4. Biểu đồ dạng núi lửa của các gen trong GSE79973 có biểu
hiện khác biệt (DEG)
Hình 3.5. Đồ thị Venn biểu hiện các gene có biểu hiện khác
biệt xuất hiện chung ở các cơ sở dữ liệu.
Hình 3.6. Vai trò của các gen DEG trên con đường bệnh sinh
ECM-receptor pathway

44
45
46

47
48

60


Hình 3.7. Vai trò của các gen DEG trên con đường bệnh sinh
Focal adhesion Pathway

61


Hình 3.8. Mạng tương tác PPIN của các gene biểu hiện khác biệt

62

Hình 3.9. Mạng PPIN của top 18 hub gene

64

Hình 3.10: Module trong mạng PPIN.

64

Hình 3.11: Phân tích sống còn của 2 gene.

65

Hình 3.12. Kết quả docking (vị trí và các loại tương tác) trên
SPARC của 3 chất có khả năng gắn vào trung tâm hoạt

67

động của đích
Hình 3.13. Kết quả docking (vị trí và các loại tương tác) trên
FN1 của 3 chất có khả năng gắn vào trung tâm hoạt động

68

của đích
Hình 3.14. Các tương tác của cynarin với trung tâm hoạt

động của SPARC và FN1
Hình 3.15. Các tương tác của daphneside với trung tâm hoạt
động của SPARC và FN1
Hình 3.16. Các tương tác của diglycoside atripliside B với
trung tâm hoạt động của SPARC và FN1

70
72
74

Hình 4.1 : Ảnh cây Actiso và hoạt chất Cynarin

85

Hình 4.2 : Ảnh cây lá móng tay và hoạt chất Daphneside

87

Hình 4.3: Ảnh cây ngũ gia bì hương và hoạt chất
Diglycoside atripliside B

88


DANH MỤC BẢNG
Bảng 1.1: Các nhóm thuốc sử dụng trong hoá trị liệu ung

21

thư dạ dày

Bảng 2.1. Mô tả 4 cơ sở dữ liệu biểu hiện gen liên quan đến ung

25

thư
Bảng 2.2. Danh sách và cấu trúc hóa học của các hợp chất

27

tiên nhiên phục vụ nghiên cứu sàng lọc thuốc mới
Bảng 3.1. Tập hợp tất cả các DEG trên 3 cơ sở dữ liệu

48

Bảng 3.2: Kết quả phân tích làm giàu bằng công cụ GO

49

(Gene Ontology)
Bảng 3.3. Vai trò sinh học của các gen DEG

58

Bảng 3.4: Top 18 hub gene với mức độ kết nối trong mạng cao

63

Bảng 3.5. Đặc điểm dược liệu của cynarin

69


Bảng 3.6. Năng lượng tương tác giữa Cynarin và 2 đích

69

SPARC và FN1
Bảng 3.7. Đặc điểm dược liệu của daphneside

71

Bảng 3.8. Năng lượng tương tác giữa daphneside và 2 đích

71

SPARC và FN1
Bảng 3.9. Đặc điểm dược liệu của diglycoside atripliside B

73

Bảng 3.10. Năng lượng tương tác giữa diglycoside atripliside

73

B và 20 đích SPARC và FN1
Bảng 3.11. Một số đặc điểm hoá lý cơ bản

75

Bảng 3.12. Quy tắc giống thuốc


75

Bảng 3.13. Các tính chất ADMET

76


ĐẶT VẤN ĐỀ
Mặc dù tỷ lệ mắc ung thư dạ dày (gastric cancer, UTDD) trên thế giới
đang có chiều hướng giảm trong những năm gần đây nhờ những bước tiến lớn
trong tầm soát, phòng và điều trị, UTDD vẫn được xếp vào nhóm ung thư phổ
biến (đứng thứ 5) và gây tử vong cao (đứng thứ 3) trên toàn cầu. Có thể nói,
nghiên cứu thuốc điều trị ung thư nói chung và ung thư dạ dày nói riêng đang
là một trong những hướng đi cấp bách nhất hiện nay [27].
Trong hai thập kỷ qua, phát triển liệu pháp trúng đích là các phân tử nhỏ
có khả năng tác động vào một đích (protein hay gene liên quan đến ung thư)
là chiến lược nghiên cứu thuốc chủ đạo. Cách tiếp cận mang tính cá thể hóa
này đã phát huy hiệu quả đối với một số loại ung thư gây nên bởi đột biến trên
một đoạn ADN, điển hình như bệnh bạch cầu myeloid cấp tính (AML). Tuy
nhiên, UTDD cũng như phần lớn các bệnh ung thư khác không phải do một
đột biến đơn lẻ; thay vào đó, ung thư thường phát sinh từ một mạng lưới đột
biến lớn, có tính hệ thống. Các phát hiện mới nhất về hệ gen học (genomics)
và hệ protein học (proteomics) đã và đang làm thay đổi cách tiếp cận trúng
đích trong nghiên cứu cứu thuốc điều trị ung thư. Hướng tiếp cận đa đích, hay
còn gọi là đa dược lý mạng (polypharmacology network) hiện nhận được sự
quan tâm lớn từ giới khoa học [29]. Theo đó, thay vì tìm kiếm hoạt chất tác
dụng mạnh và chọn lọc trên một đích cụ thể, ứng viên thành thuốc sẽ có khả
năng can thiệp vào những con đường (pathway) trọng yếu trong chu trình sinh
học của tế bào gây bệnh, từ đó giảm thiểu tỷ lệ kháng thuốc, tăng hiệu quả
điều trị, và kiểm soát cũng như dự phòng được tác dụng phụ có thể có.

Để làm được điều này, các nhà khoa học phát triển một phương pháp
nghiên cứu mới, gọi là dược lý học hệ thống, phương pháp này có thể khái
quát thành 2 bước cơ bản: 1. Xác định cơ chế đa đích và 2. Xác định hợp chất
hóa học hướng tác dụng đa đích.
1


Trong bước đầu tiên, mạng tương tác protein (protein-protein interaction
network, PPIN) là một công cụ hữu ích giúp sàng lọc đích mới cũng như tìm
hiểu sâu cơ chế tác dụng của thuốc [65]. Mạng PPIN là một sơ đồ graph,
trong đó, các protein đóng vai trò các nút (node) và tương tác giữa chúng
(interactome) là các cạnh nối giữa các nút (edge). Tương tác ở đây có thể là
các quá trình hoá sinh học như tổng hợp cấu trúc, truyền tín hiệu (signal
transduction), vận chuyển (transport) hay phosphoryl hoá… Tầm quan trọng
của một protein được xác định thông qua mức độ thay đổi cấu trúc PPIN khi
bỏ đi một nút trong mạng. Dựa trên phân tích PPIN, các đích phân tử cũng
như những con đường sinh học trọng yếu trong tế bào gây bệnh sẽ được phát
hiện.
Trong bước tiếp theo, sau khi xác định được tên và cấu trúc các đích tác
dụng, các thư viện hóa học lớn sẽ được sàng lọc sử dụng các phương pháp
hiệu năng cao như tương quan định lượng cấu trúc – tác dụng (quantitative
structure-activity relationship, QSAR), protein Docking và động lực học phân
tử (Molecular dynamics). Trong bước này, các phương pháp hóa tin học
(cheminformatics) có thể được áp dụng nhằm loại bớt các hợp chất có đặc
điểm “không giống thuốc”, trên cơ sở đánh giá các thông số dược động học
(sinh khả dụng, chuyển hóa…) và độc tính.
Xuất phát từ những phân tích nêu trên, chúng tôi thực hiện đề tài:
“Nghiên cứu xác định đích phân tử bằng phương pháp phân tích mạng
protein (PPIN) nhằm ứng dụng tìm kiếm thuốc điều trị ung thư dạ dày” với
2 mục tiêu:

1. Xây dựng mô hình phân tích mạng PPIN nhằm dự đoán các gene/protein
liên quan đến ung thư dạ dày.
2. Dự đoán đích phân tử liên quan đến ung thư dạ dày và ứng dụng sàng lọc
được một số hợp chất có ái lực cao với đích phân tử.

2


Chương 1. TỔNG QUAN
1.1.

Sơ lược quá trình nghiên cứu và phát triển thuốc mới
Quá trình nghiên cứu và phát triển thuốc là một quá trình tốn kém cả về

thời gian và tiền bạc. Trung bình để ra đời một thuốc mới tiêu tốn hơn 1 tỷ đô
la Mỹ, kéo dài từ 10 đến 15 năm bao gồm nhiều giai đoạn khác nhau. Hình
1.1 mô tả các giai đoạn chung của quá trình nghiên cứu và phát triển thuốc.

Hình 1.1: Quá trình nghiên cứu phát triển thuốc
Việc nghiên cứu thuốc mới bắt đầu bằng cách tìm hiểu cơ chế bệnh sinh
để nhận biết các “mục tiêu phân tử” hay đích phân tử [49]. Đích thường là
một cấu trúc đại phân tử (protein), VD như enzyme, kênh xuyên màng...
Trong giai đoạn này, đích phân tử được chọn phải chính xác, tức là nó có ảnh
hưởng lớn đối với quá trình bệnh sinh.
Bước tiếp theo là sàng lọc tìm kiếm hoạt chất tiềm năng có thể ức chế
hoặc tăng hoạt động của đích phân tử. Hàng loạt các chất trong tự nhiên (chiết
xuất từ cây cỏ, động vật...) và nhân tạo (tổng hợp hóa học) được tiến hành thử
nghiệm trong phòng nghiên cứu trên các mô hình bệnh tật khác nhau, bao
gồm cả thiết kế thuốc trên máy tính. Mục đích chính là nhằm tìm ra các hoạt
3



chất có tác dụng tốt nhất, liều lượng thấp nhất và an toàn nhất. Thống kê chỉ
ra rằng cứ mỗi 10.000 hợp chất được nghiên cứu sàng lọc thì chỉ có duy nhất
1 chất may mắn trở thành ứng viên thuốc tiềm năng (Hình 1.1).
Các hoạt chất tiềm năng sẽ được tiến hành thử nghiệm tiền lâm sàng trên
các mô hình động vật (chuột, thỏ, chó…) nhằm xác định khả năng điều trị
cũng như độ an toàn của hoạt chất trên cơ thể sống, đặc biệt là cơ thể có hệ
thống tương đồng với con người [17].
Ứng viên thành thuốc tiềm năng (có tác dụng tốt trên động vật) sẽ được
tiến hành thử nghiệm lâm sàng (pha I, II và III) [53]. Pha I thực hiện trên
người tình nguyện khỏe mạnh và giai đoạn II-III trên người bệnh với số lượng
người tham gia tăng dần (khoảng 50 người cho pha I đến khoảng vài ngàn
người cho pha III), nhằm đánh giá hiệu quả, liều lượng cũng như độ an toàn
của thuốc.
Đăng ký thuốc và đưa ra thị trường: sau khi có đầy đủ các dữ liệu khoa
học, thuốc được đăng ký với cơ quan pháp lý, được bảo hộ độc quyền trong
khoảng 10 – 15 năm, được sản xuất và bán ra thị trường [50].
Trong vòng 60 năm qua, khoa học công nghệ đang phát triển chóng mặt.
Tuy nhiên, trong lĩnh vực dược học, số lượng thuốc mới ra đời không hề đột
biến. Cụ thể, từ năm 1950 tới 2008, có 1222 hoạt chất mới (1103 phân tử hóa
học và 119 hoạt chất sinh học) được FDA (Food and Drug Administration,
Cục quản lý thực phẩm và dược phẩm Hoa Kỳ) chấp thuận, tức chỉ trung bình
21 thuốc mới được ra đời hàng năm [41]. Con số này không đủ khi trên thế
giới có hàng trăm loại bệnh tật, và nguy hiểm hơn khi những loại bệnh không
có thuốc trị ngày càng gia tăng. Gần đây, việc xuất hiện chủng siêu vi khuẩn
Escherichia coli kháng colistin, một loại kháng sinh dự phòng chỉ dành cho vi
khuẩn đã kháng những kháng sinh khác, đã dấy lên một tình trạng báo động
trong giới y học [38].


4


1.2. Xu hướng nghiên cứu thuốc hiện nay
Nghiên cứu thuốc truyền thống chủ yếu dựa trên kinh nghiệm với cách
tiếp cận “thử và lỗi” (trial and error), dẫn đến chi phí tăng cao và xác suất
thành công thấp. Có rất nhiều lý do cản trở sự thành công của quá trình này,
ví dụ như đích tác dụng không đúng, không tìm thấy hoặc tìm thấy hoạt chất
không đủ tốt để trở thành thuốc hay các vấn đề liên quan đến dược động học
hay độc tính.
Trong hơn ba thập kỷ qua, sàng lọc hay thiết kế hợp chất có hoạt tính
chọn lọc trên một đích phân tử với mong muốn giảm thiểu tác dụng không
mong muốn là hướng đi chủ đạo trong nghiên cứu và phát triển thuốc mới
[66]. Tuy nhiên, kỷ nguyên hậu genomic đã mở ra một bức tranh vô cùng
phức tạp về cơ chế tác dụng của thuốc [37]. Công bố của Yildirim và cộng sự
năm 2007 đã chỉ ra rằng không chỉ nhiều thuốc có thể gắn với cùng một đích
mà trên thực tế một thuốc có thể tác dụng trên nhiều đích [66]. Cơ chế tác
dụng đa đích là rất phổ biến trên thuốc kháng ung thư, thuốc điều trị bệnh lý
thần kinh, kháng sinh và kháng viêm. Năm 2014, David Cook và cộng sự, khi
tổng kết các số liệu của các dự án nghiên cứu và phát triển thuốc phân tử nhỏ
được thực hiện bởi tập đoàn Dược phẩm Astra Zeneca trong khoảng thời gian
5 năm (2005-2010) đã chỉ ra rằng xác định đúng đích phân tử là yếu tố then
chốt đầu tiên (1-Right target), quyết định thành công của quá trình nghiên cứu
và phát triển thuốc mới [8].
Mặt khác, sự phát triển của khoa học máy tính và đặc biệt là ngành hóa
tin học (cheminformatics), tin sinh học (bioinformatics) đã và đang trở thành
một phần không thể thiếu trong các dự án phát triển thuốc của các tập đoàn
dược phẩm lớn [56], [40]. Các phương pháp này (gọi chung là in silico) sử
dụng các công cụ toán học để trích xuất các thông tin hữu ích từ các dữ liệu
hỗn độn được thu nhận từ các thí nghiệm hóa, sinh học với lưu lượng mức độ

lớn, do đó giúp đẩy nhanh bất kỳ quá trình sàng lọc và tối ưu hóa thuốc mới,
5


đồng thời giảm thiểu chi phí nghiên cứu. Ngoài ra, những mô hình mô phỏng
hay giả lập còn giúp phát hiện và nâng cao tri thức về các hiện tượng sinh học
liên quan đến thuốc ở mức độ phân tử hay thậm chí sâu hơn.
1.3. Mạng tương tác protein (PPIN) trong nghiên cứu thuốc mới
Tin sinh học (bioinformatics) là ngành cấu thành bởi hai yếu tố (tin học
và sinh học phân tử), trong đó người ta sử dụng máy tính và tư duy thuật toán
để phân tích, rút trích thông tin và quản lý các dữ liệu liên quan đến sinh học
phân tử. Trong nghiên cứu thuốc mới, tin sinh học ứng dụng thường thiên về
sinh học hệ thống (systems biology) và phân tích các dữ liệu về tác nhân sinh
học liên quan đến bệnh, như nghiên cứu hệ gen (genomics) hay protein
(proteomics).
Một trong các lĩnh vực được quan tâm, đó là dự đoán mối quan hệ tương
tác giữa các protein tham gia quá trình bệnh sinh dưới dạng mạng tương tác
protein (Protein-protein interaction network, PPIN), từ đó xác định đích phân
tử của thuốc. Cách tiếp cận này giúp người nghiên cứu có một cái nhìn tổng
quát về cơ chế bệnh sinh, từ đó xây dựng một chiến lược nghiên cứu và phát
triển thuốc hiệu quả nhất [5], [12].
1.3.1. Thành phần, đặc điểm mạng PPIN
1.3.1.1. Lý thuyết cơ bản về mạng theo định nghĩa đồ thị (Graph)
Về mặt hình học, mạng PPIN có dạng đồ thị (Graph) biểu diễn cho các
tương tác giữa giữa các protein. Để hiểu được cách xây dựng cũng như phân
tích mạng PPIN, một số lý thuyết đồ thị sẽ được trình bày tương đối kỹ trong
phần này. Đồ thị (hay mạng) kí hiệu là G(V , E ) , gồm hai thành phần:
- Tập hợp V , bao gồm các đối tượng, được gọi là tập hợp các nút (vertex
hay node) của đồ thị, trong PPIN V là tập hợp các protein tham gia
trong thành phần mạng.

- Tập hợp E  V 2 bao gồm một cặp các nút, được gọi là tập hợp các cạnh
(edge) của đồ thị, biểu diễn mỗi tương quan giữa 2 nút bất kỳ.
6


Gọi n và m lần lượt là số nút và số cạnh của đồ thị, trong đó

V  n, E  m

Số lượng các cạnh nối với 1 nút gọi là bậc của nút, thường ký hiệu là d(a).
Các nút trong graph không nhất thiết có bậc như nhau. Hình 1.2 biểu diễn một
số đồ thị graph có 5 nút là a, b, c, d và e.

Hình 1.2: Các dạng đồ thị Graph: (1) đồ thị vô hướng 5 nút 9
cạnh với 1 cạnh lặp và 2 cạnh song song; (2) đơn đồ thị vô
hướng 5 nút 7 cạnh; (3) đồ thị có hướng 5 nút 9 cạnh
Trong hình 1.2 (1), cạnh (aa) được gọi là cạnh lặp (loop) hay cạnh
khuyên. Hai cạnh phân biệt tương ứng với 1 cặp nút (b,d) được gọi là hai cạnh
song song (parallel edges). Một đồ thị được gọi là một đơn đồ thị (simple
graph) nếu nó không có cạnh lặp và cạnh song song (hình 1.2 (2)). Khi đồ thị
có những cặp nút được nối với nhau bằng nhiều hơn một cạnh thì được gọi là
đa đồ thị (multigraph). Mỗi đơn đồ thị là đa đồ thị, nhưng không phải đa đồ
thị nào cũng là đơn đồ thị, vì trong đa đồ thị có thể có hai (hoặc nhiều hơn)
cạnh nối một cặp nút nào đó. Đồ thị G(V , E ) có thể là vô hướng (hình 1.2 (1)
và 1.2 (2)) hoặc có hướng (hình 1.2 (3)). Ngoài ra, các cạnh hoặc/ và các nút
cũng có thể mang giá trị trọng số đặc chưng của chúng hay đơn giản chỉ biểu
diễn tầm quan trọng (các thuật ngữ khác xem thêm tại [62]).
Để lưu trữ đồ thị và thực hiện các thuật toán khác nhau với đồ thị trên
máy tính, ta có thể sử dụng cấu trúc của ma trận liền kề để biểu diễn đồ thị,
7



trong đó phổ biến nhất là ma trận liền kề, được định nghĩa như sau. Xét đồ thị
vô hướng G có tập nút V = {1, 2… n}, tập cạnh E = {e1, e2…em}. Ta gọi ma
trận kề của đồ thị G là ma trận: A = {ai,j: i,j = 1, 2… n} với các phần tử được
xác định theo quy tắc sau đây:
ai,j = 0 nếu (i,j)

 E và

ai,j = 1 nếu (i,j)  E, i,j = 1, 2, … n
Để dễ hình dung, xét 2 đồ thị G và H dưới đây:

Hình 1.3. Đồ thị vô hướng G và đồ thị có hướng H
Ma trận liền kề của 2 đồ thị nếu trên là:
1

2

3

4

5

6

1

2


3

4

5

6

1

0

1

1

0

0

0

1

0

1

1


0

0

0

2

1

0

1

0

1

0

2

0

0

0

0


0

0

3

1

1

0

1

0

0

3

0

1

0

1

0


0

4

0

0

1

0

1

1

4

0

0

0

0

0

0


5

0

1

0

1

0

1

5

0

0

0

1

0

1

6


0

0

0

1

1

0

6

0

0

0

0

1

0

Ma trận kề của đồ thị G

Ma trận kề của đồ thị H


Trong đồ thị, đường dẫn là một dãy các nút <x1, x2, … xk> sao cho, mỗi
nút trong dãy (không kể nút đầu tiên) kề với nút trước nó bằng 1 cạnh nào đó,
nghĩa là với mọi i = 1, 2,…k: (xi-1, xi)  E. Theo đó, đường dẫn này đi từ đầu
x1 đến nút cuối xk, và độ dài của đường dẫn bằng số cạnh nó đi qua.
Tồn tại hai cách phát triển mạng chính: ngẫu nhiên (random graph) và
co dãn tự do (scale-free), trong đó các mạng mô tả quá trình sinh học phức tạp

8


(quá trình chuyển hóa trong tế bào, dẫn truyền thần kinh, tương tác của các
vật chất di truyền ADN hay ARN trong nhiễm sắc thể) thường phát triển theo
cách thứ 2, tức là chỉ có một số ít các nút có bậc lớn hơn nhiều lần so với
trung bình số bậc của toàn mạng. Các nút này còn gọi là trục/ hub [62].
1.3.1.2. Phân tích mạng sinh học
Khi phân tích một mạng sinh học, một số thông số cấu trúc thường được
sử dụng, bao gồm:
- Phân bố độ bậc của nút (node degree distribution) P(k) là phân bố
xác suất bậc của các nút trong đồ thị. Trong đó, bậc của mỗi nút (k) là số cạnh
kết nối với nút đó. Với mạng có tổng số n nút và nk là số nút có độ bậc k thì
xác suất của một nút có bậc k là P(k) = n k /n. Trong mạng scale-free, phân bố
bậc của nút sẽ tuân theo hoặc tiệm cận hàm mũ: P(k) ~ kα với α là tham số
nằm trong khoảng 2 < α < 3.
- Độ trung tâm (centrality) của một nút trong mạng được sử dụng đánh
giá “tầm quan trọng” của nút ấy. Có nhiều cách tính độ trung tâm:
o Độ trung tâm dựa trên bậc của nút (degree centrality). Đây là
độ đo chỉ dựa vào bậc của nút và được xác định bằng số cạnh hay số kết nối
mà mỗi nút có. Công thức tính như sau: CD(V) = deg(V). Với deg(V) là số
cạnh mà nút đó có [11].

o Độ trung tâm ở giữa (betweenness centrality) chỉ ra vị trí các
nút và vai trò của chúng trong kết nối các thành phần hoặc nhóm trong mạng.
Nó định lượng số lần một nút (v) hoạt động như một cầu nối dọc theo đường
dẫn ngắn nhất kết nối giữa hai nút khác trong mạng lưới. Hệ số này được tính
bằng công thức CB(v) = ∑ S≠v≠t⸦V(σst(v)/σst) với σst là tổng số đường dẫn ngắn
nhất ngắn nhất từ s tới t mà đi qua nút v [26].
o Độ trung tâm dựa trên sự gần gũi (closeness centrality) chỉ ra
một nút trong mạng có thể tiếp cận nhanh tới nhiều nút khác trong mạng. Hệ
số này được tính theo công thức Cc(v) = ∑tc/v dc(vt)/(n-t) với St⸦V/v dc(v, t) là
9


tổng số đường dẫn ngắn nhất từ nút v tới n-1 nút còn lại, n là số nút trong
mạng [11].
o Độ trung tâm dựa trên giá trị riêng (eigenvalue centrality) chỉ
ra các nút có độ trung tâm nhất dựa trên véc tơ riêng của ma trận mô tả mạng.
Nó được tính bằng công thức xv =

1

1 n
x
=

t
 Avt xt với Av,t là ma trận
 tM ( v )
 i 1

kề của mạng, M(v) là tập nút mà được kết nối với nút thứ v, n là tổng số nút

và λ là một hằng số. Với nút có trị số đặc trưng cao chỉ ra nút đó có độ trung
tâm cao hơn các nút khác, đồng thời đây cũng là thước đo lợi thế về vị trí.
- Phân tích nhóm / cộng đồng (cluster / community): trong một mạng
sinh học, luôn tồn tại các nút có một số đặc trưng giống nhau, chúng được
phân vào cùng một nhóm. Có rất nhiều thuật toán để có thể tìm kiếm các cộng
đồng trên mạng (community detection). Thuật toán được sử dụng phổ biến
nhất được đề xuất bởi Girvan-Newman. Ngoài ra còn có phương pháp
Module cực đại, tìm kiếm dựa trên nhóm (clique) lớn nhất. Một thuật toán
được biết tới như một phương thức tự động tìm kiếm những đồ thị con có tính
liên kết cao (coi như các cộng đồng) là thuật toán MCODE. Thuật toán này có
hiệu năng tính toán cao đặc biệt cho các mạng có kích thước lớn [45].
Trong các đặc tính vừa nêu, đáng chú ý nhất là tính co dãn tự do (scalefree) của mạng sinh học theo quy luật gắn kết ưu tiên (preferential
attachment), như đã được đề cập trong rất nhiều nghiên cứu trước đây. Khi
phát triển theo quy luật này, trong mạng sẽ có một số ít có bậc lớn hơn rất
nhiều so với độ bậc trung bình của mạng, chúng tham gia vào một số trục
quan trọng đảm bảo dòng chảy liên tục từ nút đầu tới nút cuối của mạng. Hệ
quả là mạng có sức kháng cự lại những thay đổi bất thường nhưng lại rất dễ bị
tổn thương (vulnerable) đối với những tấn công tọa độ (coordinated attacks)
nghĩa là sự tấn công vào các trục quan trọng. Đây chính là điểm mấu chốt của

10


mạng PPIN mà nghiên cứu này khai thác, và sẽ được trình bày cụ thể trong
phần tiếp theo.
1.3.2. Gót chân achille
Nghiên cứu tính kháng kháng sinh là một ví dụ điển hình. Rất nhiều
công trình đã được thực hiện nhằm tìm kiếm các đột biến quan trọng quyết
định tốc độ và cường độ kháng kháng sinh. Một số nghiên cứu tiêu biểu như
của Suzuki et al. phân tích mạng gen kháng kháng sinh của E. Coli đối với 11

kháng sinh tìm ra 8 đột biến quan trọng (Nat Commun. 2014 Dec 17; 5:
5792); hay như Hwang et al. khi phân tích mạng gen kháng kháng sinh của
trực khuẩn mủ xanh (Pseudomonas aeruginosa) đã phát hiện 13 đột biến
(Scientific Reports volume 6, Article number: 26223 (2016)); nghiên cứu của
Wang et al., của Parker et al. và rất nhiều công trình khác đã cố gắng biểu
diễn một cách tổng quát nhất có thể các đột biến tham gia trong quá trình sinh
học này [54], [18]. Tuy nhiên cho tới nay, “điểm chết” (lethal node) của cơ
chế kháng kháng sinh xét trên phương diện di truyền học vẫn là một ẩn số
lớn. Rõ ràng khi tấn công vào các gen kháng thuốc đã biết, nhiều đường dẫn
có thể bị trục trặc song mạng về toàn cục vẫn hoạt động, những protein không
bị tác động vẫn hoạt động cùng nhau một cách bình thường. Đó là vì các
mạng có được tính bền chắc (robustness). Sở dĩ có sự bền chắc như vậy vì
loại bỏ một số nút không ảnh hưởng nhiều đến topo của mạng một cách đáng
kể do các nút đó chứa ít đường nối so với các trục. Các phân tích gần đây cho
thấy rằng sự loại bỏ một số protein có nhiều liên kết có khả năng giết chết
một tế bào hơn là sự loại bỏ các protein khác. Các protein này rất quan trọng,
nếu chúng bị trục trặc thì vi khuẩn sẽ chết. Các đường dẫn như thế chính là
các trục dễ bị tấn công (coordinated attack), và đây chính gót chân Achille
trong mạng PPIN của vi khuẩn. Sự loại bỏ một số trục sẽ dẫn đến sự tan rã
mạng thành nhiều mạng con không còn tác dụng.

11


Tế bào ung thư cũng hoạt động tương tự như vậy, điểm mấu chốt là tìm
ra các protein hub có vai trò trọng yếu bảo tồn cấu trúc tổng thể của mạng
PPIN cũng như hoạt động của tế bào ác tính. Điều này mở ra hướng đi mới
trong việc phát triển các liệu pháp điều trị hiệu quả đối với tế bào ác tính bằng
cách chọn những trục nhất định và không can thiệp vào các tổ chức khác.
Hình 1.4 biểu diễn cách tiếp cận như vậy trong nghiên cứu và phát triển

thuốc.

Hình 1.4: Minh họa chiến lược can thiệp hiệu quả trong
nghiên cứu thuốc.
Theo hình 1.4: (A) Mạng PPIN (tối giản) của các protein tham gia cấu
trúc màng tế bào vi khuẩn. Các nút màu xanh lá cây là các protein điều hoà
12


hậu giải mã các thành phần cấu tạo nên thành tế bào. Các thành phần này (nút
màu vàng) sau đó phải tương tác với các protein vận chuyển (nút màu xanh
nước biển) để tạo thành phức (nút màu da cam) để sau đó gắn kết với các
protein khác trên thành tế bào (nút màu đỏ). Để hình thành vách tế bào cũng
như đảm bảo hoạt động bình thường của tế bào, các mối liên hệ giữa các
protein phải liên tục. Mục tiêu của phương pháp chemogenomics ở đây là xác
định 5 vị trí trên PPIN cần can thiệp sao cho con đường tổng hợp vách tế bào
bị ngắt quãng. (B) Nếu xoá đi 5 điểm bất kỳ như trường hợp này không gây
được hiệu ứng gì vì vẫn tồn tại con đường liên tục từ xanh lá cây tới đỏ. (C)
Việc xoá đi 3 nút (hub protein) có bậc cao nhất và 2 nút có vị trí trung gian
quan trọng nhất tỏ ra là một chiến lược hợp lý trong trường hợp này. Không
một tương tác quan trọng nào còn tồn tại và vi khuẩn không thể tổng hợp
được vách tế bào. Như vậy việc tác động ngẫu nhiên trên đích phân tử không
thể ảnh hưởng lên tính toàn vẹn của cấu trúc mạng, do đó không hiệu quả.
Việc xoá đi các nút đơn hay kể cả các nút trung gian ở đây cũng không ngăn
được sự sản sinh ra các nút đỏ và hiệu quả cũng sẽ thấp. Ngoài cách can thiệp
như trường hợp C vẫn tồn tại các giải pháp khác, cũng hiệu quả trong phá vỡ
cấu trúc mạng PPIN như xoá tổ hợp ABJGH, AFJGH, AFJKH… Bài toán đặt
ra cho nghiên cứu thuốc mới là cần xác định đâu là cơ chế tác dụng cần
hướng đến trên mạng PPIN và thiết kế cũng như sàng lọc ra các phân tử hoá
học nào có khả năng can thiệp vào những con đường trọng yếu trong chu trình

sinh học của tế bào gây bệnh, từ đó sẽ có hiệu quả tối đa trong điều trị [67].
Tuy nhiên để “tấn công tọa độ”, một số vấn đề cần làm rõ: Nếu các
tương tác giữa nhiều nút vận hành sai lệch trong một hệ di truyền học thì điều
này đã dẫn đến ung thư như thế nào? Có bao nhiêu trục là quan trọng thiết
yếu? Đây cũng là những thành phần chính trong một nghiên cứu đa dược lý
mạng (network polypharmacology) trong ung thư [69].

13


1.4. Quy trình xây dựng và phân tích mạng PPIN
Quy trình xây dựng và phân tích mạng PPIN nói chung gồm 4 bước cơ
bản:

Hình 1.5: Sơ đồ quy trình xây dựng và phân tích mạng sinh
học
Bước 1: Xác định các protein chức năng (dựa trên các gen mã hóa chúng)
(seed proteins) tham gia vào cơ chế bệnh sinh. Đây là các nút tham gia cấu
trúc trong mạng PPIN [39].
Bước 2: Thu thập tương tác protein-protein (interactome). Hầu như tương tác
của các protein đã biết đều nằm trong một số cơ sở dữ liệu sinh học như
STRING, UniHi và BioGRIP. Trong một số trường hợp, có thể tiến hành các
thực nghiệm để xác định các tương tác protein cần quan tâm, như sàng lọc thể
lai hai mảnh Y2H (two-hybrid screening) [39].
Bước 3: Xây dựng cấu trúc mạng PPIN.

14


Các thông tin về các protein tham gia cơ chế bệnh sinh (các nút) và các

tương tác giữa chúng (các cạnh) khi kết hợp lại tạo thành mạng tương tác giữa
các protein dạng Graph. Để phân tích cấu trúc và hiển thị có thể dử dụng một
số công cụ tin sinh học như CYTOSCAPE, IGRAPH, GEPHI, NETWORK X
[39].
Bước 4: phân tích cấu trúc mạng với mục đích chính để tìm ra các nút hub
(đây có thể là các đích tiềm năng), thường phân tích theo 2 phương pháp:
phân tích trung tâm và phân tích cụm [13].
Sau bước 4: Đưa ra giả thuyết và kiểm chứng về vai trò của các nút hub trong
cơ chế bệnh sinh, từ đó tìm kếm thông tin các protein mã hóa và ứng dụng
trong nghiên cứu và phát triển thuốc mới.
1.5. Sàng lọc thuốc hợp lý (virtual screening)
Các khái niệm về sàng lọc hợp lý xuất hiện vào những năm 60 của thế kỷ
XX với các mô hình của Hansch. Từ đầu thập niên 90 thì lĩnh vực này bắt đầu
có nhiều bước tiến và từ đó đến nay, ngày càng phát triển mạnh mẽ. Sàng lọc
ảo tương đối rẻ (tiết kiệm nguyên liệu thử), nhanh và cho phép làm việc với
số lượng lớn lên tới hàng triệu hợp chất (hiệu năng cao), một điều không thể
làm được trong các mô hình thực nghiệm. Sàng lọc ảo không những bổ sung
cho các sàng lọc thật mà còn giúp định hướng quá trình nghiên cứu tổng hợp /
phân lập hợp chất mới [36].
Trong một khảo sát cơ sở dữ liệu của Scopus ( />sử dụng từ khóa tìm kiếm “virtual screening” từ 1974 đến cuối 2015, chúng
tôi nhận thấy số lượng các bài báo về sàng lọc ảo tăng lên hàng năm, nhất là
từ sau năm 2000, phản ánh rõ xu hướng ứng dụng ngày càng phổ biến các kỹ
thuật sàng lọc ảo trong nghiên cứu và phát triển thuốc mới. Hình 1.6 biểu diễn
số lượng các công bố từ năm 2000 bởi vì từ năm này số lượng bài báo đã vượt
hơn 100 bài/năm.

15


Số bài báo


Năm

Hình 1.6. Số lượng bài báo về “virtual screening” trong cơ sở
dữ liệu Scopus theo năm công bố.
Trong các nghiên cứu sàng lọc ảo, việc tìm kiếm các hợp chất mới có thể
được tiến hành dựa trên cấu tử (ligand-based) hay dựa trên cấu trúc mục tiêu
(structure-based).
Với phương pháp sàng lọc dựa trên cấu tử, thông tin cấu trúc của các
hợp chất hóa học đã biết trước hoạt tính được khai thác để xây dựng các mô
hình toán học, cho phép dự đoán hoạt tính (định tính hoặc định lượng) dựa
trên mối tương quan định lượng giữa cấu trúc và tác dụng. Các mô hình như
vậy được gọi chung là mô hình QSAR (Quantitative Structure-Activity
Relationship). Gần đây, các phương pháp tìm kiếm đồng dạng (similarity
searching) đang được sử dụng ngày càng nhiều, nhất là trong việc sàng lọc
tác dụng mới cho các thuốc đã biết [33].
Sàng lọc dựa trên cấu trúc mục tiêu được tiến hành khi có đầy đủ thông
tin về đích phân tử, đặc biệt là cấu trúc tinh thể. Các kỹ thuật phổ biến được
sử dụng là động lực học phân tử (molecular dynamics, MD), phương pháp
năng lượng tự do dựa trên mô phỏng Monte Carlo và protein Docking. Hiện
nay, xu hướng chung là kết hợp hai cách tiếp cận (dựa trên cấu trúc và cấu tử)
trong sàng lọc hợp lý nhằm giảm thiểu những hạn chế của từng phương pháp.

16


×