173
TẠP CHÍ KHOA HỌC, Đại học Huế, Số 59, 2010
NGHIÊN CỨU VỀ SỰ KHÁC BIỆT CỦA MẠNG CYTOKINE
TRONG HỆ THỐNG MIỄN DỊCH BẰNG GIẢI THUẬT TIẾN HOÁ
DỰA TRÊN MẠNG BAYES
Nguyễn Hoài Tưởng, Ramstein Gérard, Leray Philippe
Phòng thí nghiệm Tin học vùng Nantes-Atlantique
Jacques
Yannick
Trung tâm nghiên cứu Ung thư Nantes/Angers
TÓM TẮT
Bài báo giới thiệu cách tiếp cận dùng mạng Bayes để suy diễn sự khác biệt
của
sự
ảnh hưởng lẫn nhau giữa các cytokine (một loại protein quan trọng của hệ thống
miễn
dịch)
trong những điều kiện thí nghiệm khác nhau. Chúng ta sẽ được giới thiệu phương pháp tiến
hóa để học cấu trúc của mạng Bayes. Phương pháp này cho phép
chọn
lọc được một tập
hợp các mạng có tỷ lệ học tốt nhất. Mỗi mạng nhận được sau kết
quả
học sẽ được kiểm
nghiệm bằng phương pháp kiểm định thống kê với hai quần thể dữ
liệu
bệnh nhân: một có
dùng thuốc điều trị, còn lại không dùng thuốc điều trị. Mục đích
của
thí nghiệm này là
nhằm đánh giá mức độ ảnh hưởng của thuốc đối với sự tương tác
lẫn
nhau giữa các
gien.
1. Giới
thiệu
Chỉ trong mấy năm gần đây, người ta vừa tìm được Interleukine 15 (IL-15) [1],
một loại cytokine có vai trò rất quan trọng trong hệ thống miễn dịch. Một điểm đáng
chú ý là cytokine này có các chức năng gần giống và có quan hệ mật thiết với các
cytokine khác. Vì vậy, vấn đề đặt ra là IL-15 có tầm ảnh hưởng như thế nào đối với các
cytokine láng giềng của chúng trong những điều kiện thí nghiệm khác nhau. Để trả lời
câu hỏi này, các chuyên gia trong ngành đã nhờ đến sự hỗ trợ của máy tính thông qua
các kỹ thuật tiên tiến đã và đang được nghiên cứu và ứng dụng rộng rãi trong lĩnh vực
tin sinh học.
Thật vậy, ngày nay công nghệ vi mảng (microarray) cho phép đo đạc đồng thời
mức biểu lộ của hàng ngàn gien. Bên cạnh đó, mạng tương tác gien (gene regulatory
networks) không những cho ta một cái nhìn tổng thể về mối tác động lẫn nhau giữa các
gien, mà còn có khả năng lưu trữ các thông số về mức độ biểu lộ của chúng. Vì vậy, khả
năng suy luận của mạng tương tác gien từ dữ liệu vi mảng luôn là vấn đề mũi nhọn
trong các nghiên cứu tin sinh học. Minh chứng là đã có không ít các phương pháp được
đề xuất cho việc xây dựng loại mạng này (xem phần 2.1). Trong số đó, phương pháp
tiếp cận bằng mạng Bayes (Bayesian networks) đã gây một sự chú ý đáng kể của các
174
nhà nghiên cứu bởi khả năng giải quyết phần lớn các vấn đề đặt ra của nó: (1) các tương
tác phức tạp tạo ra bởi một số lượng lớn gien đã được phân tích từ các nguồn dữ liệu rời
rạc và nhiễu; (2) một khối lượng khổng lồ các biến (trên 30.000 gien) trong khi rất hạn
chế về dữ liệu mẫu (vài chục đến vài trăm thí nghiệm); (3) độ phức tạp tính toán của các
cấu trúc mạng và ý nghĩa thống kê giữa các biến trong mạng.
Trong bài báo này, tác giả muốn giới thiệu một cách tiếp cận bằng phương
pháp tiến hóa để duy
trì
tập hợp các mạng Bayes có tỷ lệ học tốt nhất từ dữ liệu vi
mảng về IL-15. Tập hợp này cho phép
một
so sánh các kết quả thu được từ mỗi
mạng bằng kiểm định thống kê trên hai tập dữ liệu bệnh
nhân:
một có điều trị bằng
thuốc, còn lại không điều trị bằng thuốc (hai điều kiện thí nghiệm khác
nhau).
Nói
cách khác, chúng ta sẽ đi trả lời cho câu hỏi: “Làm thế nào dùng mạng Bayes để suy
luận sự
ảnh
hưởng của IL-15 trong những điều kiện thí nghiệm khác
nhau?”.
2. Phương
pháp
2.1. Xây dựng lại mạng tương tác
gien bằng tiếp cận mạng Bayes
Xây dựng lại mạng tương tác gien là một bài toán khá nổi tiếng trong ngành
tin sinh học. Thật
vậy,
đã có không ít những giải pháp đề nghị cho vấn đề này mà
một vài đại diện tiêu biểu có thể kể ra
đây
là: clustering [4], mạng Bayes [7], [10],
[3], [13], mô hình đồ thị Gauss [11]. Mỗi một đề xuất
có
những lợi điểm cũng như
giới hạn riêng của nó. Riêng đối với bài báo này, chúng tôi chọn mạng
Bayes
như
một hướng nghiên cứu chính cho việc xây dựng lại mạng tương tác
gien.
Công trình được xem là đầu tiên cho vấn đề này thuộc về nhóm nghiên cứu của
Giáo
sư
Friedman và cộng sự vào năm 2000 [7]. Đây được xem như là công trình tiêu
biểu cho các nghiên
cứu
sau này về xây dựng lại mạng tương tác gien dựa trên nguyên
lý của mạng
Bayes.
Hình 1. Mô hình đầu tiên của bài toán xây dựng lại mạng tương tác gien bằng mạng Bayes đề
nghị bởi Friedman và cộng sự vào năm 2000.
175
Những kết quả đầu tiên của các tác giả này được phân tích nghiên cứu dựa
trên
một tập dữ liệu có dung lượng ở mức trung bình. Họ đã áp dụng các phương
pháp đơn giản để rời
rạc
hóa và học cấu trúc mạng. Các tác giả cũng đã nêu lên một
số vấn đề mở cho các nghiên cứu
tiếp
theo: tập dữ liệu mẫu ít, tính liên tục của dữ
liệu, phương pháp rời rạc hóa, dữ liệu biểu lộ có
phụ
thuộc thời gian, các tính năng
suy diễn và cuối cùng độ khớp với kiến thức của chuyên
gia.
Mô hình thứ hai được Pe’er và đồng nghiệp giới thiệu sau công trình thứ nhất
một năm (2001)
[10].
Họ đã nghiên cứu trên một bộ dữ liệu lớn hơn và chú trọng vào
việc phân tích, đánh giá các mạng
con
dựa vào ngưỡng của độ tin cậy được qui định
bởi các ràng buộc về tính trội/lặn giữa các gien.
Ngoài
ra, điểm khác biệt đáng chú ý
so với các nghiên cứu đầu tiên là họ đã xử lý trên dữ liệu liên tục
mà
không cần trải
qua bước rời rạc hóa và học cấu trúc mạng. Một trong các vấn đề được xem là mở
của
nghiên cứu này là khám phá các nhân tố tiềm ẩn có tương tác với các gien đã phát
hiện.
Hình 2. Mô hình cải tiến của Pe’er và cộng sự vào năm
2001.
Trở lại với nghiên cứu của tác giả, tiến trình trọng điểm của giải pháp được giới
thiệu trên hình số
3
chính là học cấu trúc mạng Bayes. Tiến trình này sẽ đảm nhận vai
trò học cấu trúc của mạng Bayes
từ
dữ liệu vi mảng bằng các giải thuật tiến hóa
(hình số 3). Một trong những lợi điểm mà vi mảng
mang
lại đó là khả năng đo đạc
đồng thời hàng chục ngàn gien. Hơn nữa, ngày nay cơ sở dữ liệu vi mảng
đã
được
công bố và cho phép tải miễn phí trên các máy chủ nổi tiếng như: GEO Omnibus,
Array
Express,
Oncomine… Đó là kết quả làm việc với sự đóng góp của nhiều trung
tâm nghiên cứu sinh học trên
thế giới.
176
Hình 3. Mô hình đề nghị của tác
giả
Trong giai đoạn đầu, chúng tôi sử dụng cách tiến cập bằng giải thuật tiến
hóa (được trình bày
cụ
thể ở phần 2.3) để tạo ra một tập các mạng Bayes được
đánh giá là tốt nhất theo tỉ số (score)
nhận
được từ phân tích dữ liệu thí
nghiệm.
Tùy vào đặc thù của từng điều kiện thí nghiệm khác nhau, mà ở giai đoạn hai,
chúng tôi sẽ kiểm
tra
kết quả đạt được của các mạng này bằng phương pháp kiểm
định thống kê (xem mô hình chi tiết
ở
hình số 4). Cụ thể hơn, chúng tôi sẽ dùng
phương pháp kiểm định giả thuyết trên hai quần thể dữ
liệu:
một có điều trị bằng
thuốc, và ngược lại. Kết quả đạt được của nghiên cứu này cho phép chúng ta
đánh
giá
tầm ảnh hưởng của liệu pháp điều trị đến sự tương tác
gien.
Hình 4. Mô hình đề nghị của tác giả (chi tiết).
177
2.2. Học cấu trúc: vấn đề quan trọng trong việc xây dựng mạng tương tác
gien
Mạng Bayes là mô hình đồ thị xác suất dùng để biểu diễn mối quan hệ phụ
thuộc giữa các
đối
tượng. Đây là một loại đồ thị có hướng không có chu trình. Cấu
trúc của một mạng Bayes G
bao
gồm: một tập các đỉnh và một tập các cạnh có
hướng (hình 5).
Hình 5. Ví dụ của một mạng Bayes đơn
giản.
Trong nghiên cứu về xây dựng lại mạng tương tác gien, mỗi gien đóng vai
trò của một đỉnh,
quan
hệ tương tác giữa các gien thể hiện vai trò của các cạnh. Nếu
tồn tại một cạnh từ A đến B, và B
phụ
thuộc trực tiếp vào A (gien A tác động gien
B) thì A được gọi là cha của B. Theo luật Markov,
trong
một mạng Bayes, mỗi biến
phụ thuộc có điền kiện vào các biến họ hàng mà không phải là con
cháu
của nó.
Khi đó, phân phối có điều kiện của A khi biết cha mẹ nó pa
A
là P(A/pa
A
) (người ta
gọi đây
là
thông số mạng – network parameter). Với luật đơn giản này, chúng ta có
thể suy diễn được một
mạng
Bayes có thể giải thích được tính chất của dữ liệu quan
sát được như thế
nào.
Ví dụ: Đối với mạng Bayes như hình 5 bên trên, ta có thể biểu diễn phân
phối có điều kiện
như
công thức 1 sau đây
:
(
1
)
Trường hợp đơn giản nhất, cấu trúc của một mạng Bayes được miêu tả và qui
định bởi các
chuyên
gia, sau đó chúng ta chỉ việc dùng nó để biểu diễn các suy luận.
Tuy nhiên, việc xác định cấu trúc
này
thực sự quá phức tạp so với khả năng của con
người. Vì vậy, đòi hỏi cả cấu trúc mạng và thông
số
mạng đều phải được học tự
động từ dữ liệu. Người ta gọi công việc này là học mạng Bayes
(Bayesian
network
learning). Việc học mạng Bayes từ dữ liệu đòi hỏi việc xác định cả mô hình cấu
P(
G
1
,
G
2
,
G
3
,
G
4
,
G
5
,
G
6
)
=
P(
G
1
).P(
G
3
).
P(
G
2
|
G
1
).P(
G
4
|
G
2
).P(
G
5
|
G
2
,G
3
)
178
trúc G
và
thông các số
P.
Để học thông số, tiếp cận khả phổ biến là sử dụng hàm tỉ số thống kê (scoring
function). Hàm này có nhiệm vụ đánh giá mức độ khớp của một mạng Bayes với dữ liệu
học. Sau đó tìm mạng tối ưu theo hàm tỉ số này. Một trong các hàm hay được sử dụng là
BIC (Bayesian Information Criterion).
Để học cấu trúc, có hai dạng tiếp cận: (1) Các phương pháp dựa vào ràng buộc
(constraint-based) tìm trong cơ sở dữ liệu các mối quan hệ độc lập có điều kiện, sau đó,
xây dựng các cấu trúc đồ thị gọi là “các mẫu”. Các mẫu này biễu diễn cho một lớp các
đồ thị DAG. (2) Các phương pháp dựa vào tìm kiếm và tính tỉ số (search and scoring)
tìm trong không gian của các cấu trúc hợp lệ có thể có của một mạng. Phương pháp này
có lợi điểm là dễ dàng kết hợp với kiến thức của chuyên gia và giải quyết tốt vấn đề dữ
liệu thiếu. Như vậy, phương pháp học nào thích hợp cho bài toán xây dựng lại mạng
tương tác gien?
Trong những năm gần đây, có khá nhiều nghiên cứu đầu tư vào vấn đề này:
[7], [9], [8], [2],
[5].
Mỗi nghiên cứu, các tác giả đề nghị các phương pháp hiệu quả
riêng của họ để cải thiện độ chính
xác
của phép suy luận. Đặc biệt, trong số các
nghiên cứu này chúng tôi quan tâm đến nghiên cứu mới
gần
đây của C.Auliac [2],
người vừa bảo vệ thành công luận án tiến sĩ vào đầu năm 2009 với đề tài
“Các
tiếp
cận tiến hóa để xây dựng lại mạng tương tác gien bằng cách học mạng Bayes”. Cách
tiếp cận
này
sẽ được trình bày trong phần tiếp
theo.
2.3. Giải thuật tiến hóa cho việc học cấu trúc mạng
Bayes
Giải thuật tiến hóa (Evolutionary Algorithm - EA) là nhánh ngành con của
tính toán tiến hóa,
một
giải thuật tối ưu hóa bằng kinh nghiệm dựa vào quần thể. EA
cho phép duy trì một tập các giải
pháp
tối ưu. Một trong các đại diện rất quen thuộc
của EA là giải thuật di truyền (Genetic Algorithm -
GA).
Hình 6. So sánh các tiến trình của GA và EDA.
Đặc biệt, chỉ khoảng mấy năm gần đây, một hậu bối của GA có tên EDA
(Estimation
of
Distribution Algorithm), giải thuật đánh giá phân phối, đã và đang
179
được các nhà nghiên cứu
trong
ngành nhắc đến như một cải tiến rất triển vọng. Với
EDA, mỗi quần thể sẽ được gắn với một
phân
phối xác suất và mỗi ứng viên mới
sẽ được sinh ra bằng phương pháp lấu mẫu từ phân phối này.
Cụ
thể hơn là người ta
sẽ thay thế tiến trình lai ghép và đột biến của GA bằng bước xây dựng mô hình
xác
suất và lấy mẫu quần thể con trong EDA (hình 6).
Giải thuật này cho phép duy trì một tập hợp các giải pháp tối ưu với các
phân phối xác suất
tốt.
Điều này có ý nghĩa quan trọng cho các kiểm định thống kê
sau này. Đây cũng là một trong mục
tiêu
chính trong nghiên cứu của chúng tôi.
Thêm vào đó, phương pháp tìm một phân phối xác suất tốt vẫn
còn
là một vấn đề rất
mở. Thật vậy, đã có rất nhiều phiên bản khác nhau của EDA được đề nghị để trả
lời
vấn đề này như: EBNA (Estimation of Bayesian networks Algorihtm), FDA
(Factorized
Distribution
Algorithm), LFDA (Learning Factorized Distribution
Algorithm), BOA (Bayesian
Optimization
Algorithm). Vì vậy, đây là một đề tài hứa
hẹn sẽ vẫn còn tiếp tục thu hút các đầu tư nghiên
cứu.
Trở lại trường hợp ứng dụng cho việc học cấu trúc mạng Bayes, EDA được
xếp vào loại
các
phương pháp tìm kiếm và tính tỉ số (xem lại phần 2.2) [12], [2].
Theo giải thuật này, mỗi mạng Bayes
ứng
viên được biểu diễn bằng một chuỗi nhị
phân C
ij
kích thước n×n (công thức 3):
Theo ngôn ngữ của lý thuyết di truyền thì mỗi mạng Bayes là một nhiễm sắc
thể. Có nghĩa
là
mỗi nhiễm sắc thể, sẽ đại diện cho một cá thể của tập quần thể, và
được biểu diễn bởi một chuỗi
nhị
phân có dạng như sau (xem hình 7):
(
3
)
Hình 7. Ví dụ của việc biểu diễn một mạng Bayes theo ngôn ngữ của giải thuật di
truyền.
Nguyên tắc mã hóa tuân theo qui định của công thức (2). Riêng đối với
hàm thích nghi
(fitness
fuction) được sử dụng trong trường hợp này chính là hàm tỉ
số (scoring function, xem lại phần
2.2)
được tính từ dữ liệu cho mỗi mạng Bayes.
c
11
c
21
::: c
n1
c
12
c
22
::: c
n
c
1n
c
2n
::: c
nn
180
Thuật toán và quá trình huấn luyện được mô tả như sau:
Hình 8 dưới đây sẽ minh họa cho việc ứng dụng giải thuật này bằng một ví dụ
đơn giản để kết thúc bài báo. Ví dụ mô tả các tiến trình tính toán của EDA cho việc học
cấu trúc của mạng Bayes. Kết quả đầu ra là tập hợp các mạng Bayes có chỉ số thích nghi
cao nhất. Đây cũng chính là các mạng kết quả tiềm năng cho bước nghiên cứu tiếp theo
sử dụng các phương pháp kiểm định thống kê nhằm đánh giá hiệu quả suy luận và mức
độ tương tác giữa các đối tượng của mạng gien (cytokine):
Hình 8. Ví dụ của việc biểu diễn một mạng Bayes theo ngôn ngữ của giải thuật di
truyền.
3. Kết luận và hướng phát
triển
Mục tiêu quan trọng nhất của nghiên cứu này là phân tích sự khác biệt về
tầm ảnh hưởng giữa
các
cytokine trong những điều kiện thí nghiệm khác nhau dùng
mạng Bayes. Để đạt được đều này,
giải
thuật tiến hóa sẽ đảm nhận vai trò tạo và duy
trì một tập các mạng có cấu trúc tối ưu. Từ đó, một
bước
kiểm định thống kê sẽ được
1. Một quần thể được sinh ra từ các véc-tơ xác suất mã hóa từ các mạng Bayes ngẫu nhiên.
2. Hàm thích nghi của mỗi cá thể sẽ được đánh giá và xếp hạng để chọn những cá thể tối ưu.
3. Cập nhật quẩn thể dựa trên các cả thể được xếp hạng theo chỉ số thích nghi cao nhất.
4. Đột biến.
5. Lập lại bước 1-4 cho đến khi thỏa điều kiện dừng (không có cá thể mới nào có chỉ số thích nghi
tốt hơn)
181
áp dụng trên hai tập quần thể có điều kiện thí nghiệm khác nhau để
đánh
giá lại hiệu
quả suy luận thực tế của kết quả đạt được. Xây dựng lại mạng tương tác gien từ
mạng
Bayes là một hướng nghiên cứu đang được đầu tư bởi nhiều nhà nghiên cứu
trong ngành tin sinh
học.
Giải pháp đề nghị của chúng tôi đang được nhóm nghiên
cứu kiểm chứng bằng chương trình ở
phiên
bản thử nghiệm và kết quả sẽ được công
bố trong thời gian sớm
nhất.
4. Lời cảm ơn
Dự án này được tài trợ bởi BIL (BioInformatique Lingérienne), vùng Pays de
la Loire, Cộng hòa
Pháp.
TÀI LIỆU THAM KHẢO
1. Arena, Ra. Merendino, L. Bonina, D. Iannello, G. Stassi, and
P.
Mastroeni, The
new microbiologica, Official journal of the Italian Society for
Medical,
Odontoiatric, and Clinical Microbiology (SIMMOC), 23(2),
2000.
2. C. Auliac, Approches évolutionnaires pour la reconstruction de réseaux
de
régulation
génétique par apprentissage de réseaux bayésiens, PhD Thesis, Université
d'Evry-Val
d'Essonne, France,
2008.
3. M. Dejori, Analyzing gene expression data with bayesian networks, PhD
thesis,
Technical University of Graz,
2002.
4. Z. Dongxiao, O. H. Alfred, C. Hong, K. Ritu, And Anand S., Network
constrained
clustering for gene microarray data, Bioinformatics,
2005.
5. S.F. Emmert And M. Dehmer, Analysis of microarray data: A network-based
approach,
Wiley-VCH Publishing, 307-329,
2008.
6. N. Friedman, M. Linial, I. Nachman, And D. Pe'er, Using bayesian networks to
analyze
expression data, Computer Biology 7(3-4), 601-620,
2000.
7. F. Geier, T. Jens, And F. Christian, Reconstructing gene-regulatory networks from
time
series knock-out data, and prior knowledge, BMC Systems Biology, 1(1):11,
2007.
8. Y. Huang, J. Wang, Zhang J., Sanchez M., And Y. Wang, Bayesian inference
of
genetic regulatorynetworks from time series microarray data using dynamic bayesian
networks.
Bioinformatics, 2:46-56,
2007.
9. P. Li, Z. Chaoyang, P. Edward, G. Ping, And Youping D., Comparison
of
probabilistic boolean network and dynamic bayesian network approaches for
inferring
gene
regulatory networks, BMC Bioinformatics, 8(Suppl 7):S13,
2007.
10. D. Pe'er, A. Regev, G. Elidan, And N. Friedman, Inferring subnetworks
from
perturbed
182
expression profiles, Bioinformatics (Oxford, England), 17(1),
2001.
11. J. Schferand And K. Strimmer, Learning large-scale graphical gaussian models
from
genomic data. J. F. Mendes. (Ed.). Proceedings of CNET,
2005.
12. G. Thibault, S. Bonnevay, And A. Aussem, Learning bayesian network structures
by
estimation of distribution algorithms: An experimental analysis, IEEE International
Conference
on
Digital Information Management (ICDIM 07), Lyon, France,
2007.
13. L. Tiefei, Learning gene network using bayesian network framework, PhD thesis,
National
University of Singapore,
2005.
DIFFERENTIAL STUDY OF THE CYTOKINE NETWORK
IN THE IMMUNE SYSTEM BY THE EVOLUTIONARY ALGORITHM
BASED ON THE BAYESIAN NETWORK
Hoai-Tuong NGUYEN, Gérard RAMSTEIN, Philippe LERAY
LINA - Laboratory of Informatic of Nantes-Atlantique
Yannick JACQUES
CRCNA - Center of Research on Cancerology of Nantes/Angers
SUMMARY
In this paper, we present a Bayesian networks (BNs) approach in order to infer the
differentiation of the cytokine implication in different experimental conditions. We introduce an
evolutionary method for BNs structure learning that maintains a set of the best learned
networks. Each of them will be tested by a statistic test with two populations of patient data: one
with treatment (drugs), other without treatment. The answer to the quétion “How does the
treatment influence the gene regulation?” is expected.