Chương 1
MỞ ĐẦU
1.1 Giới thiệu
Trong khoảng một thập kỷ gần đây, với sự phát triển nhanh chóng của ngành
Công nghệ sinh học, dữ liệu sinh học được sinh ra ngày một nhiều. Chẳng hạn,
dữ liệu biểu hiện gien (gene expression data), dữ liệu biểu sinh gien (epigenetic
data), dữ liệu tương tác protein (protein interaction data), dữ liệu phổ khối
lượng của mẫu sinh học (metabolomic data). Các loại dữ liệu này gọi chung là
dữ liệu sinh học hệ thống (high-throughput data) và thường được coi là "ảnh
chụp" của các tổ chức sinh học. Việc phân tích các dữ liệu sinh học hệ thống
để từ đó có thể xây dựng lại các mạng sinh học gọi là tái tạo mạng (network
reconstruction). Bài toán tái tạo mạng sinh học là một loại bài toán ngược. Đây
là một bài toán quan trọng và đang là thách thức của ngành sinh học hệ thống.
Việc tái tạo mạng sinh học giúp chúng ta làm sáng tỏ bản chất của các quá
trình sinh học phức tạp và các cơ chế gây bệnh xảy ra bên trong tổ chức sinh
học. Đặc biệt, giúp chúng ta có thể tiên lượng, chẩn đoán các tác nhân, chỉ dấu
sinh học gây bệnh. Từ đó, giúp con người có thể can thiệp kịp thời và chính
xác vào các quá trình đó như: lựa chọn chế độ dinh dưỡng, đưa ra phác đồ điều
trị bệnh, điều chế thuốc, .
Trong một tổ chức sinh học, mọi tiến trình sinh học đều được điều khiển
bởi các phần tử cơ bản như: gen, protein, metabolite. Quan hệ giữa các phần tử
cơ bản trong tế bào sẽ quyết định đến chức năng của tế bào. Do đó, từ dữ liệu
sinh học, quá trình tái tạo mạng sinh học thông qua các mối quan hệ giữa các
phần tử sẽ cho chúng ta bức tranh tổng thể của sự sống. Cho đến nay, có hai
cách tiếp cận tái tạo mạng sinh học: cách tiếp cận thực nghiệm trong lĩnh vực
Sinh học và cách tiếp cận tính toán trong lĩnh vực Tin-Sinh. Với cách tiếp cận
thực nghiệm, các nhà thực nghiệm Sinh học sử dụng các phương tiện của công
nghệ sinh học để đo đạc sự liên kết giữa các phần tử, sau đó kết hợp với tri thức
chuyên gia để tái tạo lại mô hình mạng sinh học. Cách tiếp cận này thường cho
kết quả chính xác, nhưng chi phí thực nghiệm và thời gian tái tạo mạng sinh
học hoàn chỉnh rất lớn. Cách tiếp cận tính toán trong lĩnh vực Tin-Sinh lại sử
dụng sức mạnh tính toán của máy tính, các thuật toán, các mô hình để xây
dựng cấu trúc mạng phù hợp với dữ liệu quan sát nhất. Kết quả là thu được
mô hình mạng, ở đó các nút biểu diễn các phần tử sinh học, các cạnh biểu diễn
quan hệ giữa chúng. Mặc dù, mạng tái tạo được bằng cách này có thể còn khác
so với mạng được tái tạo bằng thực nghiệm, nhưng quá trình đó có ý nghĩa
quan trọng trên con đường tiến tới tái tạo mạng sinh học đầy đủ. Quá trình đó
sẽ giúp các nhà Sinh học có định hướng tốt hơn trong các thực nghiệm, giảm
thời gian và chi phí thực nghiệm. Ngoài ra, tái tạo mạng sinh học bằng cách
tiếp cận tính toán có thể dự đoán được các mối quan hệ giữa các phần tử sinh
1
học, mà có thể, với cách tiếp cận thực nghiệm chưa tìm được. Chính vì vậy,
trong khuôn khổ luận án này, chúng tôi sử dụng cách tiếp cận tính toán để tái
tạo mạng sinh học từ dữ liệu.
1.2 Bối cảnh thực hiện luận án
Ý tưởng về mô hình hóa các quá trình sinh học bằng các mạng gồm các
nút và các cạnh là một vẫn đề hấp dẫn. Việc tìm ra các cạnh nối các nút trong
mạng rất quan trọng, vì từ đó sẽ xác định nhóm các phần tử cùng thực hiện
một chức năng hoặc cùng tham gia vào một con đường sinh học, đây là một vấn
đề quan trọng trong sinh học hệ thống. Cho đến nay, đã có nhiều hướng nghiên
cứu giải quyết bài toán tái tạo mạng, mỗi hướng đều có ưu điểm và nhược điểm
[He et al., 2009], [Villaverde et al., 2013], [Wang et al., 2014]. Một cách tiếp
cận sử dụng mô hình toán học trong tái tạo mạng đó là dựa trên phương trình
vi phân, tích phân (differential and integral equations) [Gardner et al., 2003],
[Mazur et al.,2009], [Steuer et al., 2003]. Trong phương pháp này, tác động của
các phần tử lên một phần tử nào đó được biểu diễn bằng một phương trình vi
phân tuyến tính. Như vậy, đối với tất cả các phần tử, ta sẽ có một hệ phương
trình. Mô hình này có ưu điểm là đơn giản vì đã có cách giải phương trình vi
phân tuyến tính. Tuy nhiên, trong thực tế, dữ liệu biểu hiện của các phần tử
trong tế bào lại thường không tuân theo qui luật đơn giản như vậy. Hơn nữa,
do mô hình đòi hỏi nhiều tham số nên chi phí ước lượng lớn.
Một cách tiếp cận khác để tái tạo mạng sinh học đó là sử dụng mô hình đồ
thị (graphical models). Đây là cách tiếp cận được nhiều người sử dụng và đã
có nhiều kết quả nghiên cứu. Mạng logic (boolean network) là một trong những
mô hình mạng sớm nhất được đề xuất năm 1969 bởi Kauffman, được biểu diễn
đơn giản bằng một đồ thị có hướng. Mạng logic có ưu điểm là một mô hình
đơn giản nhất để biểu diễn một mạng thực. Tuy nhiên, nhược điểm lớn nhất
của mô hình này là đòi hỏi thời gian tính toán rất cao để xây dựng cấu trúc
mạng đáng tin cậy. Do đó, phương pháp này thường chỉ áp dụng trên mạng nhỏ,
không áp dụng để xây dựng mạng có qui mô lớn [Trairatphisan et al., 2013].
Một sự kết hợp của mô hình đồ thị và mô hình xác suất đó là mô hình đồ thị
xác suất (probabilistic graphical models) [Jordan, 1998], [Kauffman et al., 2003],
[Wang et al., 2014]. Đây là mô hình xác suất sử dụng đồ thị để biểu diễn sự
phụ thuộc có điều kiện giữa các biến ngẫu nhiên một cách trực quan. Mục đích
của cách tiếp cận mô hình đồ thị là tìm ra cấu trúc mạng phù hợp nhất với dữ
liệu. Có rất nhiều mô hình đồ thị khác nhau đã được sử dụng cho bài toán tái
tạo mạng. Trong đó, phải kể đến mô hình đồ thị xác suất thường được sử dụng
là mô hình mạng logic xác suất (probabilistic boolean network) [Trairatphisan
et al., 2013], mô hình mạng Bayesian (Bayesian network) và các biến thể của
chúng như: mạng Bayesian động (dynamic Bayesian network), mô hình Markov
ẩn (hidden Markov model), mạng logic Markov (Markov logic network), trường
ngẫu nhiên Markov (Markov random field), . . . . Tuy nhiên, thời gian tính toán
2
để tìm được mô hình phù hợp nhất với dữ liệu khá cao. Ngoài ra, cách tiếp cận
mô hình đồ thị hướng đến xây dựng cấu trúc mạng toàn cục, mạng được xây
dựng theo kiểu top-down. Chính vì vậy, phương pháp này thường bỏ sót các
quan hệ mang tính địa phương.
Một hướng tiếp cận khác để tái tạo mạng là sử dụng mô hình Lý thuyết
thông tin (information theory models). Ý tưởng của phương pháp này là dựa
trên các độ đo để tìm ra sự phụ thuộc thống kê giữa các phần tử sinh học. Một số
độ đo trong Lý thuyết thông tin, chẳng hạn độ đo Thông tin tương hỗ (mutual
information), Hệ số thông tin cực đại (maximal information coefficient-MIC)
có thể phát hiện được các quan hệ cặp đôi, tức là phát hiện sự phụ thuộc giữa
hai phần tử. Nhiều nghiên cứu đã sử dụng độ đo Thông tin tương hỗ để tái tạo
mạng điều hòa gen và mạng tương tác protein [Butte et al. 2000], [Cakir et al.,
2006], [Margolin et al., 2006]. Cách tiếp cận Lý thuyết thông tin thường hướng
đến các quan hệ cục bộ, sau đó mở rộng dần dần để xây dựng mạng toàn cục.
Nói cách khác, theo cách tiếp cận Lý thuyết thông tin, cấu trúc mạng được xây
dựng theo kiểu bottom-up. Do đó, phương pháp này thường không bỏ sót các
quan hệ mang tính địa phương.
Tóm lại, có nhiều cách tiếp cận để giải quyết bài toán tái tạo mạng sinh học,
mỗi cách tiếp cận đều có những ưu điểm và nhược điểm. Phần lớn các nghiên
cứu trước đây chỉ tập trung vào việc tìm các quan hệ cặp đôi giữa hai phần tử
và cho rằng quan hệ cặp đôi chính là cơ sở để xây dựng mạng quan hệ đa biến.
Gần đây, một số nghiên cứu đã xem xét đến mối quan hệ của một phần tử với
nhiều phần tử khác trong mạng sinh học. Chẳng hạn, cách tiếp cận mô hình
đồ thị và độ đo Thông tin tương hỗ trong tái tạo mạng điều hòa gen [Kinney
et al., 2014], [Reshef et al., 2011], [Trairatphisan et al., 2013]. Tuy nhiên, các
mối quan hệ đa biến đó lại không phải là các quan hệ xảy ra đồng thời. Trong
khi, một phản ứng sinh hóa trong mạng trao đổi chất lại thường chứa đựng mối
quan hệ của nhiều chất, đồng thời xảy ra. Do đó, các mối quan hệ như vậy có
thể sẽ không được phát hiện bằng các phương pháp đã nêu trên.
1.3 Mục tiêu nghiên cứu của luận án
Để tái tạo mạng trao đổi chất, trong luận án này, chúng tôi lựa chọn hướng
tiếp cận Lý thuyết thông tin, cụ thể là sử dụng các độ đo Thông tin tương hỗ.
Độ đo Thông tin tương hỗ trước đây được áp dụng để phát hiện quan hệ hai
biến trong mạng điều hòa gen và mạng tương tác protein do quan hệ trong các
mạng này phần lớn là quan hệ hai biến hoặc các quan hệ nhiều biến nhưng có
thể suy diễn từ các quan hệ hai biến. Trong mạng trao đổi chất, một phản ứng
có thể có nhiều chất tham gia. Do đó, quan hệ giữa các chất thường là các quan
hệ ba biến, bốn biến, . . ., hay nói cách khác là các quan hệ đa biến và hơn nữa
chúng xảy ra đồng thời. Cho đến nay, một số mở rộng của độ đo Thông tin
tương hỗ cũng đã xem xét đến mối quan hệ đa biến. Tuy nhiên, có những kiểu
quan hệ chỉ xuất hiện khi có nhiều biến đồng thời cùng tham gia. Chính vì vậy,
3
để tái tạo mạng trao đổi chất, cần phải mở rộng độ đo Thông tin tương hỗ để
có thể phát hiện được các quan hệ đa biến xảy ra đồng thời.
Như vậy, mục tiêu nghiên cứu của luận án là mở rộng độ đo Thông tin
tương hỗ để tái tạo mạng trao đổi chất. Để tái tạo mạng trao đổi chất từ
dữ liệu sinh học, chúng tôi sẽ thực hiện hai bước, tương ứng với hai bài toán
(Hình 1.1).
Bài toán 1 Bài toán 2
Dữ → Tái tạo quan hệ đa biến → Loại bỏ quan hệ dư thừa → Mạng
liệu ⇑ ⇑ trao
Mở rộng độ đo MI Mở rộng độ đo CMI đổi
chất
Hình 1.1: Sơ đồ tóm tắt Mục tiêu nghiên cứu của luận án
• Bài toán 1: Mở rộng độ đo Thông tin tương hỗ (MI) để tái tạo quan hệ
đa biến.
• Bài toán 2: Mở rộng độ đo Thông tin tương hỗ có điều kiện (CMI) để
phát hiện quan hệ đa biến gián tiếp và loại bỏ quan hệ dư thừa.
1.4 Các đóng góp chính của luận án
Luận án có ba đóng góp chính:
Thứ nhất: Đề xuất một cách diễn giải trực quan mới và công thức mới cho
Thông tin tương hỗ trong trong trường hợp hai biến và ba biến. Cách diễn giải
này khắc phục được các nhược điểm của một số cách diễn giải trước đây.
Thứ hai: Trên cơ sở đóng góp thứ nhất, đề xuất một công thức tổng quát
cho độ đo Thông tin tương hỗ đa biến. Từ công thức tổng quát, có nhiều công
thức được suy ra, mỗi công thức phản ánh một loại quan hệ tồn tại giữa các
biến.
Thứ ba: Đề xuất một công thức tổng quát cho độ đo Thông tin tương hỗ đa
biến có điều kiện nhằm phát hiện quan hệ đa biến gián tiếp và loại bỏ các quan
hệ dư thừa.
1.5 Tổ chức luận án
Luận án gồm 130 trang được chia thành 4 chương.
Chương 1: Giới thiệu tổng quan về bài toán tái tạo mạng sinh học, bối cảnh
thực hiện luận án, mục tiêu nghiên cứu và những đóng góp chính của luận án.
Chương 2: Những kiến thức nền tảng, bao gồm những khái niệm cơ bản trong
Tin-Sinh học và các kiến thức liên quan đến một số độ đo trong Lý thuyết thông
tin.
4
Chương 3: Giới thiệu một số mở rộng độ đo Thông tin tương hỗ của các tác
giả khác. Đề xuất một diễn giải trực quan mới và công thức mới cho Thông tin
tương hỗ trong trường hợp hai biến và ba biến. Từ đó, đề xuất một công thức
tổng quát cho Thông tin tương hỗ trong trường hợp đa biến. Cuối cùng là một
ứng dụng của các độ đo Thông tin tương hỗ đa biến vào bài toán tái tạo mạng
trao đổi chất và đánh giá các độ đo này.
Chương 4: Đề xuất một công thức tổng quát của độ đo Thông tin tương hỗ
đa biến có điều kiện. Ứng dụng của các độ đo Thông tin tương hỗ đa biến có
điều kiện trong việc phát hiện các quan hệ đa biến gián tiếp để loại bỏ các quan
hệ dư thừa trong mạng trao đổi chất.
Cuối cùng là phần Kết luận của luận án.
Chương 2
KIẾN THỨC NỀN TẢNG
2.1 Một số khái niệm cơ bản trong Sinh học
Mọi sinh vật đều được tạo thành từ vô số tế bào. Tất cả các quá trình sinh
học trong tế bào đều được điều khiển bới các phần tử cơ bản trong tế bào như:
gien, protein, metabolite. Các phần tử này không hoạt động riêng rẽ mà chúng
thường kết hợp với nhau để tạo thành các phức hợp và thực hiện một chức năng
nào đó. Tập các phần tử sinh học và các quan hệ giữa chúng tạo thành một
mạng sinh học (biological network). Về mặt hình thức, mạng sinh học thường
được biểu diễn bằng đồ thị gồm các nút và các cạnh. Trong đó, nút đại diện
cho các phần tử cơ bản trong tế bào, cạnh đại diện cho quan hệ giữa các phần
tử cơ bản đó.
Mạng tương tác protein (protein-protein interaction network-PIN ) là một
mạng sinh học. Trong đó, các nút của mạng là các protein, các cạnh là các tương
tác vật lý giữa các protein. Tương tác protein-protein xảy ra khi các protein kết
hợp với nhau, thường là để thực hiện chức năng sinh học của chúng.
Trong mạng điều hòa gien (gene regulatory network-GRN ), mỗi nút là một
gien, mỗi cạnh là một quan hệ điều khiển của gien này đối với gien kia. Một
trong các nguồn dữ liệu quan trọng là dữ liệu biểu hiện gien (gene expression
data). Dữ liệu biểu hiện gien thường cho dưới dạng ma trận, trong đó mỗi cột
tương ứng với mỗi gien và mỗi dòng tương ứng với một thời điểm lấy mẫu hay
một điều kiện thí nghiệm. Mỗi ô của ma trận chứa mức độ biểu hiện của gien
trong điều kiện tương ứng.
Trong mạng trao đổi chất (metabolic network-MN ), mỗi nút là một chất
trao đổi (metabolite), là phân tử nhỏ có trong mẫu sinh học. Các chất trao đổi
này thường là các chất tham gia phản ứng, các chất xúc tác, các sản phẩm của
các phản ứng hóa sinh trong cơ thể sinh học. Mỗi cạnh trong mạng biểu diễn
cho một quan hệ chuyển hóa từ chất này sang chất kia.
5
Dữ liệu chuỗi thời gian (time-series) là tập hợp các dữ liệu thu được tại các
mốc thời gian, cách nhau một khoảng thời gian nhất định. Dữ liệu time-series
được sử dụng trong thống kê, xử lý tín hiệu, nhận dạng mẫu, tài chính, dự
báo,. . Dựa vào dữ liệu time-series, ta có thể tìm thấy các qui luật của các sự
kiện. Vì vậy, mô hình time-series còn được sử dụng để sinh ra các dữ liệu dựa
trên các quan sát đã có.
Trong quá trình thu thập dữ liệu thường xuất hiện các dữ liệu nhiễu (per-
turbation). Dữ liệu nhiễu thường sinh ra do lỗi chương trình, lỗi thiết bị dùng
để thu thập dữ liệu hoặc do ảnh hưởng của điều kiện thí nghiệm, . . . . Chúng
thường làm ảnh hưởng xấu đến các kết quả phân tích hoặc khai phá dữ liệu.
Dữ liệu In silico là dữ liệu sinh học được sinh ra từ máy tính thông qua các
mô hình mô phỏng, không phải thu được từ các thí nghiệm sinh học. Nghiên
cứu In silico có khả năng làm tăng tốc độ thực hiện và đồng thời làm giảm chi
phí khi tiến hành trong phòng thí nghiệm và trên các thử nghiệm lâm sàng.
2.2 Một số khái niệm cơ bản trong Lý thuyết thông tin
Định nghĩa 2.1. Entropy của biến ngẫu nhiên rời rạc X, ký hiệu là H(X), đo
lượng thông tin không chắc chắn của biến X, được định nghĩa như sau [Shannon,
1948]:
H(X) =
x
p(x) log
1
p(x)
= −
x
p(x) log p(x) (2.1)
trong đó, p(x) là hàm phân phối xác suất (probability mass function) của X.
Khi các biến là liên tục, phép tính tổng trong các công thức được thay bởi
phép tính tích phân.
Tính chất: H(X) ≥ 0
Định nghĩa 2.2. Entropy đồng thời (joint entropy) của cặp hai biến ngẫu nhiên
rời rạc (X, Y ), ký hiệu H(X, Y ), được định nghĩa như sau:
H(X, Y ) = −
x,y
p(x, y) log p(x, y) (2.2)
Tính chất: H(X, Y ) ≤ H(X) + H(Y )
Định nghĩa 2.3. Cho hai biến ngẫu nhiên rời rạc X và Y . Entropy có điều
kiện (conditional entropy) của biến X trên điều kiện Y , ký hiệu là H(X|Y ), đo
lượng thông tin không chắc chắn của biến X khi đã biết biến Y , được xác định
như sau:
H(X|Y ) = −
x,y
p(x, y) log
p(x, y)
p(y)
(2.3)
Tính chất
(i) H(X|Y ) ≥ 0
(ii) H(X, Y ) = H(X) + H(Y |X); H(X, Y ) = H(Y ) + H(X|Y )
6
(iii) H(X|Y ) ≤ H(X)
Định nghĩa 2.4. Entropy của n biến ngẫu nhiên rời rạc X
1
, . . . , X
n
với phân
bố xác suất đồng thời p(x
1
, . . . , x
n
) được xác định bởi:
H(X
1
, . . . , X
n
) = −
x
1
, ,x
n
p(x
1
, . . . , x
n
) log p(x
1
, . . . , x
n
) (2.4)
Tính chất: H(X
1
, . . . , X
n
) ≤
n
i=1
H(X
i
)
Định nghĩa 2.5. Thông tin tương hỗ (mutual information) của hai biến ngẫu
nhiên X và Y , ký hiệu là MI(X, Y ), đo mức độ tương hỗ của hai biến X và Y ,
được định nghĩa như sau:
MI(X, Y ) =
x,y
p(x, y) log
p(x, y)
p(x).p(y)
(2.5)
= H(X) + H(Y ) − H(X, Y ) (2.6)
Khi giá trị độ đo này lớn, có nghĩa rằng mức độ tương hỗ giữa hai biến lớn
và ngược lại, giá trị của độ đo bé nghĩa là mức độ tương hỗ của hai biến nhỏ.
Tính chất
(i) MI(X, Y ) ≥ 0
(ii) MI(X, Y ) = MI(Y, X)
(iii) MI(X, Y ) = H(X) − H(X|Y ) = H(Y ) − H(Y |X)
(iv) MI(X, Y ) ≤ H(X); M I(X, Y ) ≤ H(Y )
Định nghĩa 2.6. Thông tin tương hỗ có điều kiện (conditional mutual infor-
mation) của hai biến ngẫu nhiên X và Y trên điều kiện Z đo mức độ tương hỗ
của hai biến X và Y khi có điều kiện Z, được định nghĩa như sau:
MI(X, Y |Z) =
x,y,z
p(x, y, z) log
p(x, y|z)
p(x|z).p(y|z)
(2.7)
=
z
p(z)M I(X, Y |Z = z) (2.8)
Một số biểu diễn khác của CMI:
MI(X, Y |Z) = H(X, Z) + H(Y, Z) − H(Z) − H(X, Y, Z) (2.9)
MI(X, Y |Z) = H(X|Z) + H(Y |Z) − H(X, Y |Z) (2.10)
Tính chất: M I(X, Y |Z) ≥ 0
Định nghĩa 2.7. Ba biến ngẫu nhiên X, Y, Z được gọi là tạo thành chuỗi
Markov (Markov chain), ký hiệu X → Y → Z, nếu:
p(x, y, z) = p(x).p(y|x).p(z|y) (2.11)
7
Bổ đề 2.1. X → Y → Z khi và chỉ khi X và Z độc lập với nhau trên điều kiện
Y , tức là M I(X, Z|Y ) = 0
Bổ đề 2.2. Nếu X → Y → Z thì Z → Y → X
Định lý 2.1. Bất đẳng thức xử lý dữ liệu (data processing inequality-DPI)
Nếu X → Y → Z thì:
MI(X, Y ) ≥ M I(X, Z) (2.12)
Dấu đẳng thức xảy ra khi và chỉ khi MI(X, Y |Z) = 0
Bổ đề 2.3. Nếu X → Y → Z thì
MI(X, Z) ≤ min
MI(X, Y ); MI(Y, Z)
(2.13)
Bổ đề 2.4. Nếu X → Y → Z thì:
MI(X, Y |Z) ≤ MI(X, Y ) (2.14)
2.3 Đánh giá tính chính xác của dự đoán
Trong phân lớp nhị phân hay trong dự đoán, các kết quả được gán nhãn
hoặc là dương (positive-P) hoặc âm (negative-N ). Có bốn khả năng có thể xảy
ra: Nếu kết quả dự đoán là P và giá trị thực tế cũng là P thì khi đó được gọi
là true positive-TP. Nếu kết quả dự đoán là P mà giá trị thực là N , thì được
gọi là false positive-FP. Ngược lại, nếu kết quả dự đoán và giá trị thực đều là
N thì gọi là true negative-TN, và là false negative-FN khi kết quả dự đoán là
N, trong khi giá trị thực tế là P .
Quan sát dương (P) Quan sát âm (N)
Dự đoán dương (P) TP FP
Dự đoán âm (N) FN TN
Có nhiều thước đo độ chính xác của dự đoán như: Precision, Recall, độ chính
xác (Accuracy-ACC), độ đo F (F-measure), đường cong ROC và diện tích dưới
đường cong ROC (area under the curve-AUC). Trong đó,
P recision =
T P
T P + F P
(2.15)
Recall =
T P
T P + F N
(2.16)
ACC =
T P + T N
T P + F P + T N + F N
(2.17)
F − measure = 2
P recision.Recall
P recision + Recall
=
2T P
2T P + F P + F N
(2.18)
Một thước đo được sử dụng phổ biến nhất trong khoa học đó là đường cong
ROC (Receiver Operating Characteristic). Đường cong ROC được tạo thành từ
8
tập hợp các điểm ứng với các ngưỡng khác nhau. Với mỗi ngưỡng sẽ cho ta một
điểm. Mỗi điểm được xác định bởi 2 tọa độ: 1-Specificity (hay còn gọi là False
Positive Rate) và Sensitivity (hay còn gọi là True Positive Rate).
Trong đó,
Sensitivity =
T P
T P + F N
(2.19)
1 − Specif icity =
F P
F P + T N
(2.20)
Đường cong ROC có một tính chất quan trọng là: nếu đường cong càng đi
dọc theo biên trái và rồi đi dọc theo biên phía trên của không gian ROC, thì
chứng tỏ kết quả của dự đoán càng chính xác. Đường cong càng tiến tới thành
đường chéo 45
o
trong không gian ROC, thì độ chính xác của dự đoán càng kém.
Tuy nhiên, nếu căn cứ vào các đường cong ROC thì rất khó để kết luận
được dự đoán nào tốt hơn. Vì vậy, người ta thường sử dụng phần diện tích dưới
đường cong ROC, ký hiệu là AUC, để đánh giá tính chính xác của dự đoán.
Đường cong nào có AUC càng lớn thì độ chính xác của dự đoán càng cao và
ngược lại, đường cong nào có AUC càng bé thì độ chính xác của dự đoán càng
thấp.
Chương 3
MỞ RỘNG ĐỘ ĐO THÔNG TIN TƯƠNG HỖ ĐỂ TÁI TẠO
QUAN HỆ ĐA BIẾN
3.1 Một số mở rộng độ đo Thông tin tương hỗ
3.1.1 Mở rộng của Watanabe
Mở rộng đầu tiên của độ đo Thông tin tương hỗ là độ đo Tương quan tổng
hợp (total correlation) do Watanabe đưa ra năm 1960 [Watanabe, 1960].
Định nghĩa 3.1. Cho n biến ngẫu nhiên X
1
, . . . , X
n
, tương quan tổng hợp của
n biến, ký hiệu là T C(X
1
, . . . , X
n
), được định nghĩa:
T C(X
1
, . . . , X
n
) =
x
1
, ,x
n
p(x
1
, . . . , x
n
) log
p(x
1
, . . . , x
n
)
p(x
1
). . . . p(x
n
)
(3.1)
=
n
i=1
H(X
i
) − H(X
1
, . . . , X
n
) (3.2)
Trong trường hợp ba biến, công thức (3.2) có dạng:
T C(X, Y, Z) = H(X) + H(Y ) + H(Z) − H(X, Y, Z) (3.3)
Một mở rộng nữa của Watanabe là Tương quan tổng hợp có điều kiện được
định nghĩa như sau:
9
Định nghĩa 3.2. Tương quan tổng hợp có điều kiện của n biến ngẫu nhiên
X
1
, . . . , X
n
trên điều kiện Y , ký hiệu là TC(X
1
, . . . , X
n
|Y ), được định nghĩa:
T C(X
1
, . . . , X
n
|Y ) =
n
i=1
H(X
i
|Y ) − H(X
1
, . . . , X
n
|Y ) (3.4)
Trong trường hợp ba biến, công thức (3.4) có dạng:
T C(X, Y, Z|T ) = H(X|T ) + H(Y |T ) + H(Z|T ) − H(X, Y, Z|T ) (3.5)
Độ đo Thông tin tương tác chỉ phản ánh được kiểu quan hệ đồng thời của
n biến, không phản ánh được các kiểu quan hệ khác giữa các biến.
3.1.2 Mở rộng của Fano
Mở rộng thứ hai của độ đo Thông tin tương hỗ là độ đo Thông tin tương
tác (interaction information) do Fano đưa ra năm 1961 [Fano, 1961].
Định nghĩa 3.3. Thông tin tương tác của n biến ngẫu nhiên X
1
, . . . , X
n−1
, X
n
(với n > 2), được định nghĩa như sau:
MI(X
1
, . . . , X
n
) =
n
i=1
H(X
i
) −
1≤i<j≤n
H(X
i
, X
j
) + . . . + (−1)
n+1
H(X
1
, . . . , X
n
) (3.6)
Trong trường hợp ba biến, công thức (3.6) được viết:
MI(X, Y, Z) = H(X)+H(Y )+H(Z)−
H(X, Y ) + H(Y, Z) +H(Z, X)
+H(X, Y, Z) (3.7)
Thông tin tương hỗ có tính chất là luôn có giá trị không âm, giá trị M I = 0
khi và chỉ khi các biến độc lập. Trong khi đó, theo công thức (3.6), giá trị MI
có thể nhận cả giá trị âm. Như vậy, mở rộng của Fano không phản ánh đúng
mối quan hệ giữa các biến.
3.1.3 Mở rộng của Cover và Thomas
Mở rộng của Cover và Thomas đưa ra năm 1991 [Cover et al., 1991], trong
đó, các tác giả sử dụng biểu đồ Venn để biểu diễn cho entropy của các biến
(Hình 3.2). Phần giao nhau của H(X) và H(Y ) biểu diễn cho lượng thông tin
chung của hai biến X, Y , chính là Thông tin tương hỗ của hai biến. Khi mở
rộng sang trường hợp ba biến, phần giao nhau của H(X), H(Y ) và H(Z) chính
là thông tin tương hỗ của ba biến.
Nhìn vào độ lớn phần giao nhau của H(X), H(Y ) và H(Z), chúng ta có thể
biết được mức độ tương hỗ giữa ba biến. Tuy nhiên, phương pháp biểu diễn
trực quan này không biểu diễn được các kiểu quan hệ khác trong trường hợp
ba biến.
3.1.4 Mở rộng của Jakulin và Bratko
Năm 2003, Aleks Jakulin và Ivan Bratko đưa ra một phương pháp trực quan
khác [Jakulin et al., 2003]. Jakulin và Bratko gọi quan hệ giữa hai biến là tương
tác. Trong phương pháp này, mỗi biến được biểu diễn bằng một hình tròn lớn,
10
Hình 3.2: Biểu diễn Thông tin tương hỗ bằng biểu đồ Venn.
tương tác giữa hai biến được biểu diễn bằng một hình tròn nhỏ nằm trên đường
nối giữa hai hình tròn lớn (Hình 3.3). Khi mở rộng sang trường hợp ba biến,
Jakulin và Bratko đưa thêm khái niệm tương tác dương và tương tác âm. Để
biểu diễn điều này, các tác giả dùng hình tròn nhỏ màu trắng biểu diễn tương
tác dương và hình tròn nhỏ màu xám biểu diễn tương tác âm.
Hình 3.3: Biểu đồ tương tác giữa các biến của Jakulin-Bratko.
Trong cách biểu diễn này, Jakulin và Bratko chỉ tập trung mô tả cấu trúc
tương tác mà không mô tả được mức độ mạnh/yếu của tương tác đó. Cách biểu
diễn này có tính trực quan thấp. Nhìn vào hình vẽ, chúng ta không thể nói gì
về hình tròn nhỏ trong sự tương quan với các hình tròn lớn biểu diễn các biến
X, Y, Z.
Tóm lại, trong những mở rộng độ đo Thông tin tương hỗ vừa trình bày, mỗi
mở rộng đều có nhược điểm. Mở rộng của Watanabe, Cover và Thomas không
biểu diễn được đầy đủ các kiểu quan hệ tồn tại trong trường hợp đa biến. Công
thức mở rộng của Fano không biểu diễn chính xác mức độ quan hệ giữa các
biến. Mở rộng của Jakulin và Bratko lại chỉ biểu diễn được cấu trúc của tương
tác mà không biểu diễn được mức độ của tương tác đó.
3.2 Đề xuất một mở rộng độ đo Thông tin tương hỗ
3.2.1 Đề xuất một diễn giải trực quan và công thức mới cho MI của
hai biến
Từ những nhược điểm của các mở rộng trình bày trong phần 3.1, chúng
tôi đề xuất một phương pháp trực quan mới để biểu diễn Thông tin tương hỗ.
Ở đây, chúng tôi mô tả quan hệ giữa hai biến trong một không gian hai chiều
(Hình 3.4). Giả sử, ta có dữ liệu quan sát trên hai biến X, Y . Khi đó, entropy
11
của phân bố xác suất của dữ liệu quan sát, ký hiệu là H(p
X,Y
), được biểu diễn
bằng một hình S có dạng bất kỳ (phần diện tích kẻ ca rô).
Khi hai biến X, Y độc lập, entropy của phân bố xác suất của dữ liệu được
biểu diễn bằng hình chữ nhật nhỏ nhất chứa S, ký hiệu là H(p
X
× p
Y
). Do
entropy được biểu diễn qua logarit nên H(p
X
× p
Y
) = H(p
X
) + H(p
Y
) =
H(X) + H(Y ).
Hình 3.4: Đề xuất biểu diễn trực quan mới cho MI của hai biến.
Do đó, công thức (2.6) của Shannon, tương đương với công thức (3.8)
MI(X, Y ) = H(p
X
× p
Y
) − H(p
X,Y
) (3.8)
Ở đây, H(p
X,Y
) và H(p
X
× p
Y
) là ký hiệu mới mà chúng tôi đưa ra để sử
dụng trong diễn giải của mình. Nếu hình kẻ ca rô S biểu diễn cho H(p
X,Y
) càng
lớn gần với hình chữ nhật biểu diễn cho H(p
X
× p
Y
), khi đó ta kết luận rằng
hai biến X và Y độc lập. Ngược lại, nếu S càng thu hẹp so với hình chữ nhật
thì điều đó có nghĩa là Thông tin tương hỗ giữa hai biến X, Y càng lớn.
Như vậy, từ cách diễn giải trực quan mới cho MI trong trường hợp hai biến,
chúng tôi đã đề xuất một công thức biểu diễn mới cho Thông tin tương hỗ (công
thức (3.8)). Theo đó, Thông tin tương hỗ của hai biến chính là phần chênh lệch
giữa entropy của phân bố xác suất đồng thời với entropy của phân bố xác suất
trong trường hợp giả định hai biến độc lập. Về mặt trực quan, Thông tin tương
hỗ của hai biến được biểu diễn bằng phần diện tích (kẻ chéo) nằm giữa hình
chữ nhật và hình kẻ ca rô S. Công thức (3.8) sẽ là cơ sở cho việc mở rộng độ
đo Thông tin tương hỗ cho trường hợp ba biến trong phần tiếp theo.
3.2.2 Đề xuất một diễn giải trực quan và công thức mới cho MI của
ba biến
Khi mở rộng sang trường hợp ba biến, ngoài các quan hệ cặp đôi giữa các
biến, ta có thêm các kiểu quan hệ khác như: quan hệ đồng thời giữa ba biến và
quan hệ giữa một biến với cặp hai biến còn lại. Chúng tôi sẽ tiếp tục mở rộng
công thức (3.8) đối với hai kiểu quan hệ trên.
12
• Kiểu quan hệ thứ nhất: ba biến có quan hệ đồng thời với nhau. Từ dạng
công thức (3.8), chúng tôi đề xuất công thức mở rộng cho kiểu quan hệ
này như sau:
MI(X, Y, Z) = H(p
X
× p
Y
× p
Z
) − H(p
X,Y,Z
) (3.9)
Giả sử, ta có dữ liệu quan sát, được biểu diễn trực quan bằng một khối S
có hình dạng méo mó như trong Hình 3.5. Khi đó, H(p
X,Y,Z
) là entropy
của phân bố xác suất của dữ liệu quan sát trên ba biến X, Y, Z. Trong
trường hợp ba biến độc lập, entropy của phân bố xác suất của dữ liệu
là hình hộp chứa khối S
. Khi đó, H(p
X,Y,Z
) = H(p
X
× p
Y
× p
Z
) =
H(p
X
)+ H(p
Y
)+ H(p
Z
) = H(X)+H(Y )+ H(Z). Do đó, công thức (3.9)
tương đương với công thức:
MI(X, Y, Z) = H(X) + H(Y ) + H(Z) − H(X, Y, Z) (3.10)
Hình 3.5: Biểu diễn trực quan MI(X, Y, Z).
Chúng tôi gọi độ đo thông tin tương hỗ của ba biến trong trường hợp này
là Thông tin tương hỗ tổng hợp của ba biến. Công thức (3.10) chính là
công thức T C(X, Y, Z) đo tương quan tổng hợp của ba biến mà Watanabe
đã đưa ra. Nếu hình S
khớp với hình hộp, ta nói rằng ba biến X, Y, Z độc
lập. Ngược lại, nếu S
càng thu hẹp so với hình hộp thì chúng ta có thể
khẳng định rằng ba biến X, Y, Z phụ thuộc. Như vậy, căn cứ vào khoảng
chênh lệch giữa S
và hình hộp, có thể đi đến kết luận rằng ba biến là
độc lập hay phụ thuộc.
• Kiểu quan hệ thứ hai: một biến có quan hệ với cặp hai biến còn lại. Chúng
tôi đề xuất công thức mở rộng cho kiểu quan hệ này như sau:
MI(Z, [X, Y ]) = H(p
Z
× p
X,Y
) − H(p
X,Y,Z
) (3.11)
Khi X và Y độc lập với Z, entropy của phân bố xác suất của dữ liệu là
hình trụ chứa khối S
(Hình 3.6). Khi đó, H(p
X,Y,Z
) = H(p
Z
× p
X,Y
) =
13
H(p
Z
) + H(p
X,Y
) = H(Z) + H(X, Y ). Do đó, công thức (3.11) tương
đương với công thức:
MI(Z, [X, Y ]) = H(Z) + H(X, Y ) − H(X, Y, Z) (3.12)
Chúng tôi gọi độ đo thông tin tương hỗ của ba biến trong trường hợp này
là Thông tin tương hỗ bộ phận giữa một biến với cặp hai biến.
Hình 3.6: Biểu diễn trực quan MI(Z, [X, Y ]).
Tương tự, trong trường hợp X có quan hệ với cặp biến [Y, Z]; Y có quan
hệ với cặp biến [Z, X], ta có các công thức:
MI
X, [Y, Z]
= H(p
X
× p
Y,Z
) − H(p
X,Y,Z
) (3.13)
= H(X) + H(Y, Z) − H(X, Y, Z) (3.14)
MI
Y, [Z, X]
= H(p
Y
× p
Z,X
) − H(p
X,Y,Z
) (3.15)
= H(Y ) + H(Z, X) − H(X, Y, Z) (3.16)
Từ đó, ta thấy mỗi loại thông tin tương hỗ cung cấp cho ta một kiểu quan
hệ trong mối quan hệ đa biến. Ví dụ, MI(X, Y ) cho biết mức độ tương hỗ giữa
biến X và Y ; M I
Z, [X, Y ]
đo mức độ tương hỗ giữa biến Z và cặp biến [X, Y ];
thông tin tương hỗ tổng hợp MI(X, Y, Z) cho ta biết mức độ tương hỗ đồng
thời giữa ba biến X, Y, Z.
3.2.3 Mở rộng độ đo Thông tin tương hỗ cho nhiều biến
Từ các diễn giải trong trường hợp ba biến, chúng ta thấy rằng, khi mở rộng
sang nhiều biến, sẽ xuất hiện nhiều kiểu quan hệ. Mỗi một kiểu quan hệ sẽ tương
ứng với một phân bố xác suất biên hay một phân hoạch {D
1
, . . . , D
k
} của tập
các biến X
1
, . . . , X
n
. Từ các công thức mở rộng độ đo MI trong trường hợp ba
biến vừa trình bày, chúng tôi đề xuất một công thức tổng quát cho Thông tin
tương hỗ đa biến như sau:
14
Định nghĩa 3.4. Thông tin tương hỗ của n biến X
1
, . . . , X
n
với tập phân hoạch
{D
1
, . . . , D
k
} được định nghĩa:
MI
{D
1
, ,D
k
}
(X
1
, . . . , X
n
) = H(p
D
1
× . . . × p
D
k
) − H(p
X
1
, ,X
n
) (3.17)
tương đương với
MI
{D
1
, ,D
k
}
(X
1
, . . . , X
n
) =
k
i=1
H(D
i
) − H(X
1
, . . . , X
n
) (3.18)
trong đó, {X
1
, . . . , X
n
} = D
1
⊕. . .⊕D
k
; p
D
i
là phân bố xác suất biên của phân
bố xác suất đồng thời p
X
1
, ,X
n
trên tập con D
i
của các biến.
Trong trường hợp đặc biệt D
i
= {X
i
}, công thức (3.18) được viết như sau:
MI(X
1
, . . . , X
n
) =
n
i=1
H(X
i
) − H(X
1
, . . . , X
n
) (3.19)
Đây chính là công thức T C(X
1
, . . . , X
n
) đo tương quan tổng hợp của n biến.
3.3 Ứng dụng MI đa biến trong tái tạo mạng trao đổi chất
3.3.1 Tái tạo quan hệ đa biến
Trong phần này, chúng tôi sử dụng dữ liệu trao đổi chất trong tế bào hồng
cầu (red blood cell-RBC ) được công bố bởi Nemenman và các cộng sự [Nemen-
man et al.,2007] để tái tạo mạng. Đây là dữ liệu biểu diễn dưới dạng một ma
trận 1000 × 39 mô tả nồng độ phân tử Mol của 39 chất trao đổi, tham gia trong
44 phản ứng được đo tại 1000 mốc thời gian. Dữ liệu này có thể tải về từ địa chỉ
_Metabolic_Network. Chúng tôi
sử dụng MATLAB để tính toán tái tạo mạng RBC gồm 39 chất trao đổi. Ở đây,
chúng tôi sử dụng phương pháp ước lượng thông tin tương hỗ dựa trên phân bố
xác suất Gaussian. Trước hết, để tái tạo quan hệ cặp đôi, chúng tôi sẽ sử dụng
công thức tính MI của hai biến. Số lượng các cặp đôi trong mạng trao đổi chất
RBC là C
2
39
= 741. Sau khi có được 714 giá trị MI(X, Y ), chúng tôi có một ma
trận 4 cột và 714 dòng. Cột thứ nhất tương ứng với biến X, cột thứ hai tương
ứng với Y , cột thứ ba là giá trị M I(X, Y ) tương ứng, cột thứ tư nhận giá trị
1 nếu trong mạng RBC tồn tại cạnh nối giữa X và Y , ngược lại cột thứ tư sẽ
nhận giá trị 0. Sau đó, chúng tôi sắp xếp ma trận theo thứ tự giảm dần của cột
MI(X, Y ). Độ chính xác của dự đoán tái tạo quan hệ cặp đôi là AUC=0.753.
Tương tự như vậy, để tái tạo quan hệ giữa ba biến, chúng tôi tính C
3
39
= 9.139
giá trị MI tổng hợp MI(X, Y, Z) và 27.417 giá trị MI bộ phận. Kết quả thực
nghiệm cho thấy các độ đo đề xuất có khả năng tái tạo được các tương tác đa
biến, chẳng hạn, diện tích dưới đường cong ROC của mạng tái tạo bằng độ đo
Thông tin tương hỗ tổng hợp là AUC=0.874.
Sau đây, chúng tôi sẽ minh họa quá trình tái tạo mạng con gồm 10 chất đầu
tiên (viết tắt là RBC10) của mạng RBC. Bảng 3.1 hiển thị 20 quan hệ cặp đôi
15
Bảng 3.1: Các quan hệ cặp đôi được tái tạo trong mạng RBC10
n X, Y Thứ tự MI(X, Y ) Phản ứng
1 G6P,F6P (1,2) 8.22 pgi
2 DHAP,GAP (4,5) 7.58 tip
3 PG2,PEP (9,10) 5.77 en
4 PG3,PG2 (8,9) 5.44 pgm
5 PG3,PEP (8,10) 5.07 pgm,en
6 FDP,DHAP (3,4) 3.78 ald
7 FDP,GAP (3,5) 3.77 ald
8 GAP,PG3 (5,8) 1.87 gapdh,pgk
9 DPG13,PG3 (6,8) 1.33 pgk
10 DPG13,PG2 (6,9) 1.33 pgk,pgm
11 DPG13,DPG23 (6,7) 1.26 dpgm
12 GAP,DPG13 (5,6) 1.21 gapdh
13 F6P,FDP (2,3) 1.06 pfk
14 G6P,FDP (1,3) 1.05 hk,pgi
15 F6P,DHAP (2,4) 0.98 pfk,ald
16 F6P,GAP (2,5) 0.96 tald
17 DHAP,DPG13 (4,6) 0.82 tpi,gapdh
18 DPG23,PG2 (7,9) 0.71 dpgase, pgm
19 DPG23,PG3 (7,8) 0.70 dpgase
20 DHAP,PG3 (4,8) 0.68 tpi,gap,pgk
có giá trị MI(X, Y ) lớn nhất trong mạng RBC10, được sắp theo thứ tự giảm
dần.
Bảng 3.2 hiển thị 7 quan hệ bộ ba có giá trị MI(X, Y, Z) lớn nhất trong
mạng RBC10. Đây là các quan hệ bộ ba thường là các sản phẩm hoặc chất nền
của cùng một phản ứng hoặc các phản ứng liền kề trong mô hình trao đổi chất
RBC. Ví dụ, (3, 4, 5) là (F DP, DHAP, GAP ) liên quan tới hai phản ứng liền
kề là ald và tpi; (8, 9, 10) là (P G3, PG2, P EP ) liên quan tới hai phản ứng liền
kề là pgm và en.
Bảng 3.2: Các quan hệ bộ ba được tái tạo trong mạng RBC10
n X, Y, Z Thứ tự MI
X, [Y, Z ]
MI
Y, [Z, X ]
MI
Z, [X, Y ]
MI(X, Y, Z)
1 FDP, DHAP, GAP (3,4,5) 3.78 7.58 7.58 11.36
2 PG3,PG2, PEP (8,9,10) 5.52 6.21 5.85 11.29
3 G6P, F6P, FDP (1,2,3) 8.22 8.22 0.75 9.98
4 DHAP,GAP, DPG13 (4,5,6) 7.57 7.57 1.00 8.57
5 DHAP,GAP, PG3 (4,5,8) 7.58 7.58 1.87 8.54
6 DPG13,PG3,PG2 (6,8,9) 1.35 5.46 5.46 6.98
7 G6P, F6P, DHAP (1,2,4) 5.22 5.22 0.72 6.95
Chọn ngưỡng θ
2
= 0.9 đối với MI của hai biến và ngưỡng θ
3
= 10 đối với MI
của ba biến. Khi đó, chúng tôi tái tạo được mạng gồm các quan hệ cặp đôi và
bộ ba của RBC10. Trong Hình 3.7, chúng tôi so sánh mạng được tái tạo bằng
các độ đo MI đa biến với mạng được tái tạo bằng thực nghiệm của các nhà
16
Sinh học (gọi tắt là mạng đích). Nét liền là những quan hệ cặp đôi được tái tạo
trùng khớp với mạng đích và nét đứt là những quan hệ cặp đôi được tái tạo
không khớp với mạng đích. Chấm tròn nối ba đường nét liền là những quan hệ
bộ ba được tái tạo trùng khớp với mạng đích và chấm tròn nối ba đường nét
đứt biểu diễn cho quan hệ bộ ba được tái tạo không khớp với mạng đích.
(a) (b)
Hình 3.7: So sánh mạng tái tạo nhờ MI đa biến (b) với mạng đích (a)
Với mạng kết quả tái tạo được, chúng tôi đánh giá tính chính xác của dự
đoán tái tạo các quan hệ cặp đôi và quan hệ bộ ba thông qua các độ đo đã trình
bày trong Chương 2 (Bảng 3.3).
Bảng 3.3: Độ chính xác của dự đoán tái tạo các quan hệ trong mạng RBC10
Kiểu quan hệ TP FP FN TN Precision Recall ACC F-measure
Cặp đôi 11 5 1 28 0.69 0.92 0.87 0.79
Bộ ba 1 1 0 118 0.5 1 0.99 0.67
Mạng được tái tạo bằng độ đo MI đa biến gồm 16 quan hệ cặp đôi, 2 quan
hệ bộ ba. So với mạng đích được tái tạo bằng thực nghiệm, ta thấy có 5 quan
17
hệ cặp đôi và 1 quan hệ bộ ba tái tạo không khớp. Ngoài ra, có 1 quan hệ cặp
đôi không được tái tạo là (DP G23, PG3).
3.3.2 Đánh giá các độ đo đề xuất
Để so sánh các độ đo chúng tôi đề xuất với các độ đo của các tác giả khác,
chúng tôi sử dụng dữ liệu DREAM3 gồm 15 tập dữ liệu, trong đó có 5 tập dữ
liệu kích thước 10 (dữ liệu của mạng 10 gien), 5 tập kích thước 50 và 5 tập kích
thước 100. Chúng tôi sẽ so sánh hiệu năng của ba độ đo: Thông tin tương tác
do Fano đưa ra (viết tắt là InteractInfo), Thông tin tương hỗ tổng hợp (viết
tắt là TotalMI ) và Thông tin tương hỗ bộ phận. Trong trường hợp ba biến, có
ba giá trị Thông tin tương hỗ bộ phận. Vì vậy, chúng tôi chọn giá trị nhỏ nhất
trong ba giá trị đó để so sánh, gọi giá trị đó là RelationshipMI.
RelationshipM I(X, Y, Z) = min
MI
X, [Y, Z]
; M I
Y, [Z, X]
; M I
Z, [X, Y ]
(3.20)
Bảng 3.4 cho thấy hiệu năng của các độ đo trong việc tái tạo các quan hệ
bộ ba trên các mạng khác nhau của dữ liệu DREAM3. Trung bình AUC của
InteractInfo, TotalMI và RelationshipMI trên 15 bộ dữ liệu tương ứng là 0.52,
0.66 và 0.68. Kết quả thực nghiệm cho thấy, độ đo RelationshipMI và TotalMI
có hiệu năng tái tạo quan hệ bộ ba tốt hơn độ đo InteractInfo.
Bảng 3.4: So sánh hiệu năng của các độ đo trong tái tạo các quan hệ bộ ba
trên dữ liệu DREAM3.
Các độ đo K.thước Ecoli1 Ecoli2 Yeast1 Yeast2 Yeast3 TB TB trên
mạng 15 bộ dl
InteractInfo
10 0.20 0.56 0.34 0.62 0.51 0.45
0.5250 0.70 0.64 0.38 0.51 0.57 0.56
100 0.69 0.57 0.49 0.45 0.48 0.54
TotalMI
10 0.66 0.73 0.83 0.69 0.56 0.69
0.6650 0.85 0.73 0.53 0.60 0.68 0.68
100 0.79 0.63 0.59 0.50 0.52 0.61
RelationshipMI
10 0.74 0.79 0.89 0.66 0.52 0.72
0.6850 0.85 0.75 0.58 0.63 0.68 0.70
100 0.80 0.68 0.61 0.50 0.53 0.63
3.4 Kết luận Chương 3
Trong Chương 3, chúng tôi đã đề xuất một cách diễn giải trực quan và công
thức mới cho Thông tin tương hỗ trong trường hợp hai biến và ba biến. Từ đó,
chúng tôi đề xuất một công thức tổng quát cho Thông tin tương hỗ đa biến.
Trong phần cuối của Chương 3, chúng tôi đã trình bày một ứng dụng các độ
đo mở rộng vào bài toán tái tạo mạng trao đổi chất trong tế bào hồng cầu gồm
39 chất. Kết quả thực nghiệm cho thấy các độ đo mà chúng tôi đề xuất có khả
năng tái tạo tốt các quan hệ đa biến. Ngoài ra, để đánh giá hiệu năng của các
độ đo đề xuất, chúng tôi đã tiến hành thực nghiệm trên các loại dữ liệu khác
nhau với các kích thước khác nhau, kết quả cho thấy các độ đo đề xuất có thể
sử dụng để phát hiện các quan hệ đa biến trong mạng sinh học. Như vậy, so với
mục tiêu nghiên cứu của Luận án, chúng tôi đã giải quyết được Bài toán 1.
18
Chương 4
MỞ RỘNG ĐỘ ĐO THÔNG TIN TƯƠNG HỖ CÓ ĐIỀU KIỆN
ĐỂ PHÁT HIỆN QUAN HỆ ĐA BIẾN GIÁN TIẾP
Mặc dù các độ đo Thông tin tương hỗ đề xuất trong Chương 3 đã tái tạo
được các quan hệ đa biến nhưng một số quan hệ được tái tạo lại dư thừa do đã
tồn tại các mối quan hệ gián tiếp. Trong Chương 4, chúng tôi sẽ tiếp tục mở
rộng độ đo Thông tin tương hỗ có điều kiện để phát hiện các quan hệ đa biến
gián tiếp.
4.1 Thông tin tương hỗ có điều kiện của hai biến
Thông tin tương hỗ có điều kiện (conditional mutual information-CMI) dùng
để đo mức độ tương hỗ của hai biến khi có sự xuất hiện của một hay nhiều biến
khác. Thông tin tương hỗ có điều kiện của hai biến trên biến thứ ba là trung
bình thông tin tương hỗ của hai biến đó tại các giá trị mà biến thứ ba có thể
nhận.
MI(X, Y |Z) =
z
p(z)M I(X, Y |Z = z)
= H(X|Z) + H(Y |Z) − H(X, Y |Z)
Khi các biến X và Y có mối quan hệ gián tiếp thông qua biến thứ ba (chẳng
hạn biến Z), dựa vào độ đo MI ta sẽ phát hiện được sự tồn tại quan hệ giữa X
và Y . Nếu quan sát thêm được biến Z thì ta có thể biết thêm thông tin về mối
quan hệ này. Bằng cách lấy trung bình thông tin tương hỗ của hai biến X và
Y trên biến Z, ta có thể biết được X và Y có quan hệ gián tiếp thông qua Z
(ký hiệu, X ↔ Z ↔ Y ) hay không.
Khi có sự xuất hiện của biến Z, Thông tin tương hỗ của hai biến X và Y có
thể tăng lên hoặc giảm đi. Trong khi MI(X, Y |Z) đo mức độ tương hỗ trung
bình giữa hai biến X và Y trên các giá trị của Z thì MI(X, Y ) đo mức độ
tương hỗ trên không gian dữ liệu của hai biến X và Y . Nếu MI(X, Y ) lớn và
MI(X, Y |Z) cũng lớn, điều đó có nghĩa là Z không ảnh hưởng đến mối quan
hệ của X và Y . Khi đó, X và Y hoặc có quan hệ trực tiếp hoặc có quan hệ gián
tiếp nhưng không phải qua Z. Nếu M I(X, Y ) lớn nhưng MI(X, Y |Z) nhỏ, điều
đó có nghĩa là Z chi phối mối quan hệ giữa X và Y , khi đó ta có quan hệ gián
tiếp X ↔ Z ↔ Y .
Như vậy, dựa vào độ đo CMI ta có thể phát hiện được các quan hệ gián tiếp
giữa hai biến thông qua biến trung gian. Tuy nhiên, độ đo CMI chỉ phát hiện
được quan hệ gián tiếp giữa hai biến. Vì vậy, trong phần tiếp theo, chúng tôi
đề xuất một mở rộng độ đo CMI cho nhiều biến để phát hiện kiểu quan hệ đa
biến gián tiếp.
19
4.2 Mở rộng thông tin tương hỗ có điều kiện
Tương tự như đề xuất công thức tổng quát của MI trong Chương 3, chúng
tôi đề xuất một mở rộng độ đo Thông tin tương hỗ có điều kiện như sau:
Định nghĩa 4.1. Thông tin tương hỗ có điều kiện của n biến X
1
, . . . , X
n
với
phân hoạch {D
1
, . . . , D
k
} trên điều kiện C được định nghĩa:
MI
{D
1
, ,D
k
}
(X
1
, . . . , X
n
|C) =
k
i=1
H(D
i
|C) − H(X
1
, . . . , X
n
|C) (4.1)
trong đó, {D
1
, . . . , D
k
} là các phân hoạch của tập các biến {X
1
, . . . , X
n
};
{X
1
, . . . , X
n
} = D
1
⊕ . . . ⊕ D
k
.
Trong trường hợp ba biến, ta có các độ đo sau:
• Thông tin tương hỗ tổng hợp của ba biến X, Y, Z trên điều kiện T
MI(X, Y, Z|T ) = H(X|T ) + H(Y |T ) + H(Z|T ) − H(X, Y, Z|T ) (4.2)
• Thông tin tương hỗ bộ phận giữa một biến với cặp hai biến trên điều kiện
T
MI(X, [Y, Z]|T ) = H(X|T ) + H(Y, Z|T ) − H(X, Y, Z|T ) (4.3)
MI(Y, [Z, X]|T ) = H(Y |T ) + H(Z, X|T ) − H(X, Y, Z|T ) (4.4)
MI(Z, [X, Y ]|T ) = H(Z|T ) + H(X, Y |T ) − H(X, Y, Z|T ) (4.5)
Ví dụ 4.1. Để khảo sát kiểu quan hệ giữa biến X với cặp hai biến [Y, Z] trên
điều kiện T , chúng tôi sinh ngẫu nhiên hai biến Y, Z độc lập. Biến T phụ thuộc
vào Y và Z theo quan hệ T = f(Y, Z) + noise1. Biến X phụ thuộc vào biến T,
giả sử X = g(T ) + noise2. Bảng 4.5 hiển thị các giá trị tính MI và CMI.
Bảng 4.5: Phát hiện quan hệ gián tiếp X ↔ T ↔ [Y, Z] nhờ CMI.
n MI(Y,Z) MI
T,[Y,Z]
MI
X,[Y,Z]
MI
T,[Y,Z]|X
MI
X,[Y,Z]|T
1 0.0019 2.6680 1.4355 1.2326 0.0001
2 0.0002 2.6469 1.5718 1.0890 0.0138
3 0.0040 2.7685 1.5094 1.2775 0.0184
4 0.0012 2.6481 1.6885 0.9748 0.0152
5 0.0003 2.6646 1.3962 1.2699 0.0015
6 0.0001 2.6413 1.6344 1.0353 0.0284
7 0.0020 2.7581 1.4426 1.3253 0.0097
8 0.0054 2.5400 1.2922 1.2746 0.0269
9 0.0051 2.6122 1.4902 1.1236 0.0017
10 0.0002 2.7149 1.6008 1.1272 0.0130
20
Các giá trị trong cột thứ hai của bảng cho ta thấy M I(Y, Z) ≈ 0, điều này
hoàn toàn chính xác do hai biến Y và Z độc lập. Giá trị trong cột MI
T, [Y, Z]
rất lớn, do T có quan hệ trực tiếp với [Y, Z]. Cột MI
X, [Y, Z]|T
có giá trị
rất nhỏ so với các giá trị CMI trên các biến điều kiện khác. Điều đó có nghĩa
là giữa X và [Y, Z] có mối quan hệ gián tiếp thông qua biến T (ký hiệu, X ↔
T ↔ [Y, Z]).
4.3 Ứng dụng CMI đa biến trong tái tạo mạng trao đổi chất
4.3.1 Phát hiện quan hệ đa biến gián tiếp
Sau khi kết thúc Chương 3, chúng tôi đã tái tạo được mạng trao đổi chất
với các mối quan hệ đa biến. Trong phần này, chúng tôi sẽ sử dụng các độ đo
CMI đa biến đề xuất để phát hiện các quan hệ đa biến gián tiếp trong mạng
kết quả đó. Trước hết, chúng tôi tính tất cả các giá trị thông tin tương hỗ có
điều kiện của các cặp chất cùng có quan hệ với một chất khác. Chẳng hạn, 1
và 3 cùng có quan hệ với 2; 3 và 4 cùng có quan hệ với 5,. . Bảng 4.6 là kết
quả sắp theo thứ tự giảm dần của CMI.
Bảng 4.6: CMI của các cặp cạnh trong RBC10
n Cặp chất Đ.kiện CMI n Cặp chất Đ.kiện CMI
1 1 2 3 7.4656 13 6 8 9 0.2084
2 4 5 2 6.8527 14 5 6 8 0.1888
3 8 9 6 4.1229 15 3 4 5 0.1315
4 4 5 3 3.8133 16 3 5 4 0.1086
5 3 4 2 3.3847 17 2 3 1 0.1050
6 3 5 2 3.3816 18 2 4 3 0.0861
7 5 8 6 1.0506 19 2 5 3 0.0089
8 9 10 8 0.7819 20 8 10 9 0.0084
9 6 8 5 0.5214 21 2 5 4 0.0064
10 8 9 10 0.4479 22 6 9 8 0.0010
11 2 3 5 0.3692 23 2 4 5 0.0005
12 2 3 4 0.3689 24 1 3 2 0.0001
Chọn ngưỡng θ
CM I
= 0.1. Khi đó, loại bỏ được một số các quan hệ dư thừa
có CMI < θ
CM I
, đó là các quan hệ: (1,3), (2,4), (6,9), (2,5), (8,10).
Tiếp tục xét tính dư thừa của các quan hệ bộ ba (3,4,5), (8,9,10) đã tái tạo
được trong mạng trao đổi chất RBC10 ở Chương 3. Trong hai bộ ba này, chỉ
có (3,4,5) là cùng có quan hệ với 2; bộ (8,9,10) không cùng có quan hệ với chất
nào. Vì vậy, (8,9,10) không có quan hệ gián tiếp qua chất trung gian. Đối với
bộ (3,4,5), chúng ta có MI(3, 4, 5|2) = 10.24, trong khi đó MI(3, 4, 5) = 11.36.
Như vậy, sự xuất hiện của 2 không ảnh hưởng đến mối quan hệ giữa (3,4,5),
hay nói cách khác (3,4,5) không có quan hệ gián tiếp thông qua 2. Do đó, quan
hệ bộ ba (3,4,5) không phải là quan hệ dư thừa.
So sánh mạng được tái tạo sau khi loại bỏ dư thừa với mạng đích (Hình 4.8),
ta thấy mạng được tái tạo bằng các độ đo MI và CMI đa biến gần với mạng
21
đích RBC10, rất nhiều quan hệ trên hai mạng trùng khớp. Chỉ có 2 quan hệ
(2,5) và (7,8) bị loại bỏ không giống với mạng đích; quan hệ (5,8) và (8,9,10)
được tái tạo thêm.
(a) (b)
Hình 4.8: So sánh mạng sau khi loại bỏ dư thừa (b) với mạng đích (a)
4.4 Kết luận Chương 4
Trong Chương 4, chúng tôi đã đề xuất các độ đo Thông tin tương hỗ đa
biến có điều kiện nhằm phát hiện các quan hệ đa biến gián tiếp để từ đó loại
bỏ các quan hệ dư thừa. Trong phần ứng dụng, chúng tôi đã áp dụng độ đo
Thông tin tương hỗ đa biến có điều kiện lên mạng trao đổi chất trong tế bào
hồng cầu đã tái tạo được ở Chương 3. Kết quả thực nghiệm cho thấy, các độ
đo Thông tin tương hỗ đa biến có điều kiện phát hiện được các quan hệ gián
tiếp. Khi so sánh mạng được tái tạo theo phương pháp của chúng tôi với mạng
đích, tỉ lệ các quan hệ được tái tạo chính xác cao. Mặc dù, việc tái tạo mạng
mới chỉ dừng lại ở mức mạng thô nhưng dựa vào mạng kết quả đó, khi kết hợp
với các tri thức của chuyên gia, có thể sẽ cho ta nhiều tri thức mới về các quá
trình thực sự xảy ra bên trong các sự việc, hiện tượng.
22
KẾT LUẬN
Tái tạo mạng sinh học là một bài toán quan trọng của ngành sinh học hệ
thống và là bài toán có ý nghĩa. Việc tái tạo mạng sinh học giúp chúng ta biết
được các quá trình sinh học phức tạp và các cơ chế gây bệnh xảy ra bên trong
tổ chức sinh học. Cách tiếp cận thực nghiệm trong lĩnh vực Sinh học thường
cho kết quả chính xác, nhưng chi phí thực nghiệm và thời gian tái tạo mạng
sinh học rất lớn. Cách tiếp cận tính toán trong lĩnh vực Tin-Sinh sử dụng các
công cụ tính toán, các mô hình để xây dựng mạng phù hợp với dữ liệu quan
sát. Cách tiếp cận này giảm đáng kể thời gian và chi phí thực nghiệm.
Bài toán tái tạo mạng trao đổi chất là bài toán phức tạp do các quan hệ
trong mạng trao đổi chất thường là các quan hệ của nhiều chất. Các nghiên cứu
trước đây nhằm tái tạo mạng trao đổi chất thường sử dụng các phương pháp
tái tạo mạng dựa trên các quan hệ cặp đôi. Tuy nhiên, có nhiều kiểu quan hệ
chỉ xuất hiện khi có đồng thời nhiều chất tham gia. Chính vì vậy, với mục tiêu
tái tạo mạng trao đổi chất từ dữ liệu sinh học, theo hướng tiếp cận tính toán,
luận án đã giải quyết hai bài toán. Bài toán thứ nhất, tái tạo quan hệ đa biến
bằng cách mở rộng độ đo Thông tin tương hỗ. Bài toán thứ hai, phát hiện quan
hệ đa biến gián tiếp bằng cách mở rộng độ đo Thông tin tương hỗ có điều kiện,
từ đó loại bỏ các quan hệ dư thừa.
Mặc dù, mạng được tái tạo có thể còn khác so với mạng được tái tạo bằng
thực nghiệm, nhưng quá trình đó có ý nghĩa quan trọng trên con đường tiến
tới tái tạo mạng sinh học đầy đủ. Kết quả đó sẽ giúp các nhà Sinh học có định
hướng trong quá trình tiến hành thực nghiệm, giảm được đáng kể thời gian cũng
như chi phí thực nghiệm. Ngoài ra, cách tiếp cận này còn có thể dự đoán được
các mối quan hệ giữa các phần tử sinh học, tiên lượng được các quá trình gây
bệnh xảy ra bên trong tổ chức sinh học, mà có thể cách tiếp cận thực nghiệm
chưa tìm được.
Đóng góp khoa học của luận án
Trong quá trình nghiên cứu và thực hiện luận án, tác giả đã công bố 6 bài
báo tại các tạp chí và hội nghị chuyên ngành trong nước và quốc tế. Kết quả
nghiên cứu của luận án đã góp phần vào việc mở rộng một số độ đo trong Lý
thuyết thông tin để ứng dụng vào các bài toán sinh học, mang ý nghĩa thực
tiễn. Dưới đây là những đóng góp chính của luận án.
• Đề xuất một cách diễn giải trực quan và công thức mới cho Thông tin
tương hỗ trong trường hợp hai biến và ba biến. Cách diễn giải này khắc
phục được một số nhược điểm của các cách diễn giải trước đây.
• Đề xuất một công thức tổng quát cho Thông tin tương hỗ đa biến và ứng
dụng tái tạo quan hệ đa biến trong mạng trao đổi chất. Từ công thức
tổng quát, nhiều công thức được suy ra. Mỗi công thức phản ánh một
23
loại quan hệ tồn tại giữa các biến.
• Đề xuất một công thức tổng quát cho Thông tin tương hỗ đa biến có điều
kiện và ứng dụng phát hiện quan hệ đa biến gián tiếp, từ đó loại bỏ các
quan hệ dư thừa trong mạng trao đổi chất.
Những vấn đề tồn tại của luận án và hướng nghiên cứu
• Khi số biến càng tăng thì số quan hệ và số kiểu quan hệ giữa các biến
càng nhiều. Khi đó, sẽ xảy ra tình trạng bùng nổ tổ hợp, việc tính toán
trở nên vô cùng phức tạp. Chính vì vậy, mặc dù luận án đã đề xuất công
thức độ đo Thông tin tương hỗ và Thông tin tương hỗ có điều kiện đa
biến, nhưng các thực nghiệm mới chỉ ứng dụng trong trường hợp ba biến
và bốn biến.
• Các nguồn dữ liệu đã công bố không cung cấp dữ liệu về các kiểu quan
hệ gián tiếp phức tạp. Vì vậy, việc đánh giá độ đo Thông tin tương hỗ đa
biến có điều kiện trên các tập dữ liệu lớn còn gặp khó khăn. Trong tương
lai, khi có nguồn dữ liệu phù hợp, tác giả sẽ đánh giá hiệu năng của độ
đo Thông tin tương hỗ đa biến có điều kiện một cách toàn diện hơn.
• Hiện nay, hướng tiếp cận mô hình đồ thị theo kiểu top-down đang được
nhiều người sử dụng và có nhiều kết quả. Tác giả sẽ nghiên cứu kết hợp
hướng tiếp cận mô hình đồ thị với hướng tiếp cận Lý thuyết thông tin
theo kiểu bottom-up, hi vọng sẽ nâng cao chất lượng của mạng tái tạo.
24