Tải bản đầy đủ (.pdf) (126 trang)

PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC (Luận án tiến sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (397.41 KB, 126 trang )

i

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các kết
quả nghiên cứu được viết chung với các tác giả khác đều được sự đồng ý của
họ trước khi đưa vào luận án. Các kết quả nêu trong luận án là trung thực và
chưa từng được công bố trong các công trình nào khác.

Tác giả

Đặng Vũ Tùng


ii

LỜI CẢM ƠN
Luận án tiến sỹ này là kết quả của quá trình nghiên cứu lý thuyết và
tiến hành các thực nghiệm đầy thách thức và khó khăn; đòi hỏi sự kiên trì và
tập trung cao độ. Tôi thực sự hạnh phúc với kết quả đạt được trong đề tài
nghiên cứu của mình.
Kết quả đạt được không chỉ là những nỗ lực cá nhân, mà còn có sự hỗ
trợ và giúp đỡ của tập thể người hướng dẫn, cơ sở đào tạo, cơ quan chủ quản,
đồng nghiệp và gia đình. Tôi xin bày tỏ tình cảm của mình đến với họ.
Trước tiên, tôi xin bày tỏ sự biết ơn sâu sắc đến PGS.TS. Từ Minh
Phương và PGS.TS Lê Đức Hậu. Được làm việc với hai thầy là một cơ hội
lớn cho tôi học hỏi phương pháp nghiên cứu, tính kiên trì và phương pháp làm
việc nghiêm túc, khoa học.
Tôi xin trân trọng cảm ơn Khoa Quốc tế và sau đại học, Khoa Công
nghệ thông tin, Ban Giám đốc Học viện Công nghệ Bưu chính Viễn thông đã
tạo điều kiện thuận lợi cho tôi trong suốt quá trình thực hiện luận án.
Tôi xin cảm ơn Ban Giám đốc Học viện Thanh thiếu niên Việt Nam và


các bạn bè, đồng nghiệp đã cổ vũ, động viên và tạo các điều kiện thuận lợi
nhất cho tôi trong quá trình học tập, nghiên cứu.
Cuối cùng, tôi xin bày tỏ lòng biết ơn đối với gia đình tôi, nơi khơi dậy
truyền thống và luôn bên cạnh ủng hộ, giúp đỡ, chia sẻ với tôi những lúc khó
khăn.
Xin chân thành cảm ơn!


iii

MỤC LỤC

LỜI CAM ĐOAN ....................................................................................................... i
LỜI CẢM ƠN ............................................................................................................ ii
MỤC LỤC ................................................................................................................. iii
DANH MỤC CÁC CHỮ VIẾT TẮT ...................................................................... vii
DANH MỤC CÁC HÌNH ......................................................................................... ix
DANH MỤC CÁC BẢNG........................................................................................ xi
PHẦN MỞ ĐẦU .........................................................................................................1
1. Tính cấp thiết của luận án ....................................................................................1
2. Mục tiêu của luận án ............................................................................................3
3. Các đóng góp của luận án ....................................................................................3
4. Bố cục của luận án ...............................................................................................5
Chương 1 - TỔNG QUAN VỀ PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN
ĐẾN BỆNH .................................................................................................................7
1.1. CƠ SỞ VỀ SINH HỌC PHÂN TỬ ..................................................................7
1.1.1. Tế bào .........................................................................................................7
1.1.2. DNA ...........................................................................................................7
1.1.3. Gen .............................................................................................................8
1.1.4. Quá trình điều khiển tổng hợp protein từ gen ............................................9

1.2. PHÂN HẠNG GEN VÀ CÁC HƯỚNG TIẾP CẬN GIẢI QUYẾT .............11
1.2.1. Bài toán phân hạng gen ............................................................................11
1.2.2. Các hướng tiếp cận giải quyết bài toán phân hạng gen ............................12


iv

1.3. CÁC CƠ SỞ DỮ LIỆU VÀ MẠNG SINH HỌC ..........................................16
1.3.1. Các cơ sở dữ liệu sinh học........................................................................16
1.3.2. Các mạng sinh học ...................................................................................20
1.3.3. Mạng tương tác gen/protein .....................................................................22
1.4. CÁC PHƯƠNG PHÁP PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN
ĐẾN BỆNH DỰA TRÊN MẠNG SINH HỌC .....................................................23
1.4.1. Phương pháp dựa trên mức độ gần nhau của các gen/protein ..................23
1.4.2. Phương pháp dựa trên tích hợp các dữ liệu về gen qui mô lớn ................25
1.4.3. Phương pháp dựa trên tích hợp thông tin kiểu hình .................................27
1.4.4. Phương pháp xây dựng các mô đun bệnh ................................................28
1.5. PHƯƠNG PHÁP ĐÁNH GIÁ CÁC THUẬT TOÁN PHÂN HẠNG ...........33
1.5.1. Phương pháp kiểm tra chéo ......................................................................33
1.5.2. Xác định hiệu quả của các phương pháp phân hạng ................................35
1.6. KẾT LUẬN CHƯƠNG 1 ...............................................................................38
Chương 2 - PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH DỰA
TRÊN MẠNG TƯƠNG TÁC GEN/PROTEIN........................................................41
2.1. ĐẶT VẤN ĐỀ ................................................................................................41
2.1.1. Bài toán phân hạng nút trên đồ thị ...........................................................43
2.1.2. Thuật toán phân hạng trang kết hợp với xác suất tiên nghiệm.................43
2.1.3. Thuật toán phân hạng bằng học tăng cường.............................................45
2.1.4. Thuật toán bước ngẫu nhiên có quay lui ..................................................46
2.2. PHÂN HẠNG GEN BẰNG PHƯƠNG PHÁP HỌC TĂNG CƯỜNG KẾT
HỢP VỚI XÁC SUẤT TIÊN NGHIỆM ...............................................................48

2.2.1. Thuật toán phân hạng học tăng cường kết hợp với xác suất tiên nghiệm 48


v

2.2.2. Dữ liệu thực nghiệm .................................................................................51
2.2.3. Thực nghiệm và kết quả ...........................................................................53
2.3. PHÂN HẠNG GEN BẰNG PHƯƠNG PHÁP TÍNH TỔNG XÁC SUẤT
LIÊN KẾT TRONG MẠNG TƯƠNG TÁC GEN/PROTEIN ..............................61
2.3.1. Thuật toán dựa trên xác suất liên kết........................................................61
2.3.2. Dữ liệu thực nghiệm .................................................................................67
2.3.3. Thực nghiệm và kết quả ...........................................................................67
2.4. SO SÁNH CÁC PHƯƠNG PHÁP PHÂN HẠNG GEN ĐỀ XUẤT .............74
2.4.1. Về nguyên tắc thực hiện, ưu nhược điểm và phạm vi áp dụng ................74
2.4.2. Về thực nghiệm ........................................................................................75
2.5. KẾT LUẬN CHƯƠNG 2 ...............................................................................76
Chương 3 - PHÂN HẠNG VÀ DỰ ĐOÁN GEN GÂY BỆNH DỰA TRÊN MẠNG
KHÔNG ĐỒNG NHẤT ............................................................................................78
3.1. ĐẶT VẤN ĐỀ ................................................................................................78
3.2. MẠNG KHÔNG ĐỒNG NHẤT BỆNH - GEN ............................................82
3.2.1. Tổng quan về phương pháp xây dựng mạng không đồng nhất ................82
3.2.2. Các mạng gen/protein...............................................................................82
3.2.3. Các mạng bệnh tương đồng ......................................................................86
3.2.4. Mạng lưỡng phân .....................................................................................87
3.3. THUẬT TOÁN BƯỚC NGẪU NHIÊN CÓ QUAY LUI TRÊN MẠNG
KHÔNG ĐỒNG NHẤT ........................................................................................87
3.4. CÁC THỰC NGHIỆM VÀ KẾT QUẢ ..........................................................92
3.4.1. So sánh hiệu quả với các phương pháp cùng lớp .....................................92
3.4.2. Dự đoán các gen liên quan đến bệnh Alzheimer ......................................94



vi

3.5. KẾT LUẬN CHƯƠNG 3 ...............................................................................95
KẾT LUẬN ...............................................................................................................97
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ...............................................100
TÀI LIỆU THAM KHẢO .......................................................................................101


vii

DANH MỤC CÁC CHỮ VIẾT TẮT
KÝ HIỆU

DIỄN GIẢI
TIẾNG ANH

TIẾNG VIỆT
Diện tích phía dưới đường cong
ROC

AUC

Area Under ROC Curve

BIND

Biomolecular Interaction Network Cơ sở dữ liệu mạng tương tác sinh
Database
học phân tử


BioGRID

Biological General Repository for Cơ sở dữ liệu sinh học công khai
Interaction data sets
bao gồm nhiều bộ dữ liệu tương tác

CANDID

A flexible method for prioritizing
Một phương pháp phân hạng gen
candidate genes for complex human
được giới thiệu bởi Hutz và cộng sự
traits

CIPHER

Correlating
protein
Interaction
Một phương pháp phân hạng gen
network and PHEnotype network to
được giới thiệu bởi Wu và cộng sự
pRedict disease genes

DNA

DeoxyriboNucleic Acid

A-xít deoxyribonucleic


DO

Disease Ontology

Bản thể bệnh

EST

Expressed Sequence Tag

Thẻ biểu diễn trình tự

eVOC

A controlled vocabulary for unifying Một từ vựng được kiểm soát để hợp
gene expression data
nhất dữ liệu biểu hiện gen

FN

False Negative

Âm tính giả (mẫu mang nhãn
dương bị phân lớp sai vào lớp âm)

FP

False Positive


Dương tính giả (mẫu mang nhãn âm
bị phân lớp sai vào lớp dương)

GO

Gene Ontology

Bản thể gen

GWAS

Genome - Wide Association Studies

Nghiên cứu các liên kết bộ gen mở
rộng (nghiên cứu tương quan toàn
bộ nhiễm sắc thể)

HITS

Hypertext Induced Topic Search

Thuật toán tìm kiếm trên Web

HPO

Human Phenotype Ontology

Bản thể kiểu hình của con người

HPRD


Human Protein Reference Database

Cơ sở dữ liệu tương tác protein của
con người

KEGG

Kyoto Encyclopedia of Genes and Bách khoa toàn thư Kyoto về gen


viii

Genomes

và bộ gen

LOOCV

Leave one out cross validation

Kiểm tra chéo bỏ ra một

MeSH

Medical Subject Heading

Cơ sở dữ liệu các chủ đề về y học

MINT


Molecular Interaction Database

Cơ sở dữ liệu về tương tác phân tử

MPO

Mammalian Phenotype Ontology

Bản thể kiểu hình động vật có vú.

NCBI

National Center for Biotechnology Trung tâm Thông tin Công nghệ
Information
Sinh học Quốc gia

OMIM

Online Mendelian Inheritance in Cơ sở dữ liệu trực tuyến di
Man
truyền Mendel ở người

PRINCE

PRIoritizatioN
Elucidation

ROC


Đường cong đặc trưng hoạt động
Receiver Operating Characteristic/
của bộ thu nhận - để xác định là có
Receiver Operating Curve
tín hiệu hay chỉ là do nhiễu

RWR

Random Walk with Restart

RWRH

Random Walk with Restart on Thuật toán bước ngẫu nhiên có
Heterogeneous network
quay lui trên mạng không đồng nhất

STRING

Search Tool for the Retrieval of Công cụ tìm kiếm các tương tác
Interacting Genes/Proteins
gen/protein

TN

True Negative

Âm tính thật (mẫu mang nhãn âm
được phân lớp đúng vào lớp âm)

TP


True Positive

Dương tính thật (mẫu mang nhãn
dương được phân lớp đúng vào lớp
dương)

UMLS

Unified Medical Language System

Hệ thống ngôn ngữ y học thống
nhất

Yeast Two-Hybrid System

Hệ thống lai kép nấm men (một
phương pháp được sử dụng để xác
định các tương tác protein)

Y2H

and

Complex

Một phương pháp phân hạng gen
được giới thiệu bởi Vanunu và cộng
sự


Thuật toán bước ngẫu nhiên có
quay lui


ix

DANH MỤC CÁC HÌNH
Hình 1. 1. Cấu trúc DNA .................................................................................................... 8
Hình 1. 2. Sơ đồ tổng hợp protein từ gen ....................................................................... 10
Hình 1. 3. Thay thế các exon trong các sơ đồ kết nối cho phép tế bào tạo ra các
protein khác nhau từ một gen đơn lẻ............................................................................... 11
Hình 1. 4. Sơ đồ tổng quan về phân hạng gen ............................................................... 12
Hình 1. 5. Sơ đồ dự đoán gen liên quan đến bệnh dựa trên mô hình học máy [59].. 14
Hình 1. 6. Sơ đồ phương pháp phân hạng gen dựa trên mạng..................................... 15
Hình 1. 7. Mô phỏng sự rối loạn trong các mạng sinh học là nguyên nhân gây ra các
căn bệnh của con người. ................................................................................................... 21
Hình 1. 8. Phương pháp đánh giá các thuật toán phân hạng gen................................. 34
Hình 1. 9. Phương pháp vẽ đường cong ROC ............................................................... 36
Hình 2. 1. Thuật toán RL_Rank with priors .................................................................. 50
Hình 2. 2. Đường biểu diễn các giá trị AUC trung bình trên 398 bệnh với tham số β
= 0.8 và γ tăng từ 0.1 đến 0.9 ........................................................................................... 53
Hình 2. 3. Đường biểu diễn các giá trị AUC trung bình trên 398 bệnh với tham số β
= 0.7 và γ tăng từ 0.1 đến 0.9 ........................................................................................... 54
Hình 2. 4. Đường biểu diễn các giá trị AUC trung bình trên 398 bệnh với tham số γ
= 0.5 và β tăng từ 0.1 đến 0.9........................................................................................... 55
Hình 2. 5. Đường cong ROC biểu diễn kết quả RL_Rank with priors với các tham
số γ = 0.5, β = 0.7 và PageRank with priors với tham số β = 0.7................................ 56
Hình 2. 6. Ví dụ về tính toán xác suất đường đi trên đồ thị ......................................... 64
Hình 2. 7. Thủ tục SigPathSum tính toán độ liên quan mỗi nút với một nút truy vấn
............................................................................................................................................. 65



x

Hình 2. 8. Thuật toán phân hạng gen dựa trên xác suất liên kết.................................. 66
Hình 2. 9. Đường biểu diễn các giá trị AUC trung bình khi thay đổi giá trị f ........... 67
Hình 2. 10. Biểu diễn đường cong ROC của SigPathSum và RWR ........................... 69
Hình 2. 11. Biểu diễn đường cong ROC của RL_Rank with Priors, SigPathSum và
RWR.................................................................................................................................... 75
Hình 3. 1. Sơ đồ xây dựng mạng không đồng nhất tích hợp bệnh - gen .................... 83
Hình 3. 2. Sơ đồ hoạt động của thuật toán RWRH ....................................................... 88
Hình 3. 3. Thuật toán RWRH .......................................................................................... 91
Hình 3. 4. Đường cong ROC biểu diễn kết quả dự đoán của các mạng dựa trên HPO
và OMIM ............................................................................................................................ 93


xi

DANH MỤC CÁC BẢNG
Bảng 1. 1. Các phương pháp đo khoảng cách giữa các phần tử trong mạng tương tác
............................................................................................................................................. 25

Bảng 1. 2. Một số phương pháp phân hạng và dự đoán gen liên quan đến bệnh dựa
trên mạng [119].................................................................................................................. 30
Bảng 1. 3. Ma trận nhầm lẫn ............................................................................................ 35
Bảng 2. 1. Các nguồn dữ liệu xây dựng FLN [60, 66] ................................................. 52
Bảng 2. 2. Kết quả của RL_Rank with priors và các thuật toán cùng lớp ................. 57
Bảng 2. 3. Danh sách các gen liên quan đến bệnh cao huyết áp đã biết và số liên kết
tương ứng trong mạng tương tác gen/protein ................................................................ 58
Bảng 2. 4. Danh sách 20 gen có thứ hạng cao theo kết quả phân hạng của RL-Rank

with prior và các gen đã được chứng minh có liên quan tới bệnh cao huyết áp ....... 59
Bảng 2. 5. Kết quả thực hiện thuật toán với giá trị f thay đổi, tính trung bình trên
398 bệnh ............................................................................................................................. 68
Bảng 2. 6. Kết quả thực hiện thuật toán với giá trị  thay đổi, tính trung bình trên
398 bệnh ............................................................................................................................. 68
Bảng 2. 7. Kết quả thực hiện SigPathSum với f = 0.1,  = 10-6 và RWR với  = 0.7,
tính trung bình trên 398 bệnh ........................................................................................... 69
Bảng 2. 8. Danh sách các gen liên quan đến bệnh tiểu đường tuýp 2 và số liên kết
trong mạng tương tác protein ........................................................................................... 70
Bảng 2. 9. Danh sách các gen có thứ hạng cao và các y văn liên quan ...................... 72
Bảng 2. 10. Kết quả thực hiện RL_Rank with Priors, SigPathSum và RWR tính
trung bình trên 398 bệnh................................................................................................... 76
Bảng 3. 1. Kích cỡ các mạng gen/protein và số lượng kiểu hình bệnh thử nghiệm
cho các mạng không đồng nhất tương ứng .................................................................... 86


xii

Bảng 3. 2. Giá trị AUC của các mạng không đồng nhất dựa trên HPO và OMIM... 94
Bảng 3. 3. Các gen đã được chứng minh có liên quan đến bệnh Alzheimer trong 20
gen ứng viên có thứ hạng cao nhất .................................................................................. 95


1

PHẦN MỞ ĐẦU
1. Tính cấp thiết của luận án
Trong những năm gần đây, nhiều phát hiện mang tính đột phá về mối liên
quan giữa bộ gen của con người với các căn bệnh và cơ sở phân tử của chúng đã
góp phần làm sáng tỏ nguyên nhân phát sinh của các căn bệnh. Việc khám phá cơ

sở phân tử cơ bản của các căn bệnh rất có giá trị trong vấn đề phòng ngừa, chẩn
đoán và điều trị bệnh.
Xác định các gen có liên quan đến bệnh là bài toán quan trọng trong lĩnh vực
y sinh học và sinh học phân tử. Trước đây, việc xác định các gen liên quan đến bệnh
được thực hiện chủ yếu bằng các thực nghiệm sinh học, phương pháp này cho kết
quả tin cậy nhưng đòi hỏi nhiều thời gian và chi phí cao.
Trong lĩnh vực tin sinh học những năm gần đây, các dữ liệu sinh học ngày
càng phong phú, được công bố rộng rãi và phần lớn là miễn phí. Với các dữ liệu đó,
các hệ thống thông tin dựa trên phương pháp tính toán và xử lý dữ liệu sinh học đã
được phát triển, cho phép tiết kiệm thời gian, chi phí và giúp các nhà nghiên cứu y
sinh học tìm ra các gen mới liên quan đến bệnh cho một số căn bệnh cụ thể.
Mặc dù đạt được nhiều thành tựu đáng kể trong lĩnh vực phát hiện gen liên
quan đến bệnh, tuy nhiên vẫn còn một số lượng lớn các bệnh chưa biết cơ sở phân
tử (khoảng hơn 1700 được liệt kê trong cơ sở dữ liệu OMIM - Online Mendelian
Inheritance in Man) [5]. Thậm chí, ngay cả với những bệnh đã biết được một phần
thông tin về cơ sở phân tử nhưng một tỷ lệ lớn các gen có liên quan tới bệnh vẫn
chưa được phát hiện.
Trên thực tế, có nhiều phương pháp đã được phát triển dành riêng cho việc
phát hiện các gen liên quan đến bệnh [129]. Ví dụ như phương pháp nghiên cứu
tương quan trên toàn hệ gen (Genome Wide Association Studies - GWAS). Phương
pháp GWAS tương đối mạnh và hiệu quả nhưng còn gặp nhiều khó khăn khi cần
phải thu hẹp danh sách các gen ứng viên [115]. Mặt khác, các căn bệnh của con


2

người không tuân theo các giả thiết về mối quan hệ kiểu gen - kiểu hình đơn giản
mà là hậu quả của sự rối loạn trong các mạng phân tử gây ra bởi nhiều yếu tố khác
nhau như: đột biến gen, thay đổi biểu sinh và các tác nhân gây bệnh [117].
Những nghiên cứu về đặc điểm của các gen liên quan đến bệnh trên mạng

sinh học đã cho thấy rằng, các gen có mối liên quan với cùng một bệnh hoặc các
bệnh tương đồng thường liên kết với nhau và khu trú trong cùng một khu vực của
mạng sinh học. Các gen này tạo thành các mô đun vật chất hoặc chức năng trong cơ
thể con người [28, 83, 85]. Phát hiện này là cơ sở của các phương pháp tính toán, dự
đoán các gen ứng viên liên quan đến bệnh dựa trên mạng sinh học. Do đó, phần lớn
các phương pháp phân hạng và dự đoán gen liên quan đến bệnh đã đề xuất dựa trên
mạng sinh học với sự trợ giúp của các cơ sở dữ liệu về hệ gen và các thông tin kiểu
hình bệnh. Tuy nhiên, các phương pháp phân hạng gen dựa trên mạng sinh học đã
đề xuất vẫn còn tồn tại một số vấn đề như:
 Mức độ bao phủ của các mạng sinh học còn hạn chế (chưa bao phủ hết
toàn bộ hệ gen người).
 Hầu hết các phương pháp dựa trên mạng sinh học đã đề xuất mới sử dụng
các tương tác vật lý, chưa kết hợp các tương tác chức năng, có trọng số.
 Trong các phương pháp cục bộ, điểm số chỉ được tính cho các gen tương
tác trực tiếp với các gen liên quan đến bệnh mà bỏ qua các gen có mối
tương tác gián tiếp khác.
 Các phương pháp kết hợp mạng sinh học chưa được sử dụng nhiều hoặc
chưa khai thác các nguồn dữ liệu sinh học mới.
Từ các lý do trên, việc phát triển các phương pháp phân hạng gen mới, đạt
hiệu quả cao dựa trên mạng sinh học là vấn đề cấp thiết.
Đề tài “Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán
dựa trên mạng sinh học” được thực hiện trong khuôn khổ luận án tiến sĩ chuyên
ngành Hệ thống thông tin. Mục đích của đề tài luận án là nghiên cứu, xây dựng một


3

phân hệ trong hệ thống thông tin, hỗ trợ phân hạng và dự đoán các gen liên quan
đến bệnh sử dụng các kỹ thuật tính toán và tin sinh học.
2. Mục tiêu của luận án

Mục tiêu thứ nhất là: Nghiên cứu, phát triển một số phương pháp tính toán
cho phép phân hạng gen dựa trên các mạng sinh học đạt hiệu quả cao hơn so với các
phương pháp đã công bố.
Mục tiêu thứ hai là: Nghiên cứu, ứng dụng các mô hình tính toán mới trong
lĩnh vực phân tích mạng xã hội/web cho bài toán phân hạng và dự đoán gen liên
quan đến bệnh.
Mục tiêu thứ ba là: Nghiên cứu, thu thập mạng tương tác gen/protein liên
kết chức năng, có trọng số từ các y văn hoặc nguồn dữ liệu công cộng; sử dụng
mạng này trong các thuật toán phân hạng gen để nâng cao độ chính xác của kết quả
dự đoán.
Mục tiêu thứ tư là: Nghiên cứu, tìm hiểu về các mô hình mạng sinh học tích
hợp; đề xuất phương án xây dựng mạng sinh học tích hợp dựa trên các nguồn dữ
liệu sinh học mới, phục vụ cho vấn đề dự đoán gen liên quan đến bệnh.
Các kết quả nghiên cứu của luận án có thể được phát triển thành các phần
mềm hệ thống thông tin ứng dụng trong lĩnh vực phân hạng và dự đoán gen liên
quan đến bệnh.
3. Các đóng góp của luận án
Đóng góp thứ nhất là: Đề xuất một phương pháp phân hạng và dự đoán gen
liên quan đến bệnh bằng cách kết hợp kỹ thuật Học tăng cường với thuật toán phân
hạng PageRank, đồng thời bổ sung xác suất tiên nghiệm hợp lý cho các gen liên
quan đến bệnh đã biết. Phương pháp được thử nghiệm trên mạng tương tác
gen/protein của con người và so sánh với các phương pháp phân hạng gen cùng lớp
đã có. Kết quả cho thấy phương pháp đề xuất có độ chính xác cao hơn so với các


4

phương pháp được so sánh thể hiện thông qua giá trị diện tích phía dưới đường
cong ROC (Area Under ROC Curve - AUC).
Đóng góp thứ hai là: Đề xuất ứng dụng một phương pháp phân tích mạng xã

hội để phân hạng và dự đoán các gen ứng viên có độ liên quan cao nhất đối với các
gen bệnh đã biết dựa trên tổng xác suất chọn đường đi giữa hai gen/protein trong
mạng. Trong đó, các gen ứng viên có xác suất liên kết với gen liên quan đến bệnh
đã biết nhỏ sẽ không được xem xét tiếp, nhờ vậy giảm độ phức tạp tính toán. Thực
nghiệm trên dữ liệu tương tác gen/protein của con người cho thấy phương pháp đề
xuất có độ phức tạp tính toán thấp, đồng thời chính xác hơn phương pháp phân hạng
gen được áp dụng khá phổ biến là bước ngẫu nhiên có quay lui (Random Walk with
Restart - RWR).
Phương pháp này được đề xuất để áp dụng trên các mạng tương tác
gen/protein có kích thước lớn trong khi vẫn đảm bảo hiệu quả dự đoán cao. Kết quả
thực nghiệm cũng cho thấy ngoài hiệu quả dự đoán tổng thể cao, phương pháp này
còn có thể ứng dụng để xác định các gen mới liên quan đến một căn bệnh cụ thể.
Đóng góp thứ ba là: Đề xuất phương pháp xây dựng một mạng không đồng
nhất bao gồm một mạng bệnh tương đồng dựa trên bản thể kiểu hình của con người
(Human Phenotype Ontology - HPO) và mạng tương tác gen/protein được kết nối
với nhau bằng các liên kết bệnh - gen đã biết. Khi so sánh phương pháp đề xuất và
phương pháp sử dụng mạng bệnh tương đồng dựa trên hồ sơ OMIM với cùng một
thuật toán bước ngẫu nhiên có quay lui trên đồ thị mạng không đồng nhất (Random
Walk with Restart on Heterogeneous network - RWRH), kết quả thực nghiệm cho
thấy hiệu quả dự đoán gen liên quan đến bệnh (đặc biệt là những bệnh có số lượng
gen liên quan đã được phát hiện còn ít) của phương pháp đề xuất tốt hơn (thể hiện
thông qua giá trị AUC), không phân biệt các mạng gen/protein kết hợp. Điều này
dẫn đến kết luận là mạng bệnh tương đồng dựa trên HPO đã cải thiện hiệu suất của
thuật toán RWRH cho việc dự đoán các gen liên quan đến bệnh.


Luận án đầy đủ ở file: Luận án full











×