BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI
NGUYỄN VĂN TỈNH
DỰ ĐOÁN LIÊN KẾT TRONG MẠNG HỖN TẠP VÀ
ỨNG DỤNG TRONG DỰ ĐOÁN MỐI QUAN HỆ
GIỮA RNA KHƠNG MÃ HĨA VÀ BỆNH
Chun ngành: Khoa học máy tính
Mã số: 9480101
TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
Hà nội, 2023
Cơng trình được hồn thành tại: Khoa Cơng nghệ
thơng tin, Trường Đại học Sư phạm Hà Nội
Người hướng dẫn khoa học:
1. PGS.TS. Trần Đăng Hưng
2. TS. Lê Thị Tú Kiên
Phản biện 1: PGS.TS. Nguyễn Long Giang, Viện
Công nghệ thông tin-Viện Hàn lâm KHCN Việt Nam
Phản biện 2: PGS.TS. Lê Đức Hậu, Trường Đại học
Thủy Lợi
Phản biện 3: PGS.TS. Nguyễn Ngọc Hóa, Trường Đại
học Cơng nghệ-ĐHQG Hà Nội
Luận án sẽ được bảo vệ trước Hội đồng chấm luận án
cấp Trường họp tại
Trường Đại học Sư phạm Hà Nội vào hồi …..giờ … ngày …
tháng… năm…
Có thể tìm hiểu luận án tại thư viện: Thư viện Quốc
Gia, Hà Nội
hoặc Thư viện Trường Đại học Sư phạm Hà Nội
DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ
LIÊN QUAN ĐẾN LUẬN ÁN
[VTN1] Van Tinh Nguyen, Thi Tu Kien Le and Dang Hung Tran,
"A new method on lncRNA-disease-miRNA tripartite graph to
predict lncRNA-disease associations", 2020 12th International
Conference on Knowledge and Systems Engineering (KSE), 2020,
pp.
287-293,
doi:
10.1109/KSE50997.2020.9287563
(Scopus
indexed).
[VTN2] Van Tinh Nguyen, Thi Tu Kien Le, Tran Quoc Vinh
Nguyen
and
Dang
Hung
Tran,
“Inferring
miRNA-disease
associations using collaborative filtering and resource allocation on a
tripartite
graph”, BMC
Med
Genomics 14, 225
(2021).
(ISI Q2 journal).
[VTN3] Van Tinh Nguyen and Dang Hung Tran, "An improved
computational method for prediction of lncRNA-disease associations
based on collaborative filtering and resource allocation", 2021 13th
International Conference on Knowledge and Systems Engineering
(KSE), 2021, pp. 1-6, doi: 10.1109/KSE53942.2021.9648632
(Scopus indexed).
[VTN4] Van Tinh Nguyen, Thi Tu Kien Le, Khoat Than and Dang
Hung Tran, “Predicting miRNA–disease associations using improved
random walk with restart and integrating multiple similarities”, Sci
Rep 11, 21071 (2021). />(ISI Q1 journal).
MỞ ĐẦU
Chúng ta đang sống trong một thế giới kết nối nơi mà hầu hết
dữ liệu hay thông tin của các đối tượng, các tác nhân, nhóm đối
tượng hay nhóm các thành phần tương tác với nhau để tạo thành các
mạng lớn. Chúng chứa nhiều loại nút và nhiều loại tương tác. Những
mạng như vậy được gọi là các mạng thông tin hỗn tạp. Những mạng
này giàu ngữ nghĩa và có thể được xây dựng từ nhiều nguồn dữ liệu
khác nhau. Phân tích mạng thơng tin hỗn tạp sản sinh một xu hướng
nghiên cứu mới trong khai phá dữ liệu, truy vấn thơng tin, phân tích
mạng xã hội, dự đốn liên kết, khai phá đồ thị, khoa học mạng lưới,
…
Dự đoán liên kết là một nhiệm vụ then chốt và tích cực trong
phân tích mạng thơng tin hỗn tạp. Nó mang lại nhiều lợi ích cho các
nhà nghiên cứu và các tổ chức trong nhiều lĩnh vực khác nhau. Mục
tiêu của dự đốn liên kết là tìm ra những liên kết thiếu trong một
mạng hoặc những liên kết có thể xuất hiện trong tương lai gần trong
mạng.
Dự đoán liên kết được áp dụng rộng rãi trong nhiều lĩnh vực, từ
các mạng xã hội tới các hệ thống sinh học. Với các hệ thống sinh
học, dự đoán liên kết được sử dụng để dự đoán các mối quan hệ giữa
nhiều loại đối tượng sinh học khác nhau, chẳng hạn quan hệ Triệu
chứng bệnh-Gen, tương tác Thuốc-Protein, quan hệ Thuốc-miRNA,
quan hệ Thuốc-bệnh, quan hệ giữa các RNA khơng mã hóa-bệnh…
Trong một khoảng thời gian dài, việc xác định các RNAs khơng
mã hóa (ncRNAs) trong bộ gen người là một cơng việc khó khăn.
Chúng được coi như nhiễu sinh học và khơng có chức năng sinh học
nào. Nhưng trên thực tế các ncRNAs đóng vai trị quan trọng trong
các hoạt động khác nhau của sự sống.
Việc xác định mối quan hệ giữa các RNAs không mã hóa và
bệnh đã mở ra cơ hội cho việc chẩn đốn và điều trị các bệnh trên
người. Vì vậy các nghiên cứu về mối quan hệ giữa các ncRNAs và
bệnh
trên
người đã được thực hiện rộng rãi trong những năm gần đây.
Việc xác định mối quan hệ giữa ncRNAs và bệnh bằng các
phương pháp thực nghiệm sinh học truyền thống là đắt đỏ, tốn thời
gian và cơng sức. Vì vậy, nó địi hỏi phải có các phương pháp tính
tốn để xác định các mối quan hệ ncRNA-bệnh trên người, đặc biệt
là để xác định mối quan hệ giữa RNA không mã hóa nhỏ (miRNA)bệnh và mối quan hệ giữa RNA khơng mã hóa dài (lncRNA)- bệnh.
Trong những năm gần đây, khá nhiều phương pháp tính tốn đã được
phát triển để dự đốn quan hệ giữa RNA khơng mã hóa và bệnh. Các
phương pháp tính tốn này đã mang lại nhiều lợi ích trong phát hiện
các ncRNAs liên quan đến bệnh, tuy nhiên còn một số hạn chế gần
phải giải quyết.
Thứ nhất, các phương pháp tính tốn để dự đốn quan hệ
ncRNA-disease phải đối mặt với vấn đề tính thưa của dữ liệu. Điều
đó dựa trên thực tế rằng số lượng mối quan hệ ncRNA-disease đã
biết là rất hạn chế so với số lượng các mối quan hệ chưa biết giữa
chúng. Từ đó chúng ta khó xây dựng một mạng thơng tin đáng tin
cậy để biểu diễn các mạng sinh học. Do đo, nó hạn chế tính chính
xác của dự đốn.
Thứ nhì, do vấn đề tính thưa của dữ liệu có thể dẫn đến vấn đề
mất cân bằng giữa các mẫu dương tính và mẫu âm tính trong thực thi
các phương pháp tính tốn để dự đốn các quan hệ ncRNA-disease.
Đó là lý do hiệu quả của các phương pháp tính tốn chưa thực sự có
độ tin cậy cao.
Thứ ba, việc tính tốn tương đồng trong các phương pháp tính
tốn hiện hành dựa quá nhiều vào các mối quan hệ ncRNA-disease
đã biết. Điều đó có thể dẫn đến những sai lệch đáng kể trong dự đoán
các mối quan hệ giữa RNA khơng mã hóa và bệnh. Vì vậy địi hỏi
cần phải tích hợp thơng tin sinh học từ nhiều nguồn khác nhau để cải
thiện hiệu
quả của việc dự đoán.
Thứ tư, hầu hết các phương pháp tính tốn hiện hành khơng thể
áp dụng để dự đoán các quan hệ cho các bệnh hoặc ncRNA cơ lập,
những bệnh hoặc ncRNA chưa có mối quan hệ với ncRNA hoặc
bệnh khác trong tập dữ liệu được xem xét. Do đó cần phải tích hợp
thơng tin từ nhiều nguồn khác nhau để nâng cao hiệu quả dự đốn
của các phương pháp tính tốn đối với các bệnh hoặc ncRNA cơ lập.
Thứ năm, có q nhiều tham số cần điều chỉnh trong các
phương pháp tính tốn hiện hành dẫn đến việc khó thực thi việc dự
đốn quan hệ ncRNA-disease. Do đó các nhà nghiên cứu cần phải
triển các phương pháp tính tốn dễ triển khai hơn để dự đốn quan hệ
giữa các RNA khơng mã hóa và bệnh.
Cuối cùng, ngày càng nhiều các cơ sở dữ liệu sinh học trở nên
sẵn có, vì vậy chúng ta cần phải tích hợp dữ liệu từ nhiều nguồn khác
nhau để cải thiện độ tin cậy của các phương pháp dự đốn.
Cho tới nay, hàng tuần vẫn có một số nghiên cứu được xuất bản
trên các tạp chí hoặc hội thảo khoa học để đưa ra những kết quả mới
trên các phương pháp tính tốn dự đốn quan hệ RNA khơng mã hóa
và bệnh. Nhiều nghiên cứu tập trung vào việc giải quyết những hạn
chế đã được chỉ ra ở trên. Tuy nhiên, việc lựa chọn dữ liệu hữu ích từ
các nguồn thông tin hỗn tạp để xây dựng một mạng hỗn tạp đáng tin
cậy vẫn cịn là một thách thức, vì vậy nó vẫn cịn khơng gian cho các
nhà khoa học và các nhà nghiên cứu để xây dựng một mạng thông tin
hỗn tạp đáng tin cậy và xây dựng một phương pháp tính tốn để đạt
hiệu quả cao hơn trong dự đốn quan hệ ncRNA-bệnh.
. Đó là lý do mà nghiên cứu sinh lựa chọn đề tài “Dự đoán liên
kết trong mạng hỗn tạp và ứng dụng dự đoán mối quan hệ giữa
RNA khơng mã hóa và bệnh” cho luận án của mình.
Mục tiêu luận án và vấn đề nghiên cứu cần giải quyết.
Nghiên cứu trong luận án này tập trung vào đề xuất và cải tiến
các phương pháp tính tốn để nâng cao hiệu quả dự đoán quan hệ
giữa các RNA khơng mã hóa và bệnh trên mạng thơng tin hỗn tạp
bằng cách giải quyết các vấn đề sau đây.
Thứ nhất, vấn đề tính thưa của dữ liệu cần được giải quyết để
cải thiện hiệu quả dự đốn.
Thứ nhì, nghiên cứu trong luận án cần tích hợp nhiều bộ dữ liệu
sinh học khác nhau để xây dựng các độ tương đồng hợp lý hơn và
giảm ảnh hưởng của việc sự phụ thuộc quá nhiều vào các mối quan
hệ ncRNA-disease đã biết.
Thứ ba, các phương pháp tính tốn từ các lĩnh vực khác như dự
đoán quan hệ vi khuẩn-bệnh (microbe-disease), dự đoán quan hệ
metabolite-disease…cũng có thể được áp dụng trong lĩnh vực dự
đốn quan hệ ncRNA-disease. Do đó, luận án có thể kế thừa các
phương pháp tính tốn từ những lĩnh vực đó và hiệu chỉnh chúng để
đạt hiệu quả tốt hơn trong dự đốn quan hệ ncRNA-disease.
Các đóng góp khoa học của luận án:
Luận án sau khi được thực hiện có những đóng góp sau:
- Đóng góp 1: Đề xuất một mơ hình tính tốn cải tiến bằng cách
kết hợp một giải thuật lọc cộng tác và một tiến trình phân bổ tài
nguyên trên đồ thị 3 phía dựa trên nhiều loại quan hệ đã biết giữa
nhiều loại đối tượng sinh học để dự đoán quan hệ giữa các RNA
khơng mã hóa và bệnh.
- Đóng góp 2: Đề xuất một phương pháp tính tốn mới có hiệu quả
cao để dự đoán quan hệ miRNA-disease. Phương pháp này sử dụng
một giải thuật K-láng giềng gần nhất đã biết (WKNKN) như một
bước tiền xử lý dữ liệu để giải quyết vấn đề tính thưa của dữ liệu và
dự đoán quan hệ miRNA-disease sử dụng giải thuật Random walk
with restart cải tiến và tích hợp nhiều độ tương đồng từ nhiều mạng
hỗn tạp.
Đóng góp 1 được trình bày trong chương 2 của luận án, những nội
dung liên quan của đóng góp này được xuất bản trong các kỷ yếu hội
thảo và tạp chí trong các cơng trình [VTN1], [VTN2] và [VTN3].
Đóng góp 2 được trình bày ở chương 3 của luận án. Những nội dung
liên quan của đóng góp này được xuất bản trong cơng trình [VTN4]
trên tạp chí Scientific Reports (ISI Q1).
Cấu trúc luận án:
Luận án được trình bày bao gồm phần các phần: Mở đầu, 3
chương chính và Kết luận và hướng nghiên cứu trong tương lai như
được mơ tả trong hình dưới đây.
CHƯƠNG 1. CÁC KIẾN THỨC CƠ BẢN
1.1. Các khái niệm cơ bản
1.1.1. Mạng thông tin hỗn tạp
Mạng thông tin
Định nghĩa 1.1. Mạng thông tin. Một mạng thông tin được
định
nghĩa như một đồ thị G=(V , E) với một hàm ánh xạ loại đối tượng
ϕ: V → A và một hàm ánh xạ loại liên kết ψ: E → R. Mỗi nút v ϵ V
có một loại đối tượng duy nhất, ϕ(v) ϵ A và mỗi liên kết e ϵ E thuộc
về một loại liên kết cụ thể, ψ(e) ϵ R. Nếu hai liên kết thuộc về cùng
một loại liên kết, chúng có cùng loại đối tượng bắt đầu cũng như
cùng loại đối tượng kết thúc.
Mạng thông tin hỗn tạp/đồng nhất.
Định nghĩa 1.2. Mạng thông tin hỗn tạp/đồng nhất. Nếu
mạng thơng tin có nhiều hơn một loại đối tượng hoặc nhiều hơn một
loại liên kết thì nó được gọi là mạng thông tin hỗn tạp (HIN), tức là
mạng hỗn tạp có |A|>1 hoặc |R|>1; Ngược lại, mạng thơng tin được
gọi là mạng thông tin đồng nhất, tức là |A|=1 và |R|=1.
1.1.2. Các hệ thống sinh học
Các hệ thống sinh học là một lớp đặc biệt của các mạng thông
tin không đồng nhất bao gồm một số lượng lớn các thực thể sinh học
như gen, miRNA, lncRNA, biểu hiện gen, kiểu hình, v.v
1.1.3. Các RNAs khơng mã hóa (ncRNAs)
Những RNAs khơng thể chuyển hóa thành protein được gọi là
các RNAs khơng mã hóa (ncRNAs).
miRNAs
miRNAs là một lớp con của các ncRNAs sợi đơn, nội sinh, nhỏ,
được bảo tồn tiến hóa với chiều dài khoảng 20-26 nucleotides.
lncRNAs
lncRNAs là một lớp con của các ncRNAs với chiều dài lớn hơn
200 nucleotides.
1.2. Dự đoán liên kết trong các mạng thơng tin hỗn tạp
1.2.1. Bài tốn dự đoán liên kết
Định nghĩa 1.5. Dự đoán liên kết trong mạng thông tin hỗn tạp.
Cho một mạng hỗn tạp được biểu diễn bởi đồ thị
G=(V 1 ∪ V 2 ∪ … ∪ V M , E1 ∪ E2 ∪… ∪ EN ) ,
trong
đó
V i (i=1,2 , … , M ) là tập các nút loại i và E j ( j=1,2, … , N ) biểu
diễn tập các cạnh loại j. Nhiệm vụ của dự đốn liên kết là tìm câu trả
lời có hoặc khơng một liên kết e k giữa nút vi ( v i ∈ V i )và nút
v j ( v j ∈ V j ) bất kỳ.
Đầu vào: Đồ thị G=(V 1 ∪ V 2 ∪ … ∪ V M , E1 ∪ E2 ∪… ∪ EN ) :
V i (i=1,2 , … , M ) là tập các nút loại i và E j ( j=1,2, … , N ) biểu
diễn tập các cạnh loại j.
Output: Với 2 đối tượng bất kỳ có kết nối tiềm ẩn vi ( v i ∈ V i )và
v j ( v j ∈ V j ), liệu liên kết e k là tồn tại (1) hoặc không tồn tại (0)?
1.2.2. Các phương pháp dự đoán liên kết
Các phương pháp dự đốn liên kết có thể được phân loại thành: Các
phương pháp dựa trên độ tương đồng mạng, các phương pháp dựa
trên xác xuất và xác xuất cực đại, các phương pháp dựa trên học
máy, các dựa trên học sâu…Chúng có thể được áp dụng trong nhiều
lĩnh vực từ các mạng xã hội tới các mạng sinh học.
1.2.3. Các ứng dụng của dự đoán liên kết trong các hệ thống sinh
học
Trong các hệ thống sinh học, dự đoán liên kết thường được sử dụng
để dự đoán quan hệ giữa các đối tượng sinh học như dự đoán quan hệ
Gen-bệnh, dự đoán quan hệ bệnh-các trao đổi chất, phát triển thuốc,
dự đoán tương tác thuốc-protein, dự đoán quan hệ thuốc-miRNA, dự
đoán quan hệ thuốc-bệnh, dự đoán quan hệ giữa các ncRNA-bệnh…
1.3. Các phương pháp tính tốn dự đốn quan hệ giữa các
RNAs khơng mã hóa và bệnh
1.3.1. Dự đoán quan hệ ncRNA-bệnh được coi là bài toán dự
đoán liên kết
Dự đoán quan hệ ncRNA-disease được coi là bài tốn dự đốn
liên kết trong mạng thơng tin hỗn tạp. Nó thường sử dụng một mạng
hỗn tạp chứa nhiều loại đối tượng sinh học và quan hệ giữa chúng.
Những loại đối tượng sinh học và quan hệ giữa chúng có thể được
thu thập từ nhiều nguồn dữ liệu khác nhau, bao gồm các nút ncRNAs
(miRNA, lncRNA) và bệnh. Sau đó nó dự đốn quan hệ giữa các
ncRNAs và bệnh. Các quan hệ có thể là quan hệ mới hoặc quan hệ
thiếu chưa được kiểm chứng trước đó.
1.3.2. Các tài nguyên dùng để dự đốn quan hệ ncRNA-disease
Thơng tin về miRNAs và các quan hệ miRNA-target có thể
được thu thập từ nhiều nguồn dữ liệu khác nhau như miRBase,
miReg, miRTarBase, miRecords,... Các quan hệ miRNA-disease
được kiểm chứng có thể được thu thập từ các cơ sở dữ liệu có sẵn đã
được kiểm chứng như MiRCancer, MiR2Disease, HMDD, MiREC,
DbDEMC,… Thông tin về lncRNAs có thể được thu thập từ nhiều
nguồn như LNCipedia, NONCODE database, LncRBase,...Thơng tin
về các tương tác của lncRNA có thể được thu thập từ các cơ sở dữ
liệu như DIANA-LncBase, lncRNA2Target,…Thông tin quan hệ
lncRNA-disease có thể được thu thập từ nhiều cơ sở dữ liệu khác
nhau như LncRNADisease, Lnc2Cancer, MNDR, ...
1.3.3. Tính tốn độ tương đồng và xây dựng mạng hỗn tạp
Tính tốn độ tương đồng giữa các bệnh
Một phương pháp tiêu biểu tính tốn độ tương đồng của bệnh
bằng cách tính tốn đóng góp của các nút tổ tiên của bệnh trong một
cấu trúc cây như MeSH.
Một loại phương pháp khác đã sử dụng thơng tin của các phân
tử sinh học có liên quan khác để tính tốn mức độ giống nhau của
bệnh
Tính tốn tương đồng ncRNAs
Phương pháp phổ biến nhất là tính độ tương đồng ncRNA là sử
dụng thơng tin sinh học của chính ncRNA.
Xây dựng mạng thơng tin hỗn tạp
Sau khi có các độ tương đồng, mạng thơng tin hỗn tạp được xây
dựng.
1.3.4. Khảo sát tổng quan các phương pháp tính tốn để dự đốn
quan hệ ncRNA-disease
Nhiều phương pháp tính toán để dự đoán quan hệ ncRNA-disease đã
được phát triển trong những năm gần đây. Nhìn chung, chúng có thể
được phân loại thành các loại : Các phương pháp dự đốn dựa trên
mơ hình mạng, các phương pháp dựa trên phân bổ tài nguyên, các
phương pháp dựa trên hệ thống khuyến nghị, các phương pháp dựa
trên học máy, các phương pháp dựa trên học sâu và các phương pháp
dựa trên nhiều nguồn thơng tin và tích hợp nhiều mơ hình. Mỗi loại
phương pháp có những ưu, nhược điểm riêng.
1.4. Các hướng nghiên cứu của luận án
Nghiên cứu trong luận án có thể được thực hiện theo các
hướng :
Đầu tiên, cần phát triển các phương pháp để trích chọn đặc
trưng, tính tốn tương đồng hoặc tổng hợp thơng tin phù hợp hơn để
giải quyết vấn đề tính thưa của dữ liệu hoặc nâng cao tính tin cậy của
hiệu quả dự đốn.
Thứ hai, luận án có thể tập trung vào việc tích hợp dữ liệu từ
nhiều tập dữ liệu sinh học khác nhau để xây dựng độ tương đồng hợp
lý hơn và phát triển các phương pháp tính tốn mới để dự đoán quan
hệ ncRNA-disease.
Thứ ba, các phương pháp tính tốn để dự đốn quan hệ ncRNAdisease có thể được áp dụng cho các lĩnh vực nghiên cứu khác như
dự đốn quan hệ mircrobe-disease, metabolite-disease, drugdisease...Do đó, các phương pháp tính tốn để dự đốn quan hệ
ncRNA-disease cũng có thể kế thừa các phương pháp tính tốn từ
các lĩnh vực khác và hiệu chỉnh chúng để đạt hiệu quả tốt hơn trong
dự đoán quan hệ ncRNA-disease.
1.5. Các phương pháp đánh giá và các đo lường đánh giá hiệu
quả dự đoán
Trong luận án này, hiệu quả dự đoán của các phương pháp được
đánh giá bằng đo lường Diện tích dưới đường cong ROC (AUC),
Diện tích dưới đường cong Precision-Recall (AUPR) bằng các thực
nghiệm 5-fold-cross-validation và leave-one-out-cross-validation
(LOOCV). Bên cạnh đó, để hỗ trợ tính tin cậy của hiệu quả dự đốn,
một số trường hợp kiểm tra (checking case studies) có thể được thực
thi trong mỗi phương pháp. Ngoài ra, mặc dù độ phức tạp tính tốn
thường khơng được quan tâm để đánh giá hiệu quả dự đoán nhưng
trong luận án này, độ phức tạp tính tốn về thời gian của các phương
pháp được ước lượng để đảm bảo các phương pháp sẽ kết thúc trong
thời gian thực thi chấp nhận được.
1.6. Tóm tắt chương
Trong chương này, trước tiên một số khái niệm cơ bản được
trình bày. Sau đó, bài tốn dự đốn liên kết trong mạng thông tin hỗn
tạp được phát biểu và các ứng dụng của dự đoán liên kết trong sinh
học hệ thống được tóm tắt. Tiếp đó, các phương pháp tính tốn để dự
đốn quan hệ giữa các ncRNAs và bệnh được khảo sát tổng quan. Từ
khảo sát đó, các hướng nghiên cứu của luận án đã được chỉ ra. Cuối
cùng, một số phương pháp đánh giá và các đo lường đánh giá hiệu
quả dự đốn đã được trình bày.
CHƯƠNG 2. DỰ ĐOÁN QUAN HỆ GIỮA CÁC NCRNAS VÀ
BỆNH KẾT VỚI LỌC CỘNG TÁC VÀ MỘT TIẾN TRÌNH
PHÂN BỔ TÀI NGUYÊN TRÊN ĐỒ THỊ BA PHÍA
2.1. Động lực nghiên cứu
Gần đây nhiều phương pháp tính tốn khác nhau để dự đoán quan hệ
ncRNA-disease, đặc biệt là quan hệ miRNA-bệnh và quan hệ
lncRNA-bệnh, đã được phát triển. Nhiều phương pháp trong đó chủ
yếu dựa vào các mối quan hệ ncRNA-disease đã biết. Chúng cần
phải sử dụng nhiều ma trận tương đồng khác nhau mà những ma trận
này không kết nối trực tiếp với các quan hệ ncRNA-bệnh đã biết. Vì
vậy, gần đây nhiều phương pháp tính tốn đã được xây dựng sử dụng
nhiều loại quan hệ giữa nhiều loại đối tượng để dự đốn quan hệ
ncRNA-bệnh. Nhìn chung những phương pháp dựa vào nhiều loại
quan hệ đã biết của nhiều loại đối tượng cải thiện được hiệu quả của
việc dự đoán. Trong chương này, một mơ hình tính tốn mới được
đề xuất để dự đoán quan hệ ncRNA-disease nhằm giải quyết vấn đề
tính thưa của dữ liệu và tận dụng những ưu điểm của việc tích hợp
nhiều loại quan hệ đã biết giữa nhiều loại đối tượng sinh học trong
cải thiện hiệu quả của việc dự đoán. Trước tiên, vấn đề tính thưa của
dữ liệu được giải quyết bởi một giải thuật lọc cộng tác dựa theo item.
Sau đó một tiến trình phân bổ tài ngun được triển khai trên đồ thị 3
phía để dự đốn quan hệ ncRNA-disease.
2.2. Các nghiên cứu liên quan chính
2.2.1. Giải thuật lọc cộng tác dựa theo item để dự đoán quan hệ
ncRNA-disease.
Mơ hình mới được đề xuất sử dụng giải thuật lọc cộng tác dựa trên
item để giải quyết vấn đề tính thưa của dữ liệu quan hệ ncRNAdisease.
2.2.2. Phân bổ tài nguyên trên đồ thị 3 phía
Phân bổ tài nguyên trên đồ thị 3 phía đã được thực thi thành cơng
trong nhiều phương pháp tính tốn để dự đốn quan hệ ncRNAdisease bao gồm các phương pháp TPGLDA và ncPRED.
2.3. Mơ hình được đề xuất
Mơ hình được đề xuất mới được minh họa như trong Hình 2.1 dưới
đây.
Một cách tổng quan, mơ hình được đề xuất bao gồm 4 giai đoạn. Ở
giai đoạn thứ nhất, một đồ thị G 0 được xây dựng dựa trên các loại
quan
Hình 2.1. Sơ đồ luồng tiến trình của mơ hình được đề xuất
hệ miRNA-disease, lncRNA-disease và miRNA-lncRNA đã biết. Ở
giai đoạn thứ 2, để giải quyết vấn đề tính thưa của dữ liệu, một giải
thuật lọc cộng tác được triển khai trên đồ thị G 0 để thu được một đồ
thị 3 phía mới Gu. Sau đó, đồ thị 3 phía Gu được sử dụng trong một
tiến trình phân bổ tài ngun ở giai đoạn thứ 3 để tính tốn điểm tài
nguyên của các ứng viên ncRNA cho mỗi bệnh liên quan. Ở giai
đoạn cuối cùng, tất cả các điểm tài nguyên của các ncRNA ứng viên
với mỗi bệnh sẽ được xếp hạng theo thứ tự giảm dần mà ứng viên
với điểm tài nguyên cao hơn sẽ có khả năng lớn hơn có mối quan hệ
đúng và được kiểm chứng trong tương lai.
2.4. Triển khai mơ hình được đề xuất để suy diễn các mối quan
hệ miRNA-disease dựa trên lọc cộng tác và phân bổ tài nguyên
2.4.1. Các giai đoạn của mơ hình được đề xuất trong suy diễn
quan hệ miRNA-disease
Giai đoạn 1: Xây dựng đồ thị 3 phía G0
Giai đoạn 2: Xây dựng đồ thị 3 phía Gu
Giai đoạn 3: Triển khai tiến trình phân bổ tài ngun trên đồ thị 3
phía Gu để suy diễn quan hệ miRNA-disease
Giai đoạn 4: Xếp hạng các Rscores của các miRNA ứng viên cho
mỗi bệnh theo thứ tự giảm dần
2.4.2. Thực nghiệm và kết quả của phương pháp được đề xuất
Bước 1: Chuẩn bị tập dữ liệu thực nghiệm
Phương pháp được đề xuất sử dụng các tập dữ liệu đến từ nghiên cứu
của Zhao et al. Các tập dữ liệu này bao gồm 190 bệnh, 111 lncRNAs
và 264 miRNAs, 936 quan hệ lncRNA-disease đã biết, 3552 quan hệ
miRNA-disease đã được kiểm chứng và 1880 quan hệ đã biết giữa
các lncRNAs và miRNAs. Thông tin về các tập dữ liệu này được tóm
tắt trong Hình 2.2 dưới đây
Bước 2: Cài đặt phương pháp được đề xuất và ước lượng độ
phức tạp tính tốn
Phương pháp được đề xuất được cài đặt sử dụng ngôn ngữ lập
Hình 2.2. Các tập dữ liệu và số nút dữ liệu trong phương pháp
được đề xuất
trình Python và các thư viện có liên quan.
Độ phức tạp tính tốn của phương pháp được ước lượng tương
đương với O(n3). Đây là độ phức tạp thời gian đa thức.
Bước 3: Đánh giá hiệu năng dự đoán
Để đánh giá hiệu quả của phương pháp được đề xuất trong suy diễn
mối quan hệ miRNA-disease, các thực nghiệm 5-fold-crossvalidation được thực hiện và các đo lường AUC và AUPR được đánh
giá.
Đánh giá AUC bằng các thực nghiệm 5-fold-cross-validation
Hình 2.3. Đường cong ROC và giá trị AUC của phương pháp được
đề xuất trong một lần chạy thực nghiệm với γ = 0.9.
Giá trị AUC trung bình tốt nhất đạt được 0.9788 với γ = 0.9 sau khi
thực hiện các thực nghiệm 5-fold-cross-validation 10 lần. Hình 2.3
minh họa đường cong ROC và giá trị AUC của phương pháp được
đề xuất với γ = 0.9 trong một lần chạy thực nghiệm.
Đánh giá AUPR bằng thí nghiệm 5-fold cross-validation
Sau khi thực hiện các thí nghiệm 5-fold-cross-validation 10 lần,
phương pháp được đề xuất đạt được giá trị AUPR trung bình tốt nhất
là 0.9373 với γ = 0.9. Hình 2.4 minh họa đường Precision-Recall và
giá trị AUPR của phương pháp được đề xuất với γ = 0.9 trong một
lượt chạy thí nghiệm.
Hình 2.3. Đường cong Precision-Recall và giá trị AUPR của
phương pháp đề xuất trong một lần chạy thực nghiệm với γ = 0.9.
So sánh hiệu quả dự đoán với các phương pháp khác có liên
quan.
Hiệu quả của phương pháp được đề xuất được so sánh với hiệu quả
của các phương pháp có liên quan DCSMDA và TPGLDA. Hiệu
quả của những phương pháp này được chỉ ra trong Bảng 2.1.
Method
AUC value
AUPR value
TPGLDA
0.9703
0.7421
DCSMDA
0.8155
The proposed method
0.9788
0.9373
Kiểm tra các Case studies
Các trường hợp nghiên cứu trên các bệnh Ung thư tiền liệt tuyến,
Suy tim, U thần kinh đệm và Tăng nhãn áp (Bệnh thiên đầu thống)
được thực thi để chỉ ra khả năng của mô hình được đề xuất trong dự
đốn các miRNA có quan hệ với từng bệnh.
2.5. Triển khai mơ hình được đề xuất để dự đoán quan hệ
lncRNA-disease dựa trên lọc cộng tác và phân bổ tài nguyên.
2.5.1. Các giai đoạn của mơ hình được đề xuất trong dự đoán
quan hệ lncRNA-disease
Giai đoạn 1: Xây dựng đồ thị 3 phía G0.
Giai đoạn 2: Áp dụng giải thuật lọc cộng tác trên các quan hệ đã
biết lncRNA-disease và lncRNA-miRNA để thu được đồ thị 3
phía mới Gu.
Giai đoạn 3: Sử dụng tiến trình phân bổ tài nguyên cải tiến để thu
được các quan hệ lncRNA-disease dự đoán.
Giai đoạn 4: Xếp hạng tất cả các lncRNAs được dự đoán cho mỗi
bệnh theo thứ tự giảm dần để thu được kết quả cuối cùng.
2.5.2. Thực nghiệm và kết quả của phương pháp được đề xuất
Bước 1: Thu thập dữ liệu
Các tập dữ liệu của phương pháp được đề xuất bao gồm các quan hệ
lncRNA-disease đã biết, quan hệ miRNA-disease đã biết và tương tác
lncRNA-miRNA đã kiểm chứng. Các nút dữ liệu và các mối quan hệ
của các nguồn dữ liệu trong phương pháp được đề xuất được trình
bày trong hình 2.5.
Hình 2.5. Mối quan hệ giữa các tập dữ liệu và số nút dữ liệu
Cài đặt phương pháptrong
đượctừng
đề xuất
tập và ước lượng độ phức
tạp tính toán
Phương pháp được đề xuất này cũng được cài đặt bằng ngơn ngữ lập
trình Python và các thư viện có liên quan. Độ phức tạp tính tốn của
phương pháp được đề xuất là O(nl*nd*nm) ≈ O(n3). Nghĩa là độ phức
tạp tính tốn của phương pháp được đề xuất có độ phức tạp đa thức.