Tải bản đầy đủ (.pdf) (3 trang)

Khám phá tương tác trội nhờ phương pháp tối ưu đàn kiến

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (212.03 KB, 3 trang )

1

Khám phá tương tác trội
nhờ phương pháp tối ưu đàn kiến
Detecting epistatic interactions using ant colony optimization method
NXB H. : ĐHCN, 2014 Số trang 64 tr. +


Nguyễn Thị Chi

Đại học Công nghệ
Luận văn ThS ngành: Hệ thống thông tin;Mã số: 60 48 05
Người hướng dẫn: TS. Đỗ Đức Đông
Năm bảo vệ: 2014

Keywords: Hệ thống thông tin; Thuật toán; Phương pháp tối ưu đàn kiến; Bài toán tương
tác gen

Content
Tin sinh học là một lĩnh vực khoa học liên ngành, trong đó sinh học phân tử và tin học đóng
vai trò chủ đạo. Sinh học làm môi trường dữ liệu cơ sở, trên đó xây dựng và hoàn thiện các
chương trình xử lý dữ liệu ứng dụng làm công cụ hỗ trợ hiệu quả cho việc nghiên cứu, thu nhận
và sản xuất ra các sản phẩm sinh học mong muốn khác nhau phục vụ đời sống con người…Về cơ
bản, tin sinh học tập trung vào nghiên cứu và áp dụng các phương pháp cũng như các kĩ thuật
trong tin học để giải quyết các bài toán trong sinh học phân tử. Tin sinh học có tính ứng dụng cao
trong cuộc sống, đặc biệt trong lĩnh vực nông nghiệp và lĩnh vực y-dược.
Vấn đề về sức khỏe và bệnh tật của con người là những vấn đề rất được quan tâm và chú ý.
Hiện nay có rất nhiều các căn bệnh như: Bệnh ung thư, bệnh thoái hóa điểm vàng, bệnh tim
mạch… Tất cả đều là những căn bệnh di truyền. Có nhiều các tác nhân liên quan đến bệnh như:
Tác nhân vật lý, chế độ ăn uống, tác nhân hóa học,…, nhưng yếu tố di truyền vẫn là tác nhân
chính.


Gen di truyền được công nhận rộng khắp rằng nhiều căn bệnh có thể là nguyên nhân bởi
những tác động của nhiều loại gen biến đổi, trong mỗi gen của các cá thể, những gen đó chiếm số
ít nhưng lại có tác động mạnh. Vấn đề đang được quan tâm hiện nay là tiến hành nghiên cứu về
các gen di truyền: Xác định vị trí gen trên một bệnh chứng, gen xác định là nguyên nhân chính để
dẫn đến các căn bệnh. Phần lớn trong số những biến thể di truyền là hàng triệu các điểm tại những
vị trí nucleotide nhất định đã làm thay đổi mã di truyền do sự biến đổi của đơn nucleotide trong
bộ gen. Khi xảy ra đột biến điểm làm cho một đơn nucleotide bị biến đổi hoặc ngược lại tạo ra
một “single nucleotide polymorphism (SNP)” còn gọi là đa hình đơn nucleotide. Khi SNPs xảy ra
trong gen hoặc trong một khu vực gần một gen quy định, nó có thể có vai trò trực tiếp đến sự xuất
hiện bệnh bằng cách ảnh hưởng đến chức năng của gen. SNPs hiện đang được Dự án quốc tế
HapMap tiến hành một cách hệ thống. Các nhà khoa học tin rằng SNP bản đồ sẽ giúp họ có nhiều
gen liên quan tới các bệnh phức tạp.
Đã có nhiều thuật toán được nghiên cứu và công bố giải quyết bài toán tương tác gen để đưa
ra tập các vị trí nucleotide biến đổi (hay còn gọi là SNP) tương tác với nhau trội được dự đoán là
có khả năng cao liên quan đến căn bệnh. Dựa trên đó, các nhà nghiên cứu có thể tìm kiếm ra vị trí
các gen liên quan đến các căn bệnh cụ thể mà họ quan tâm.
2

Trong luận văn này, tôi sẽ trình bày khảo cứu lại của tác giả bài báo[22] về cách giải quyết
bài toán tương tác gen sử dụng thuật toán Ant Colony Optimization (ACO) để giải quyết. Mục
đích để chỉ ra thuật toán AntEpiSeeker có thể giải quyết bài toán với những bộ dữ liệu lớn và đưa
ra được kết quả tối ưu hơn so với các thuật toán trước đó. Ngoài ra, trong luận văn tôi thực hiện
xử lý song song hóa các tác vụ trong tính toán của Chi-square giúp đẩy nhanh trong quá trình việc
cập nhật mùi của kiến mà vẫn đảm bảo tính đúng đắn của thuật toán, cài đặt thực nghiệm với quy
tắc cập nhật mùi mới Max-Min trơn (Smoothed Max Min Ant System – SMMAS) được Đỗ Đức
Đông đề xuất năm 2012[1].
Ngoài phần kết luận, cấu trúc nội dung của luận văn bao gồm 4 chương:
Chương 1: Trình bày sơ lược các khái niệm về sinh học, phát biểu bài toán tương tác gen,
hệ quả của tương tác gen và mục đích của việc phát hiện tương tác gen.
Chương 2: Trình bày tổng quan về ACO và một vài thuật toán cập nhật mùi khác nhau trong

ACO. Ví dụ về bài toán người chào hàng giải quyết bằng thuật toán ACO.
Chương 3: Giới thiệu một vài thuật toán giải quyết bài toán tương tác gen với những ưu,
nhược điểm. Trình bày lại thuật toán AntEpiSeeker và trình bày về hàm kiểm định thống kê Chi-
square.
Chương 4: Đưa ra kết quả mà bài báo công bố, giải thích ý nghĩa của các tham số và ý nghĩa
đánh giá các thuật toán với nhau khi nào là tốt khi nào là xấu. Chạy thực nghiệm lại với một bộ
dữ liệu mô phỏng để so sánh tốc độ của thuật toán ban đầu với tốc độ sau khi xử lý song song hóa
các tác vụ của kiến và kiểm tra khả năng tìm ra tập các vị trí nucleotide biến đổi ở phương pháp
cập nhật mùi mới.

References
Tiếng Việt
[1] Đỗ Đức Đông (2012), Phương pháp tối ưu đàn kiến và ứng dụng, Đại học Công nghệ- Đại
học Quốc gia Hà Nội, luận án Tiến sĩ.
[2] Hoàng Trọng Phán, Trương Thị Bích Phượng, Trần Quốc Dung (2005), Giáo trình di truyền
học, Dự án Giáo dục Đại học- Đại học Huế.
Tiếng Anh
[3] W.Bateson (1909), “Mendel’s Principles of Heredity”, Cambridge University Press,
Cambridge.
[4] YM. Cho, MD. Ritchie, JH. Moore, JY. Park, KU. Lee, HD. Shin, HK. Lee, KS. Park
(2004), “Multifactor-dimensionality reduction shows a two-locus interaction associated with
type 2 diabetes mellitus”, Diabetologia, 47:549-554.
[5] HJ. Cordell (2002), “ Epistasis: what it means, what it doesn't mean, and statistical methods
to detect it in humans”, Hum Mol Genet, 11:2463-2468.
[6] D. Corne, M. Dorigo, F. Glover (1999), New Ideas in Optimization, McGraw-Hill.
[7] M. Dorigo, G. Di Caro, LM. Gambardella (1999), “Ant Algorithms for Discrete
Optimization”, Artificial Life, 5:137-172.
[8] M. Dorigo, T.Stützle (2004), Ant Colony Optimization, The MIT Press, Cambridge,
Masachusetts, 2004.
[9] M. Dorigo, L.M. Gambardella (1997), “Ant colony system: A cooperative learning

approach to the traveling salesman problem”, IEEE Transon evolutionary computation, vol.1,
no.1, 1997, pp. 53-66.
[10] M. Dorigo, L.M. Gambardella (1997), “Ant colonies for the travelling salesman problem”,
Biosystems, 43:73-81.
3

[11] M. Dorigo, V. Maniezzo, A. Colorni (1991), “The Ant System: An autocatalytic
optimizing process”, Technical Report 91-016 Revised, Dipartimento di Elettronica,
Politecnico di Milano, Milano, Italy.
[12] RA. Fisher (1922), On the interpretation of χ2 from contingency tables, and the
calculation of P, Journal of the Royal Statistical Society 1922; 85(1):87-94.
[13] S. Goss, S. Aron, J.L. Deneubourg, J.M. Pasteels (1989), “Self-organized shortcuts in the
Argentine ant”, Naturwissenschaften, 76, 579–581.
[14] RJ. Klein, C. Zeiss, EY. Chew, JY. Tsai, RS. Sackler, C. Haynes, AK. Henning, JP.
SanGiovanni, SM. Mane, ST. Mayne ST (2005), “Complement factor H polymorphism in
age-related macular degeneration”, Science, 308:385-389.
[15] V. Maniezzo, A. Carbonaro (2000), “An ANTS heuristic for the frequency assignment
problem”, Future Generation Computer Systems, 16:927-935.
[16] J. Marchini, P. Donnelly, LR. Cardon (2005), “Genome-wide strategies for detecting
multiple loci that influence complex diseases”, Nat Genet, 37:413-417
[17] MD. Ritchie, LW. Hahn, N. Roodi N, LR. Bailey,WD. Dupont, FF. Parl, JH. Moore (2001),
“Multifactor-dimensionality reduction reveals high-order interactions among estrogen
metabolism genes in sporadic breast cancer”, Am J Hum Genet, 69:138-147.
[18] KR. Robbins, W. Zhang, JK. Bertrand, R. Rekaya (2007), “The ant colony algorithm for
feature selection in high-dimension gene expression data for disease classification”, Math
Med Bio, 24:413-26.
[19] T. Stützle, H. H. Hoos (2000), “Max-Min ant system”, Future Gene. Comput. Syst, vol.
26, no.8, 2000, pp. 889-914.
[20] EG. Talbi, O. Roux, C. Fonlupt, D. Robillard (2001), “Parallel Ant Colonies for the
quadratic assignment problem”, Future Generation Computer System, 17:441-449.

[21] CT. Tsai, LP. Lai, JL. Lin, FT. Chiang, JJ. Hwang, MD. Ritchie, JH. Moore, KL. Hsu,
CD.Tseng,CS. Liau, YZ.Tseng (2004), “Renin-angiotensin system gene polymorphisms and
atrial fibrillation”, Circulation, 109:1640-1646.
[22] Y. Wang, X. Liu, K. Robbins, R. Rekaya (2010), “AntEpiSeeker: detecting epistatic
interactions for case-control studies using a two-stage ant cology optimization algorithm”,
BMC Research Notes, 3:117.
[23] C. Yang, Z. He, X. Wan, Q. Yang, H. Xue, W. Yu (2009), “SNPHarvester: a filtering-based
approach for detecting epistatic interactions in genome-wide association studies”,
Bioinformatics, 25:504-511.
[24] Y. Zhang, JS. Liu (2007), “Bayesian inference of epistatic interactions in case-control
studies”, Nat Genet, 39:1167-1173.
Một số trang web
[25]
[26]
[27]
[28]
[29]
[30]
[31] />moi-trong-tuong-lai/

×