Tải bản đầy đủ (.docx) (71 trang)

Luận văn thạc sĩ lựa chọn tag SNP dựa vào phương pháp tối ưu đàn kiến

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.17 MB, 71 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
THÔNG TIN VÀ TRUYỀN THÔNG

VŨ ĐỨC ANH

LỰA CHỌN TAG SNP DỰA VÀO PHƯƠNG PHÁP
TỐI ƯU ĐÀN KIẾN

LUẬN VĂN THẠC SĨ KHOA HỌC

Thái Nguyên - Năm 2016

Số hóa bởi Trung tâm Học liệu – ĐHTN




ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
THÔNG TIN VÀ TRUYỀN THÔNG

VŨ ĐỨC ANH

LỰA CHỌN TAG SNP DỰA VÀO PHƯƠNG PHÁP
TỐI ƯU ĐÀN KIẾN
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.0101

LUẬN VĂN THẠC SĨ KHOA HỌC


NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. ĐỖ ĐỨC ĐƠNG

Thái Ngun - Năm 2016
Số hóa bởi Trung tâm Học liệu – ĐHTN




LỜI CAM ĐOAN

Tơi cam đoan đây là cơng trình nghiên cứu của riêng tôi, dưới sự chỉ
dẫn của TS. Đỗ Đức Đông. Các số liệu, kết quả nêu trong luận văn là trung
thực, bảo đảm tính khách quan, luận văn này cho đến nay chưa được bảo vệ
tại bất kỳ hội đồng nào và chưa hề được công bố trên bất kỳ phương tiện nào
khác. Các tài liệu tham khảo có nguồn gốc xuất xứ rõ ràng.
Tác giả xin chịu trách nhiệm về những lời cam đoan trên.

Thái Nguyên, ngày 20 tháng 8 năm
2016
Tác giả luận văn

Vũ Đức Anh

Số hóa bởi Trung tâm Học liệu – ĐHTN


i



LỜI CẢM ƠN

Em xin chân thành cảm ơn thầy giáo TS. Đỗ Đức Đông đã trực tiếp
giao cho em đề tài, tận tình hướng dẫn và tạo mọi điều kiện cho em hoàn
thành luận văn.
Em xin chân thành cảm ơn các thầy cơ giáo, các cán bộ nhân viên
phịng đào tạo, ban lãnh đạo Trường Đại học Công nghệ thông tin và Truyền
thông đã giúp đỡ tạo điều kiện cho em hoàn thành bản luận văn này.
Cuối cùng, em xin chân thành cảm ơn sự quan tâm giúp đỡ của gia
đình, bạn bè và tập thể lớp Cao học K13H đã cổ vũ động viên em hoàn thành
tốt luận văn của mình.

Thái Nguyên, ngày .... tháng .... năm 2016
Học viên Vũ Đức Anh

Số hóa bởi Trung tâm Học liệu – ĐHTN


ii


MỤC LỤC
1
LỜI CAM ĐOAN............................................................................................................................. i
LỜI CẢM ƠN................................................................................................................................. ii
MỤC LỤC...................................................................................................................................... iii
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT..................................................................... v
DANH MỤC CÁC BẢNG............................................................................................................ vii
DANH MỤC CÁC HÌNH............................................................................................................ viii
MỞ ĐẦU.......................................................................................................................................... 1

CHƯƠNG 1..................................................................................................................................... 3
TỔNG QUAN VỀ TỐI ƯU ĐÀN KIẾN VÀ BÀI TOÁN LỰA CHỌN TAG SNP......................3
1.1. Tìm hiểu về SNP................................................................................................................... 3
1.1.1.

SNP (Single Nucleotide Polymorphisms).....................................................................3

1.1.2.

Phương pháp xác định SNP........................................................................................... 5

1.1.3.

Tính chất của SNP......................................................................................................... 7

1.1.4.

Ứng dụng và triển vọng của nghiên cứu SNP............................................................... 7

1.2. Bài toán lựa chọn Tag SNPs và các cách tiếp cận hiện nay............................................. 11
1.3. Tổng quan về tối ưu đàn kiến............................................................................................ 15
1.4. Mục tiêu nghiên cứu của luận văn.................................................................................... 21
1.5. Bố cục của luận văn............................................................................................................ 21
CHƯƠNG 2................................................................................................................................... 23
MỘT SỐ VẤN ĐỀ TRONG LỰA CHỌN TAG SNP BẰNG PHƯƠNG PHÁP TỐI ƯU ĐÀN
KIẾN.............................................................................................................................................. 23
2.1. Tìm hiểu về bài tốn tối ưu tổ hợp tổng quát................................................................... 23
2.2. Tối ưu đàn kiến................................................................................................................... 25
2.2.1. Từ kiến tự nhiên đến kiến nhân tạo.................................................................................. 25
a/ Kiến tự nhiên................................................................................................................ 26

b/ Kiến nhân tạo............................................................................................................... 28
2.2.2. Phương pháp ACO cho bài toán TƯTH tổng quát...........................................................30
a/ Đồ thị cấu trúc.............................................................................................................. 30
b/ Mơ tả thuật tốn ACO tổng qt................................................................................. 32
2.2.3. Đánh giá ảnh hưởng của các tham số trong thuật toán ACO...........................................35
a/ Thơng tin heuristic....................................................................................................... 35
b/ Số lượng kiến............................................................................................................... 36
Số hóa bởi Trung tâm Học liệu – ĐHTN


iii


c/ Tham số bay hơi

36

2.3. Bài toán lựa chọn tag SNPs................................................................................................ 37
2.4. Phương pháp giải bài toán lựa chọn SNPs bằng thuật tốn tối ưu hóa đàn kiến- Thuật
tốn MACA............................................................................................................................... 38
2.4.1. Thuật toán đàn kiến........................................................................................................... 38
2.4.2. Kiến quyết định và cập nhật mùi...................................................................................... 39
2.4.3. Hiệu chỉnh quy tắc cập nhật mùi – áp dụng quy tắc SMMAS.........................................40
2.4.4. Heuristic............................................................................................................................ 41
2.4.5. Thuật giải MACA.............................................................................................................. 42
CHƯƠNG 3................................................................................................................................... 45
CHƯƠNG TRÌNH THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ...........................................45
3.1. Mô tả thực nghiệm................................................................................................................. 45
3.2. Kết quả thực nghiệm và đánh giá......................................................................................... 46
KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO............................................................ 50

TÀI LIỆU THAM KHẢO............................................................................................................ 51
PHỤ LỤC...................................................................................................................................... 55
A. Mã lệnh cho thuật toán ACA............................................................................................... 55
B. Mã lệnh khi sử dụng quy tắc SMASS để cập nhật mùi:.................................................... 57
C. Mã lệnh cho thuật tốn MACA........................................................................................... 57

Số hóa bởi Trung tâm Học liệu – ĐHTN


iv


DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Kí hiệu và
chữ viết tắt

Ý

nghĩa

Cận trên của vết mùi

0

Cận dưới của vết mùi
Cận giữa của vết mùi
Vết mùi được khởi tạo ban đầu




Vết mùi trên cạnh



Vết mùi trên đỉnh
Thông tin heuristic trên cạnh
Thơng tin heuristic trên đỉnh
3-LAS
ACO

Số vịng lặp trong thuật tốn ACO
Số kiến sử dụng trong thuật toán ACO
Tham số bay hơi

ACS
AS
G-best
I-best

Three-Level Ant System (Hệ kiến ba mức)
Ant Colony Optimization (Tối ưu đàn kiến)
Ant Colony System (Hệ đàn kiến)
Ant System (Hệ kiến)
Global-best (Lời giải tốt nhất tính đến thời điểm hiện tại)
Iteration-best (Lời giải tốt nhất trong bước lặp hiện tại)

Số hóa bởi Trung tâm Học liệu – ĐHTN



v


MLAS
MMAS
SMMAS
TSP

Số hóa bởi Trung tâm Học liệu – ĐHTN


vi


DANH MỤC CÁC BẢNG

Bảng

Trang

Bảng 2.1. Biểu diễn nhị phân của haplotype và SNP……………..

44

Bảng 3.1. Bảng kết quả thực nghiệm khi số lượng haplotype cố
định và số lượng SNP thay đổi……………………………………

46

Bảng 3.2. Thời gian chạy thực nghiệm khi số lượng haplotype cố

định và số lượng SNP thay đổi……………………………………

47

Bảng 3.3. Bảng kết quả khi số lượng SNP cố định và số lượng
haplotype thay đổi…………………………………………………

48

Bảng 3.4. Thời gian chạy thực nghiệm khi số lượng haplotype cố
định và số lượng SNP thay đổi……………………………………

48

Số hóa bởi Trung tâm Học liệu – ĐHTN


vii


DANH MỤC CÁC HÌNH

Hình
Hình 1.1. Một SNP (Single Nucleotide Polymorphisms)
Hình 1.2. Ba bươc xây dưngg̣ HapMap ……………………………
́́
Hình 1.3. Hoạt động của bầy kiến trong thực tế…………………..
Hình 1.4. Ví dụ về đàn kiến nhân tạo…...………………………...
Hình 2.1. Thực nghiệm cây cầu đơi…………………………….....
Hình 2.2. Thí nghiệm bổ sung…………………………………….

Hình 2.3. Đồ thị cấu trúc tổng qt cho bài tốn cực trị hàm..........
Hình 2.4. Thuật tốn ACO………………………………………...
Hình 2.5. Tổng quan về thuật tốn MACA……………………….

Số hóa bởi Trung tâm Học liệu – ĐHTN


viii


MỞ ĐẦU

Nghiên cứu về mối liên kết giữa gene và bệnh ở người là một trong những
vấn đề nghiên cứu thuộc lĩnh vực Tin sinh học, một trong những lĩnh vực khoa
học liên ngành đang thu hút được sự quan tâm của nhiều nhà khoa học thuộc
nhiều lĩnh vực có liên quan, trong đó có chuyên ngành “Khoa học máy tính”.

Lựa chọn tag SNP (tag SNP selection) là bài tốn có ý nghĩa quan trọng
trong nghiên cứu về liên kết giữa gene và bệnh ở người - nhằm tìm ra các
gene gây ra kiểu hình bệnh nào đó, hướng tới việc tìm cách điều trị phù hợp.

Bài tốn lưạ choṇ tag SNP đa ̃ đươcg̣ chứng minh làbài toán thuộc lớp
NP-khó[20], thuộc thể loại các bài tốn tối ưu tổ hợp (sau đây viết tắt là
TƯTH) và hiện nay việc lựa chọn phương pháp giải bài toán trên đang là vấn
đề được quan tâm của các nhà nghiên cứu. Với các bài toán TƯTH, trừ các
bài toán cỡ nhỏ có thể tìm lời giải bằng cách tìm kiếm vét cạn, cịn lại thì
thường khơng thể tìm được lời giải tối ưu. Đối với các bài tốn cỡ lớn khơng
có phương pháp giải đúng, hiện nay, người ta thường tìm lời giải gần đúng
nhờ các thuật tốn mơ phỏng tự nhiên như giải thuật di truyền (Genetic
Algorithm - GA), tối ưu bầy đàn (Particle Swarm Optimization -PSO)…

Trong các phương pháp mô phỏng tự nhiên, tối ưu đàn kiến (Ant
Colony Optimization - ACO) là cách tiếp cận metaheuristic tương đối mới,
được giới thiệu bởi Dorigo năm 1991 đang được nghiên cứu và ứng dụng
rộng rãi cho các bài toán TƯTH.
Các thuật tốn ACO mơ phỏng cách tìm đường đi của các con kiến
thực. Trên đường đi, mỗi con kiến thực để lại một vết hoá chất gọi là vết mùi

1


(pheromone trail) và theo vết mùi của các con kiến khác để tìm đường đi.
Đường có nồng độ vết mùi càng cao thì càng có nhiều khả năng được các con
kiến chọn. Nhờ cách giao tiếp gián tiếp này đàn kiến tìm được đường đi ngắn
nhất từ tổ tới nguồn thức ăn. Theo ý tưởng đó, các thuật tốn ACO sử dụng
kết hợp thông tin kinh nghiệm (heuristic) và học tăng cường qua các vết mùi
của các con kiến nhân tạo để giải các bài toán TƯTH bằng cách đưa về bài
tốn tìm đường đi tối ưu trên đồ thị cấu trúc tương ứng của bài toán.
Bài luận văn này trình bày phương pháp tối ưu hóa đàn kiến ACO để
giải quyết bài toán lựa chọn tag SNP (tag SNP selection). Luận văn tập trung
nghiên cứu về cách tiếp cận giải bài toán lựa chọn tag SNP, phương pháp và
thuật tốn giải bài tốn này kèm theo chương trình minh họa thuật toán với bộ
dữ liệu cụ thể.

2


CHƯƠNG 1.
TỔNG QUAN VỀ TỐI ƯU ĐÀN KIẾN VÀ BÀI TỐN LỰA
CHỌN TAG SNP
1.1.


Tìm hiểu về SNP

1.1.1. SNP (Single Nucleotide Polymorphisms)
Tính cách hay đặc điểm con người đến từ một chất di truyền được gọi là
DNA, chứa tất cả bốn loại cơ sở, cụ thể là, Adenine (A), thymine (T), Guanine

(G) và Cytosine (C) được liên kết trong một sợi dài. Thực tế rằng con người
khác biệt nhau, chẳng hạn như hiển thị mức độ bệnh khác nhau hoặc phản ứng
khác nhau với thuốc, là do trình tự cơ sở khác nhau trên sợi DNA.
SNP (được phát âm là snip) được viết tắt từ chữ Single Nucleotide
Polymorphisms, là một loại lệch thứ tự DNA được đặc trưng bởi sự thay đổi
của một nucleotide trong một gen, gây ra các gen là khác nhau từ các bộ gen
của các sinh vật khác cùng loài, hoặc là khác nhau từ nhiễm sắc thể khác
trong cùng sống sinh vật. Ví dụ, đoạn DNA ở vị trí tương đương từ hai người
khác nhau như AAGCCTA và AAGCTTA (hình 1) có thể được tìm thấy là có
một sự khác biệt ở một nucleotide. Như vậy, có thể nói rằng SNPs này chứa
hai alen: C và T và hầu hết SNPs chỉ có hai alen.

3


Hình 1.1. Một SNP (Single Nucleotide Polymorphisms)[28]
Đối với một biến thể được coi là một SNP, nó phải xảy ra trong ít nhất
1% dân số. SNPs, tạo nên khoảng 90% của tất cả các biến thể di truyền của
con người, xảy ra mỗi 100 đến 300 căn cứ dọc theo hệ gen của con người 3tỷ-base. Hai trong số ba mỗi SNPs liên quan đến sự thay thế của cytosine (C)
với thymine (T). SNPs có thể xảy ra trong khu vực của bộ gen mã hóa (gen)
và khơng mã hố. Nhiều người SNPs khơng có ảnh hưởng đến chức năng tế
bào, nhưng các nhà khoa học tin rằng những người khác có thể predispose
người bệnh hoặc ảnh hưởng đến phản ứng của họ với một loại thuốc.

SNPs diễn ra bình thường trong suốt DNA của một người. Trung bình
xảy ra một lần trong mỗi 300 nucleotide, có nghĩa là có khoảng 10 triệu SNPs
trong hệ gen của con người. Thông thường nhất, những biến thể này được tìm
thấy trong DNA giữa các gen. Nó được xem như là đánh dấu sinh học, các
nhà khoa học giúp xác định vị trí các gen liên quan đến bệnh. Khi SNPs xảy
ra trong gen hoặc trong một khu vực gần một gen quy định, nó có thể có vai
trị trực tiếp đến sự xuất hiện bệnh bằng cách ảnh hưởng đến chức năng của
gen.

4


Mặc dù hơn 99% trình tự ADN của con người đều giống nhau, sự thay
đổi trong chuỗi DNA có thể có tác động lớn đến việc làm thế nào con người
bệnh, các yếu tố môi trường, chẳng hạn như vi khuẩn, virus, độc tố, các hóa
chất, các loại thuốc và các liệu pháp điều trị khác. Điều này làm cho SNPs có
giá trị cho nghiên cứu y sinh học và phát triển các sản phẩm dược phẩm hoặc
chẩn đoán y khoa.
SNPs cũng tiến hóa ổn định, khơng thay đổi nhiều từ thế hệ này sang
thế hệ khác làm cho chúng ta dễ dàng hơn khi nghiên cứu dân số.
SNP là những biến dạng của chuỗi DNA được tìm thấy với tần suất cao
trong genome người (Taillon – Miller và ctv. 1998). Chúng ta có thể sử dụng
SNP marker để phân lập các yếu tố di truyền có liên quan đến tính trạng bệnh
lý vơ cùng phức tạp (Taillon – Miller và ctv. 1999). Người ta có thể dự đốn
100.000 hoặc nhiều hơn nữa SNP marker (trong quãng 30-kb, hoặc 5 marker
cho một gen) trong genome người (Collins và ctv. 1997).
Những phương pháp đánh giá kiểu gen với kết quả cao địi hỏi một kiến
thức về chuỗi trình tự rất chính xác của SNP. Do đó, bất cứ cơng bố nào về
SNP phải hàm chứa hai nội dung:
(1) Xác định chuỗi trình tự DNA.

(2) Tần số alen.
1.1.2. Phương pháp xác định SNP
Có hai phương pháp để tạo ra SNP, một là dùng trực tiếp mã trình tự di
truyền và thứ hai là phân biệt các đột biến điểm thông qua dùng tách sắc ký lỏng
(DHPLC). Thông thường dùng primer để thiết kế mã trình tự và các đoạn khuyết
đại khoảng 500 cặp base. Chúng ta có thể dùng phương pháp PCR tách hai cá thể
và trộn các cá thể này chung, sau đó đun nóng và lai để thành lập các
5


dulex tương đồng và dị biệt. Các bước để phân tích axit nucleic bằng SNP
như sau:
+

Phân lập DNA nền

+
Chọn lựa primer và thiết kế primer để cho khuếch đại trong
PCR
+

Tách SNP trên bước sóng tương thích (DHPLC)

+

Phối hợp số liệu, mã trình tự DNA và cloning

Theo phân tích chi tiết chuỗi trình tự của những phần nào đó trong
genome, những trình tự DNA này từ hai cá thể khác nhau phần lớn đều giống
nhau, với số cặp base khác biệt nhau nằm trong khoảng cho phép 500 –

1000bp.
Một cặp base ở tại vị trí nào đó biểu thị sự khác nhau của cá thể có tính
chất rất phổ biến và một cặp base khác là “variant” ít phổ biến hơn ở cùng
một vị trí. Nếu cặp base có tính chất ít phổ biến hơn xuất hiện xuất hiện với
xác suất nhỏ hơn 1% trong quần thể, người ta định nghĩa vị trí của cặp base
đó là vị trí một SNP.
Hiện nay, người ta công bố 3.000.000 SNP trong genome người (Rusell
2002), nhiều hơn bất cứ DNA marker đã được công bố trước đó. Kiểu đa hình
như vậy vơ cùng quan trọng trong di truyền người vì chúng đại diện cho hơn
98% tất cả đa hình DNA. Các alen của một SNP có thể dễ dàng được xem xét
bởi phân tích lai với phân tử oligonucleotide nào đó.

6


1.1.3. Tính chất của SNP
SNP có tính chất “diallelic” trong quần thể và tần số alen của nó có thể
được ước đoán dễ dàng trong bất cứ quần thể nào, thông qua một loạt xét
nghiệm kỹ thuật (Kwor và ctv. 1994).
SNP là những marker có tính ổn định rất cao về mặt di truyền.
Là sản phẩm của PCR.
Được tìm thấy với tần suất cao nhất trong genome người.
Độ đa dạng cao.
1.1.4. Ứng dụng và triển vọng của nghiên cứu SNP
+ SNPs bản đồ
Người ta đã phát hiện một chiến lược nghiên cứu giúp cho việc phát hiện
nhanh chóng những SNP từ số liệu lưu trữ EST (Expressed Sequence Tag)
(Picuolt – Newberg và ctv. 1999). Sự kiện phát triển in vitro nhằm khuếch đại
những trình tự ở vị trí đặc biệt, ví dụ như PCR và khám phá marker có tính đa
hình và có thơng tin di truyền cao như microsatallite, STR (short tandem repeat),

sự kiện như vậy đã và đang tạo điều kiện thuận lợi để chúng ta sáng tạo ra những
bản đồ di truyền có mật độ thấp (lom density maps) của người, ứng

dụng có hiệu quả trong lĩnh vực y khoa, thí dụ xét nghiệm bệnh u xơ, bệnh
Huntington, bệnh tiểu đường,
… (Broman và ctv. 1998).
Các nhà khoa học tin rằng SNP bản đồ sẽ giúp họ xác định được nhiều
gen liên quan với các bệnh phức tạp như ung thư, bệnh tiểu đường, bệnh mạch
máu, và một số hình thức của bệnh tâm thần.

7


Một vài nhóm làm việc để tìm SNPs và cuối cùng tạo ra SNP bản đồ hệ
gen của con người. Trong số đó là Mỹ Human Genome Project (HGP) và một
nhóm lớn của các cơng ty dược phẩm được gọi là SNP Consortium, dự án
TSC. Khả năng trùng lặp giữa các nhóm nhỏ là khó xảy ra vì có khoảng 3
triệu SNPs, và phần thưởng tiềm năng của một bản đồ SNP là cao.
Ngoài ý nghĩa nghiên cứu pharmacogenomic trong chẩn đốn, y sinh
học, SNP bản đồ cịn giúp để xác định hàng ngàn các dấu hiệu bổ sung trong
bộ gen, do đó hướng nghiên cứu của bản đồ bộ gen là rất lớn.
+
Làm thế nào SNPs có thể được sử dụng như là yếu tố nguy
cơ phát triển bệnh?
SNPs khơng gây bệnh, nhưng nó có thể giúp xác định khả năng rằng ai
đó sẽ phát triển một căn bệnh cụ thể. Một trong những gen liên quan với bệnh
Alzheimer, apolipoprotein E hoặc APOE, là một ví dụ tốt về cách SNPs ảnh
hưởng đến sự phát triển của bệnh apoE chứa hai SNPs mà kết quả trong ba
alen có thể cho gen này: E2, E3, E4. Mỗi allele khác nhau bởi một cơ sở
DNA, và các sản phẩm protein của mỗi gen sẽ khác bởi một amino axit.

Mỗi cá nhân được thừa hưởng một bản sao mẹ của APOE và một bản sao
nội của APOE. Nghiên cứu cho thấy rằng một người được thừa hưởng ít nhất
một E4 allele sẽ có một cơ hội lớn để phát triển bệnh Alzheimer. Rõ ràng, sự
thay đổi của một amino acid trong các protein E4 làm thay đổi cấu trúc và chức
năng của protein và có nhiều khả năng để làm cho bệnh phát triển. Nếu một
người kế thừa allele E2 thì ít có khả năng phát triển bệnh Alzheimer.

Tất nhiên, SNPs khơng phải là chỉ số tuyệt đối của sự phát triển của
bệnh. Một người nào đó đã được thừa hưởng hai alen E4 khơng bao giờ có thể
phát triển bệnh Alzheimer, trong khi một người đã được thừa hưởng hai alen

8


E2 có thể. APOE chỉ là một gen có liên quan đến bệnh Alzheimer. Giống như
các rối loạn mãn tính như bệnh tim, tiểu đường, hoặc ung thư phổ biến nhất,
bệnh Alzheimer là một bệnh có thể được gây ra bởi các biến thể trong một vài
gen.
+
sự

Hầu hết các SNPs khơng có ảnh hưởng đến sức khỏe hoặc

phát triển.
Một số những khác biệt di truyền đã được chứng minh là rất quan trọng
trong việc nghiên cứu về sức khỏe con người. Các nhà nghiên cứu đã tìm thấy
SNPs có thể giúp dự đoán phản ứng của một cá nhân với một số loại thuốc
nhất định, nhạy cảm với các yếu tố môi trường như chất độc, và nguy cơ phát
triển các bệnh cụ thể.
SNPs cũng có thể được sử dụng để theo dõi các thừa kế của các gen

bệnh trong gia đình. Nghiên cứu trong tương lai sẽ làm việc để xác định SNPs
liên kết với các bệnh phức tạp như bệnh tim, tiểu đường và ung thư.
Nhiều loại bệnh phổ biến ở người không được gây ra bởi một biến thể
di truyền trong một gen duy nhất, nhưng bị ảnh hưởng bởi các tương tác phức
tạp giữa nhiều gen cũng như các yếu tố môi trường và lối sống.
Mặc dù các yếu tố mơi trường và lối sống có ảnh hưởng đến sự phát
triển một căn bệnh, đây là khó khăn để đo lường và đánh giá hiệu quả tổng thể
của họ về quá trình bệnh. Vì vậy, tiềm năng của một cá nhân để phát triển một
bệnh dựa trên gen và các yếu tố di truyền.
Yếu tố di truyền cũng có thể trao nhạy cảm hoặc kháng bệnh và xác
định mức độ nghiêm trọng hoặc tiến triển của bệnh. Bởi vì chúng ta vẫn chưa
biết được tất cả các yếu tố liên quan ở trong những đường phức tạp, các nhà
nghiên cứu đã tìm thấy nó khó khăn để phát triển các xét nghiệm sàng lọc cho
9


hầu hết các bệnh và các rối loạn. Bằng cách nghiên cứu mối liên quan của
SNP với một đặc điểm bệnh, các nhà nghiên cứu đã phát hiện các gen có liên
quan với một căn bệnh.
Xác định và hiểu biết về vai trò của yếu tố di truyền trong bệnh cũng sẽ
cho phép các nhà nghiên cứu đánh giá tốt hơn vai trò của yếu tố di truyền,
chẳng hạn như hành vi, chế độ ăn uống, lối sống, và hoạt động thể chất có trên
bệnh. - Bởi vì yếu tố di truyền cũng ảnh hưởng đến phản ứng của một người
điều trị bằng thuốc, đa hình DNA chẳng hạn như SNPs sẽ là hữu ích trong
việc giúp các nhà nghiên cứu xác định và hiểu lý do tại sao các cá nhân khác
nhau trong khả năng của mình có thể hấp thụ các loại thuốc nhất định, cũng
như để xác định lý do tại sao một cá nhân có thể trải nghiệm một tác dụng phụ
bất lợi cho một loại thuốc cụ thể. Vì vậy, việc phát hiện gần đây của SNPs hứa
hẹn mang đến một cuộc cách mạng không chỉ là quá trình phát hiện bệnh
nhưng thực tế thuốc phịng ngừa và chữa bệnh.

+ SNPs và chẩn đốn bệnh:
Vật liệu di truyền của mỗi người có một mơ hình SNP độc đáo được tạo
thành nhiều biến thể di truyền khác nhau. Các nhà nghiên cứu đã tìm thấy rằng
hầu hết các SNPs không chịu trách nhiệm cho một bệnh tật nào. Thay vào đó, nó
như là các dấu hiệu sinh học để xác định chính xác một căn bệnh trên bản đồ hệ
gen của con người, bởi vì nó thường nằm gần một gen được tìm thấy có liên
quan đến một căn bệnh nào đó. Thỉnh thoảng, một SNP thực sự có thể gây ra một
căn bệnh, và do đó, có thể được sử dụng để tìm kiếm và cô lập các gen gây bệnh.
Để tạo một thử nghiệm di truyền, gen gây bệnh nào đó đã được xác định bởi các
nhà khoa học thu thập mẫu máu từ một nhóm các cá nhân bị ảnh hưởng bởi căn
bệnh này và phân tích DNA của họ cho các mẫu SNP. Tiếp

10


theo, các nhà nghiên cứu so sánh các mơ hình với các mẫu thu được bằng cách
phân tích ADN từ một nhóm các cá nhân khơng bị ảnh hưởng bởi căn bệnh này.

Loại so sánh này, được gọi là "Hiệp hội nghiên cứu", có thể phát hiện
sự khác biệt giữa các mơ hình SNP của hai nhóm, qua đó cho thấy đó là mơ
hình rất có thể liên quan với gen gây bệnh. Cuối cùng, hồ sơ SNP là đặc trưng
của nhiều loại bệnh khác sẽ được thành lập. Sau đó, chỉ là vấn đề thời gian,
các bác sĩ có thể xác định một người có thể nhạy cảm với một căn bệnh nào
đó chỉ bằng cách phân tích các mẫu DNA của họ cho mơ hình cụ thể SNP.

1.2.

Bài toán lựa chọn Tag SNPs và các cách tiếp cận hiện nay
Lựa chọn tag SNP1 (tag SNP selection) là bài tốn có ý nghĩa quan trọng


trong nghiên cứu về liên kết giữa gene và bệnh ở người - nhằm tìm ra các
gene gây ra kiểu hình bệnh nào đó, hướng tới việc tìm cách điều trị phù hợp.
Hệ gene người chứa khoảng 3 tỉ cặp bazơ và hệ gene hai người bất kì
giống nhau tới 99.9%. SNP (single nucleotide polymorphism, thường dịch ra
tiếng Việt là đa hình đơn nucleotide) của một lồi là những vị trí trên hệ gene
có sự khác biệt giữa các cá thể trong hơn 1% số dân lồi đó. Trong quần thể,
SNP có thể nhận hơn một giá trị (A/C/G/T), phổ biến nhất là hai giá trị. Hệ
gene người chứa khoảng 10 triệu SNP. Khi nghiên cứu liên kết giữa gene và
bệnh nào đó, người ta sẽ phân tích hồ sơ SNP của một quần thể gồm những
người mắc bệnh và những người không mắc bệnh. Mỗi hồ sơ SNP thường
tương đương với haplotype của cá thể đó. Cho đến giờ, việc xác định thơng
tin cho tất cả 10 triệu SNP này bằng các công cụ công nghệ sinh học trên quần
thể lớn như vậy vẫn là thách thức lớn.

1

Môṭsốtài liêụ dùng thuâṭngữtagging SNP.
11


Lựa chọn tag SNP là việc chọn ra một tập con các SNP có thể đại diện
hiệu quả cho tập tồn bộ các SNP, giúp giảm đáng kể chi phí cho xác định
kiểu gene và haplotype, mà không giảm khả năng phát hiêṇ liên kết với bênh
trong các nghiên cứu nói trên. Các SNP được chọn gọi là tag SNP.
Hình 1.1 minh họa các khái niệm SNP, haplotype vàtag SNP và cách sử dungg̣
các thông tin này trong dự án HapMap.

Hiǹ h 1.2.Ba bước xây dưngg̣ HapMap [1]
a)


Xác đinḥ các SNP từ các mâũ DNA trên các cá thểkhác nhau.

b)

Các SNP liên tiếp di truyền cùng nhau thìđược ghép

thành haplotype
c)

Các tag SNP trong môṭ bô g̣haplotype lànhững SNP nhâṇ diêṇ

đươcg̣ duy nhất các haplotype đó. Ở ví du g̣trên, người ta chỉcần thưcg̣
hiêṇ xác đinḥ kiểu gene cho ba tag SNP là cóthểbiết đươcg̣ cá
thểđang xét có haplotype kiểu nào

12


Lưạ choṇ tag SNP đa ̃được chứng minh làmột bài tốn NP-khó[20] và
tinh́ tốn thơng minh (computational intelligence) đang dần trở thành cơng cu g̣
quan trọng cho bài tốn phức tạp này [3]. Các thuâṭtoán nhằm lưạ choṇ tag
SNP nhìn chung chia thành hai hướng: tìm dưạ vào khối (block-based) và tìm
không dưạ vào khối (block-free). Tiếp cận tìm dưạ vào khối lâpg̣ luâṇ làhê g̣gene
của con người cóthểchia thành các khối; với mỗi khối này hầu hết các cáthể
trong quần thểđều thuộc môṭ tâpg̣ nhỏcác haplotype [4]; ho g̣thưcg̣ hiêṇ phân
hoạch thành các khối rồi đi tim
̀ tag SNP cho mỗi khối (vid́ u:g̣[5], [6] và[7]). Các
nhóm khác nhau cónhững đinh nghiã vềkhối khơng nhất qn. Vit̀ hếcó những
tác giảchoṇ tiếp câṇ tìm không dưạ vào khối - tức đi tìm tâpg̣ tag SNP là tập con
có thểđaịdiêṇ cho tâpg̣ toàn bộ các SNP ([8], [9]). Các phương pháp này không

cần thưcg̣ hiện phân hoach thành khối.
GTagger [7] và MACA [10] là điển hình cho tiếp cận tính toán mềm đề
xuất trong thời gian gần đây giải bài toán lựa chọn tag SNP theo hướng ti m
̀ dựa
vào khối. Bài tốn có thể được phát biểu một cách hình thức như sau: Cho tâpg̣

m
hi

haplotype H = {h1,h2, . . .,hm} lấy từ mơṭquần thểnào đó. Mỗi haplotype

(đại diện cho một cá thể) biểu diễn bằng một vector n SNP hi= {s1, s2, . . ., sn}
với si ϵ {0,1}. Tim
̀ môṭtâpg̣ SNP T nhỏhơn tập n SNP này, T = {t 1, t2,. . ., tk}
(với k làsốtag SNP đươcg̣ chọn) đểđaịdiêṇ cho mơṭphần (hay tồn bộ) các
haplotype trong H.
GTagger sử dụng lược đồ giải thuâṭdi truyền, trên một quần thể có kích
thước bằng số lươngg̣ haplotype đươcg̣ cho. Trong đó, lời giải được biểu diễn dưới
dạng một vector nhị phân n chiều, SNP thứ j được chọn làm tag SNP thì thành
phần tương ứng trong vector được đặt là 1, ngược lại đặt là 0. Hàm fitness được
chọn để vừa thể hiện khả năng dự đoán của tập tag SNP và vừa thểhiêṇ

13


tinh́ đa dangg̣ (đo bằng entropy) của tâpg̣ haplotype ứng với tập tag đó. Tốc độ
trao đổi chéo và đột biến được chọn để giữ ổn định kích thước của quần thể,
làm tăng fitness và hướng tới sinh lời giải có ít thành phần bằng 1, nhiều
thành phần bằng 0. Trước khi áp dụng giải thuật, nhóm tác giả tiền xử lý dữ
liệu bằng cách lọc ra những cặp SNP có tương quan lớn hơn 95%, mỗi cặp

như vậy bỏ đi 1 SNP. Kết quả thực nghiệm trên cả dữ liệu mơ phỏng và dữ
liệu thực cho thấy GTagger tìm được lời giải tối ưu trong hầu hết các trường
hợp và chạy nhanh hơn thuật tốn tìm chính xác khi số lượng SNP lớn.
MACA được thiết kế để chạy thuật tốn tối ưu hóa đàn kiến ACA ở ba
mức. Mức thứ nhất chia dãy SNP thành các nhóm t SNP liên tiếp (nhóm cuối
có thể ít hơn t SNP). Mỗi nhóm này cấu thành một đỉnh trên đồ thị cấu trúc. Ở
mỗi thế hệ, các con kiến xuất phát trên một đỉnh bất kì, chọn đỉnh tiếp theo
dựa trên mùi và kinh nghiệm tính theo các đại lượng coverage, repeatability
và margin cho tới khi đường đi của nó thỏa mãn điều kiện xác định. Đường đi
tốt nhất được ghi lại để xét điều kiện dừng của thuật toán. Mùi ở các đỉnh
được cập nhật theo đường đi của tất cả kiến. Ở đây tác giả sử dụng hệ số bay
hơi ngẫu nhiên. Mức thứ hai thực hiện trên tập SNP đã chọn bởi mức thứ
nhất, số SNP trong mỗi đỉnh giảm xuống còn t/2. Tương tự, mức thứ ba, mỗi
đỉnh chỉ chứa một SNP. Kết quả thực nghiệm cho thấy MACA nhanh và ổn
định hơn các thuật tốn tiến hóa khác (GTagger, NSGA-II [11]) mà lại tìm ra
được tập tag SNP nhỏ hơn.

14


1.3. Tổng quan về tối ưu đàn kiến
ACO- Thuật toán phỏng bầy kiến mô phỏng hành vi của bầy kiến trong
tự nhiên nhằm tìm kiếm đường đi ngắn nhất giữa tổ kiến và nguồn thức ăn
dựa trên mật đồ mùi (Peromone) mà các con kiến để lại trên đường đi.

Hình 1.3.Hoạt động của bầy kiến trong thực tế [27]
Hình 1.2 ví dụ về hoạt động của bầy kiến trong thực tế. Bầy kiến di
chuyển từ điểm A là nơi có thực phẩm thẳng tới tổ là điểm E và ngược lại trong
hình 1.2.a. Một vật cản trở xuất hiện trên đường đi của điểm tại điểm B như hình
1.2.b, do đó tại điểm B hoặc D, bầy kiến phải quyết định rẽ phải hoặc rẽ trái. Sự

lựa chọn sẽ bị tác động lớn khi xuất hiện mùi hương thu hút của một con khác.
Nếu mùi hương thu hút từ bên phải càng lớn sẽ tạo cho bầy kiến một động lực
mạnh mẽ hơn và do đó xác xuất rẽ phải sẽ lớn hơn. Con kiến đầu đàn đến điểm B
(hoặc D) sẽ có xác suất như nhau cho rẽ phải hay rẽ trái (vì khơng có mùi hương
thu hút trước đó trên cả hai tuyến). Bởi vì tuyến B-C-D ngắn hơn B-H-D, con
kiến đầu đàn sau đó sẽ đến điểm D trước khi con kiến đầu đàn đi
15


×