Tải bản đầy đủ (.pdf) (68 trang)

Lựa chọn tag SNP dựa vào phương pháp tối ưu đàn kiến (LV thạc sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.62 MB, 68 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
THÔNG TIN VÀ TRUYỀN THÔNG

VŨ ĐỨC ANH

LỰA CHỌN TAG SNP DỰA VÀO PHƯƠNG PHÁP
TỐI ƯU ĐÀN KIẾN

LUẬN VĂN THẠC SĨ KHOA HỌC

Thái Nguyên - Năm 2016

Số hóa bởi Trung tâm Học liệu – ĐHTN




ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
THÔNG TIN VÀ TRUYỀN THÔNG

VŨ ĐỨC ANH

LỰA CHỌN TAG SNP DỰA VÀO PHƯƠNG PHÁP
TỐI ƯU ĐÀN KIẾN
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.0101

LUẬN VĂN THẠC SĨ KHOA HỌC


NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. ĐỖ ĐỨC ĐÔNG

Thái Nguyên - Năm 2016
Số hóa bởi Trung tâm Học liệu – ĐHTN




LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi, dưới sự chỉ dẫn
của TS. Đỗ Đức Đông. Các số liệu, kết quả nêu trong luận văn là trung thực,
bảo đảm tính khách quan, luận văn này cho đến nay chưa được bảo vệ tại bất
kỳ hội đồng nào và chưa hề được công bố trên bất kỳ phương tiện nào khác.
Các tài liệu tham khảo có nguồn gốc xuất xứ rõ ràng.
Tác giả xin chịu trách nhiệm về những lời cam đoan trên.

Thái Nguyên, ngày 20 tháng 8 năm 2016
Tác giả luận văn

Vũ Đức Anh

Số hóa bởi Trung tâm Học liệu – ĐHTN


i


LỜI CẢM ƠN


Em xin chân thành cảm ơn thầy giáo TS. Đỗ Đức Đông đã trực tiếp giao
cho em đề tài, tận tình hướng dẫn và tạo mọi điều kiện cho em hoàn thành luận
văn.
Em xin chân thành cảm ơn các thầy cô giáo, các cán bộ nhân viên phòng
đào tạo, ban lãnh đạo Trường Đại học Công nghệ thông tin và Truyền thông đã
giúp đỡ tạo điều kiện cho em hoàn thành bản luận văn này.
Cuối cùng, em xin chân thành cảm ơn sự quan tâm giúp đỡ của gia đình,
bạn bè và tập thể lớp Cao học K13H đã cổ vũ động viên em hoàn thành tốt luận
văn của mình.

Thái Nguyên, ngày .... tháng .... năm 2016
Học viên Vũ Đức Anh

Số hóa bởi Trung tâm Học liệu – ĐHTN


ii


MỤC LỤC
.............................................................................................................................................................1
LỜI CAM ĐOAN .............................................................................................................................. i
LỜI CẢM ƠN ................................................................................................................................... ii
MỤC LỤC........................................................................................................................................ iii
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ......................................................................v
DANH MỤC CÁC BẢNG ............................................................................................................. vii
DANH MỤC CÁC HÌNH ............................................................................................................. viii
MỞ ĐẦU ............................................................................................................................................1
CHƯƠNG 1. ......................................................................................................................................3

TỔNG QUAN VỀ TỐI ƯU ĐÀN KIẾN VÀ BÀI TOÁN LỰA CHỌN TAG SNP .....................3
1.1. Tìm hiểu về SNP .....................................................................................................................3
1.1.1.

SNP (Single Nucleotide Polymorphisms) ...................................................................3

1.1.2.

Phương pháp xác định SNP.........................................................................................5

1.1.3.

Tính chất của SNP.......................................................................................................7

1.1.4.

Ứng dụng và triển vọng của nghiên cứu SNP .............................................................7

1.2. Bài toán lựa chọn Tag SNPs và các cách tiếp cận hiện nay ..............................................11
1.3. Tổng quan về tối ưu đàn kiến..............................................................................................15
1.4. Mục tiêu nghiên cứu của luận văn ......................................................................................21
1.5. Bố cục của luận văn .............................................................................................................21
CHƯƠNG 2. ....................................................................................................................................23
MỘT SỐ VẤN ĐỀ TRONG LỰA CHỌN TAG SNP BẰNG PHƯƠNG PHÁP TỐI ƯU ĐÀN
KIẾN ................................................................................................................................................23
2.1. Tìm hiểu về bài toán tối ưu tổ hợp tổng quát ....................................................................23
2.2. Tối ưu đàn kiến ....................................................................................................................25
2.2.1. Từ kiến tự nhiên đến kiến nhân tạo .................................................................................25
a/ Kiến tự nhiên ..............................................................................................................26
b/ Kiến nhân tạo .............................................................................................................28

2.2.2. Phương pháp ACO cho bài toán TƯTH tổng quát ..........................................................30
a/ Đồ thị cấu trúc ............................................................................................................30
b/ Mô tả thuật toán ACO tổng quát ................................................................................32
2.2.3. Đánh giá ảnh hưởng của các tham số trong thuật toán ACO ..........................................35
a/ Thông tin heuristic .....................................................................................................35
b/ Số lượng kiến .............................................................................................................36
Số hóa bởi Trung tâm Học liệu – ĐHTN


iii


c/ Tham số bay hơi .........................................................................................................36
2.3. Bài toán lựa chọn tag SNPs .................................................................................................37
2.4. Phương pháp giải bài toán lựa chọn SNPs bằng thuật toán tối ưu hóa đàn kiến- Thuật
toán MACA..................................................................................................................................38
2.4.1. Thuật toán đàn kiến .........................................................................................................38
2.4.2. Kiến quyết định và cập nhật mùi.....................................................................................39
2.4.3. Hiệu chỉnh quy tắc cập nhật mùi – áp dụng quy tắc SMMAS ........................................40
2.4.4. Heuristic ..........................................................................................................................41
2.4.5. Thuật giải MACA ...........................................................................................................42
CHƯƠNG 3. ....................................................................................................................................45
CHƯƠNG TRÌNH THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ ...........................................45
3.1. Mô tả thực nghiệm ...................................................................................................................45
3.2. Kết quả thực nghiệm và đánh giá ...........................................................................................46
KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO .............................................................50
TÀI LIỆU THAM KHẢO ..............................................................................................................51
PHỤ LỤC .........................................................................................................................................55
A. Mã lệnh cho thuật toán ACA ................................................................................................55
B. Mã lệnh khi sử dụng quy tắc SMASS để cập nhật mùi: .....................................................57

C. Mã lệnh cho thuật toán MACA .............................................................................................57

Số hóa bởi Trung tâm Học liệu – ĐHTN


iv


DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Kí hiệu và
chữ viết tắt

Ý nghĩa

𝜏𝑚𝑎𝑥

Cận trên của vết mùi

𝜏𝑚𝑖𝑛

Cận dưới của vết mùi

𝜏𝑚𝑖𝑑

Cận giữa của vết mùi

𝜏0

Vết mùi được khởi tạo ban đầu


𝜏𝑖𝑗

Vết mùi trên cạnh

𝜏𝑖

Vết mùi trên đỉnh





𝑖𝑗

Thông tin heuristic trên cạnh

𝑗

Thông tin heuristic trên đỉnh

𝑁𝐶

Số vòng lặp trong thuật toán ACO

𝑁𝑎

Số kiến sử dụng trong thuật toán ACO

𝜌


Tham số bay hơi

3-LAS

Three-Level Ant System (Hệ kiến ba mức)

ACO

Ant Colony Optimization (Tối ưu đàn kiến)

ACS

Ant Colony System (Hệ đàn kiến)

AS

Ant System (Hệ kiến)

G-best

Global-best (Lời giải tốt nhất tính đến thời điểm hiện tại)

I-best

Iteration-best (Lời giải tốt nhất trong bước lặp hiện tại)

Số hóa bởi Trung tâm Học liệu – ĐHTN



v


MLAS

Multi-level Ant System (Hệ kiến đa mức)

MMAS

Max-Min Ant System (Hệ kiến Max Min)

SMMAS

Smoothed Max-Min Ant System (Hệ kiến Max Min trơn)

TSP

Bài toán người du lịch

Số hóa bởi Trung tâm Học liệu – ĐHTN


vi


DANH MỤC CÁC BẢNG

Bảng

Trang


Bảng 2.1. Biểu diễn nhị phân của haplotype và SNP……………..

44

Bảng 3.1. Bảng kết quả thực nghiệm khi số lượng haplotype cố
định và số lượng SNP thay đổi……………………………………

46

Bảng 3.2. Thời gian chạy thực nghiệm khi số lượng haplotype cố
định và số lượng SNP thay đổi……………………………………

47

Bảng 3.3. Bảng kết quả khi số lượng SNP cố định và số lượng
haplotype thay đổi…………………………………………………

48

Bảng 3.4. Thời gian chạy thực nghiệm khi số lượng haplotype cố
định và số lượng SNP thay đổi……………………………………

48

Số hóa bởi Trung tâm Học liệu – ĐHTN


vii



DANH MỤC CÁC HÌNH

Hình

Trang

Hình 1.1. Một SNP (Single Nucleotide Polymorphisms)

4

Hình 1.2. Ba bước xây dựng HapMap ……………………………

12

Hình 1.3. Hoạt động của bầy kiến trong thực tế…………………..

15

Hình 1.4. Ví dụ về đàn kiến nhân tạo…...………………………...

16

Hình 2.1. Thực nghiệm cây cầu đôi…………………………….....

27

Hình 2.2. Thí nghiệm bổ sung…………………………………….

28


Hình 2.3. Đồ thị cấu trúc tổng quát cho bài toán cực trị hàm..........

32

Hình 2.4. Thuật toán ACO………………………………………...

34

Hình 2.5. Tổng quan về thuật toán MACA……………………….

44

Số hóa bởi Trung tâm Học liệu – ĐHTN


viii


MỞ ĐẦU
Nghiên cứu về mối liên kết giữa gene và bệnh ở người là một trong những
vấn đề nghiên cứu thuộc lĩnh vực Tin sinh học, một trong những lĩnh vực khoa
học liên ngành đang thu hút được sự quan tâm của nhiều nhà khoa học thuộc
nhiều lĩnh vực có liên quan, trong đó có chuyên ngành “Khoa học máy tính”.
Lựa chọn tag SNP (tag SNP selection) là bài toán có ý nghĩa quan trọng
trong nghiên cứu về liên kết giữa gene và bệnh ở người - nhằm tìm ra các gene
gây ra kiểu hình bệnh nào đó, hướng tới việc tìm cách điều trị
phù hợp.
Bài toán lựa cho ̣n tag SNP đã đươ ̣c chứng minh là bài toán thuộc lớp NPkhó [20], thuộc thể loại các bài toán tối ưu tổ hợp (sau đây viết tắt là TƯTH)
và hiện nay việc lựa chọn phương pháp giải bài toán trên đang là vấn đề được

quan tâm của các nhà nghiên cứu. Với các bài toán TƯTH, trừ các bài toán cỡ
nhỏ có thể tìm lời giải bằng cách tìm kiếm vét cạn, còn lại thì thường không thể
tìm được lời giải tối ưu. Đối với các bài toán cỡ lớn không có phương pháp giải
đúng, hiện nay, người ta thường tìm lời giải gần đúng nhờ các thuật toán mô
phỏng tự nhiên như giải thuật di truyền (Genetic Algorithm - GA), tối ưu bầy
đàn (Particle Swarm Optimization -PSO)…
Trong các phương pháp mô phỏng tự nhiên, tối ưu đàn kiến (Ant Colony
Optimization - ACO) là cách tiếp cận metaheuristic tương đối mới, được giới
thiệu bởi Dorigo năm 1991 đang được nghiên cứu và ứng dụng rộng rãi cho các
bài toán TƯTH.
Các thuật toán ACO mô phỏng cách tìm đường đi của các con kiến thực.
Trên đường đi, mỗi con kiến thực để lại một vết hoá chất gọi là vết mùi

1


(pheromone trail) và theo vết mùi của các con kiến khác để tìm đường đi.
Đường có nồng độ vết mùi càng cao thì càng có nhiều khả năng được các con
kiến chọn. Nhờ cách giao tiếp gián tiếp này đàn kiến tìm được đường đi ngắn
nhất từ tổ tới nguồn thức ăn. Theo ý tưởng đó, các thuật toán ACO sử dụng kết
hợp thông tin kinh nghiệm (heuristic) và học tăng cường qua các vết mùi của
các con kiến nhân tạo để giải các bài toán TƯTH bằng cách đưa về bài toán tìm
đường đi tối ưu trên đồ thị cấu trúc tương ứng của bài toán.
Bài luận văn này trình bày phương pháp tối ưu hóa đàn kiến ACO để giải
quyết bài toán lựa chọn tag SNP (tag SNP selection). Luận văn tập trung nghiên
cứu về cách tiếp cận giải bài toán lựa chọn tag SNP, phương pháp và thuật toán
giải bài toán này kèm theo chương trình minh họa thuật toán với bộ dữ liệu cụ
thể.

2



CHƯƠNG 1.
TỔNG QUAN VỀ TỐI ƯU ĐÀN KIẾN VÀ BÀI TOÁN LỰA
CHỌN TAG SNP
1.1.

Tìm hiểu về SNP

1.1.1. SNP (Single Nucleotide Polymorphisms)
Tính cách hay đặc điểm con người đến từ một chất di truyền được gọi là
DNA, chứa tất cả bốn loại cơ sở, cụ thể là, Adenine (A), thymine (T), Guanine
(G) và Cytosine (C) được liên kết trong một sợi dài. Thực tế rằng con người
khác biệt nhau, chẳng hạn như hiển thị mức độ bệnh khác nhau hoặc phản ứng
khác nhau với thuốc, là do trình tự cơ sở khác nhau trên sợi DNA.
SNP

(được

phát

âm



snip)

được

viết


tắt

từ

chữ

Single

Nucleotide Polymorphisms, là một loại lệch thứ tự DNA được đặc trưng bởi sự
thay đổi của một nucleotide trong một gen, gây ra các gen là khác nhau từ các
bộ gen của các sinh vật khác cùng loài, hoặc là khác nhau từ nhiễm sắc thể khác
trong cùng sống sinh vật. Ví dụ, đoạn DNA ở vị trí tương đương từ hai người
khác nhau như AAGCCTA và AAGCTTA (hình 1) có thể được tìm thấy là có
một sự khác biệt ở một nucleotide. Như vậy, có thể nói rằng SNPs này chứa hai
alen: C và T và hầu hết SNPs chỉ có hai alen.

3


Hình 1.1. Một SNP (Single Nucleotide Polymorphisms)[28]
Đối với một biến thể được coi là một SNP, nó phải xảy ra trong ít nhất
1% dân số. SNPs, tạo nên khoảng 90% của tất cả các biến thể di truyền của con
người, xảy ra mỗi 100 đến 300 căn cứ dọc theo hệ gen của con người 3-tỷ-base.
Hai trong số ba mỗi SNPs liên quan đến sự thay thế của cytosine (C) với
thymine (T). SNPs có thể xảy ra trong khu vực của bộ gen mã hóa (gen) và
không mã hoá. Nhiều người SNPs không có ảnh hưởng đến chức năng tế bào,
nhưng các nhà khoa học tin rằng những người khác có thể predispose người
bệnh hoặc ảnh hưởng đến phản ứng của họ với một loại thuốc.
SNPs diễn ra bình thường trong suốt DNA của một người. Trung bình

xảy ra một lần trong mỗi 300 nucleotide, có nghĩa là có khoảng 10 triệu SNPs
trong hệ gen của con người. Thông thường nhất, những biến thể này được tìm
thấy trong DNA giữa các gen. Nó được xem như là đánh dấu sinh học, các nhà
khoa học giúp xác định vị trí các gen liên quan đến bệnh. Khi SNPs xảy ra trong
gen hoặc trong một khu vực gần một gen quy định, nó có thể có vai trò trực tiếp
đến

sự

xuất

hiện bệnh

bằng

cách

của gen.

4

ảnh

hưởng

đến

chức

năng



Mặc dù hơn 99% trình tự ADN của con người đều giống nhau, sự thay
đổi trong chuỗi DNA có thể có tác động lớn đến việc làm thế nào con người
bệnh, các yếu tố môi trường, chẳng hạn như vi khuẩn, virus, độc tố, các hóa
chất, các loại thuốc và các liệu pháp điều trị khác. Điều này làm cho SNPs có
giá trị cho nghiên cứu y sinh học và phát triển các sản phẩm dược phẩm hoặc
chẩn đoán y khoa.
SNPs cũng tiến hóa ổn định, không thay đổi nhiều từ thế hệ này sang thế
hệ khác làm cho chúng ta dễ dàng hơn khi nghiên cứu dân số.
SNP là những biến dạng của chuỗi DNA được tìm thấy với tần suất
cao trong genome người (Taillon – Miller và ctv. 1998). Chúng ta có thể sử
dụng SNP marker để phân lập các yếu tố di truyền có liên quan đến tính trạng
bệnh lý vô cùng phức tạp (Taillon – Miller và ctv. 1999). Người ta có thể dự
đoán 100.000 hoặc nhiều hơn nữa SNP marker (trong quãng 30-kb, hoặc 5
marker cho một gen) trong genome người (Collins và ctv. 1997).
Những phương pháp đánh giá kiểu gen với kết quả cao đòi hỏi một kiến
thức về chuỗi trình tự rất chính xác của SNP. Do đó, bất cứ công bố nào về
SNP phải hàm chứa hai nội dung:
(1) Xác định chuỗi trình tự DNA.
(2) Tần số alen.
1.1.2. Phương pháp xác định SNP
Có hai phương pháp để tạo ra SNP, một là dùng trực tiếp mã trình tự
di truyền và thứ hai là phân biệt các đột biến điểm thông qua dùng tách sắc ký
lỏng (DHPLC). Thông thường dùng primer để thiết kế mã trình tự và các đoạn
khuyết đại khoảng 500 cặp base. Chúng ta có thể dùng phương pháp PCR tách
hai cá thể và trộn các cá thể này chung, sau đó đun nóng và lai để thành lập các
5



dulex tương đồng và dị biệt. Các bước để phân tích axit nucleic bằng SNP như
sau:
+ Phân lập DNA nền
+ Chọn lựa primer và thiết kế primer để cho khuếch đại trong PCR
+ Tách SNP trên bước sóng tương thích (DHPLC)
+ Phối hợp số liệu, mã trình tự DNA và cloning
Theo phân tích chi tiết chuỗi trình tự của những phần nào đó
trong genome, những trình tự DNA này từ hai cá thể khác nhau phần lớn đều
giống nhau, với số cặp base khác biệt nhau nằm trong khoảng cho phép 500 –
1000bp.
Một cặp base ở tại vị trí nào đó biểu thị sự khác nhau của cá thể có tính
chất rất phổ biến và một cặp base khác là “variant” ít phổ biến hơn ở cùng một
vị trí. Nếu cặp base có tính chất ít phổ biến hơn xuất hiện xuất hiện với xác suất
nhỏ hơn 1% trong quần thể, người ta định nghĩa vị trí của cặp base đó là vị trí
một SNP.
Hiện nay, người ta công bố 3.000.000 SNP trong genome người (Rusell
2002), nhiều hơn bất cứ DNA marker đã được công bố trước đó. Kiểu đa hình
như vậy vô cùng quan trọng trong di truyền người vì chúng đại diện cho hơn
98% tất cả đa hình DNA. Các alen của một SNP có thể dễ dàng được xem xét
bởi phân tích lai với phân tử oligonucleotide nào đó.

6


1.1.3. Tính chất của SNP
SNP có tính chất “diallelic” trong quần thể và tần số alen của nó có
thể được ước đoán dễ dàng trong bất cứ quần thể nào, thông qua một loạt xét
nghiệm kỹ thuật (Kwor và ctv. 1994).
 SNP là những marker có tính ổn định rất cao về mặt di truyền.
 Là sản phẩm của PCR.

 Được tìm thấy với tần suất cao nhất trong genome người.
 Độ đa dạng cao.
1.1.4. Ứng dụng và triển vọng của nghiên cứu SNP
+ SNPs bản đồ
Người ta đã phát hiện một chiến lược nghiên cứu giúp cho việc phát
hiện nhanh chóng những SNP từ số liệu lưu trữ EST (Expressed Sequence Tag)
(Picuolt – Newberg và ctv. 1999). Sự kiện phát triển in vitro nhằm khuếch đại
những trình tự ở vị trí đặc biệt, ví dụ như PCR và khám phá marker có tính đa
hình và có thông tin di truyền cao như microsatallite, STR (short tandem
repeat), sự kiện như vậy đã và đang tạo điều kiện thuận lợi để chúng ta sáng tạo
ra những bản đồ di truyền có mật độ thấp (lom density maps) của người, ứng
dụng



hiệu

trong

quả

lĩnh

vực

y

khoa, thí dụ xét nghiệm bệnh u xơ, bệnh Huntington, bệnh tiểu đường,
… (Broman và ctv. 1998).
Các nhà khoa học tin rằng SNP bản đồ sẽ giúp họ xác định được nhiều

gen liên quan với các bệnh phức tạp như ung thư, bệnh tiểu đường, bệnh mạch
máu, và một số hình thức của bệnh tâm thần.

7


Một vài nhóm làm việc để tìm SNPs và cuối cùng tạo ra SNP bản đồ
hệ gen của con người. Trong số đó là Mỹ Human Genome Project (HGP) và
một nhóm lớn của các công ty dược phẩm được gọi là SNP Consortium, dự án
TSC. Khả năng trùng lặp giữa các nhóm nhỏ là khó xảy ra vì có khoảng 3 triệu
SNPs, và phần thưởng tiềm năng của một bản đồ SNP là cao.
Ngoài ý nghĩa nghiên cứu pharmacogenomic trong chẩn đoán, y sinh
học, SNP bản đồ còn giúp để xác định hàng ngàn các dấu hiệu bổ sung trong
bộ gen, do đó hướng nghiên cứu của bản đồ bộ gen là rất lớn.
+ Làm thế nào SNPs có thể được sử dụng như là yếu tố nguy cơ
phát triển bệnh?
SNPs không gây bệnh, nhưng nó có thể giúp xác định khả năng rằng ai
đó sẽ phát triển một căn bệnh cụ thể. Một trong những gen liên quan với
bệnh Alzheimer, apolipoprotein E hoặc APOE, là một ví dụ tốt về cách SNPs
ảnh hưởng đến sự phát triển của bệnh apoE chứa hai SNPs mà kết quả trong ba
alen có thể cho gen này: E2, E3, E4. Mỗi allele khác nhau bởi một cơ sở DNA,
và các sản phẩm protein của mỗi gen sẽ khác bởi một amino axit.
Mỗi cá nhân được thừa hưởng một bản sao mẹ của APOE và một bản
sao nội của APOE. Nghiên cứu cho thấy rằng một người được thừa hưởng ít
nhất một E4 allele sẽ có một cơ hội lớn để phát triển bệnh Alzheimer. Rõ ràng,
sự thay đổi của một amino acid trong các protein E4 làm thay đổi cấu trúc và
chức năng của protein và có nhiều khả năng để làm cho bệnh phát triển. Nếu
một người kế thừa allele E2 thì ít có khả năng phát triển bệnh Alzheimer.
Tất nhiên, SNPs không phải là chỉ số tuyệt đối của sự phát triển của
bệnh. Một người nào đó đã được thừa hưởng hai alen E4 không bao giờ có thể

phát triển bệnh Alzheimer, trong khi một người đã được thừa hưởng hai alen

8


E2 có thể. APOE chỉ là một gen có liên quan đến bệnh Alzheimer. Giống như
các rối loạn mãn tính như bệnh tim, tiểu đường, hoặc ung thư phổ biến nhất,
bệnh Alzheimer là một bệnh có thể được gây ra bởi các biến thể trong một
vài gen.
+ Hầu hết các SNPs không có ảnh hưởng đến sức khỏe hoặc sự
phát triển.
Một số những khác biệt di truyền đã được chứng minh là rất quan trọng
trong việc nghiên cứu về sức khỏe con người. Các nhà nghiên cứu đã tìm thấy
SNPs có thể giúp dự đoán phản ứng của một cá nhân với một số loại thuốc nhất
định, nhạy cảm với các yếu tố môi trường như chất độc, và nguy cơ phát triển
các bệnh cụ thể.
SNPs cũng có thể được sử dụng để theo dõi các thừa kế của các gen bệnh
trong gia đình. Nghiên cứu trong tương lai sẽ làm việc để xác định SNPs liên
kết với các bệnh phức tạp như bệnh tim, tiểu đường và ung thư.
Nhiều loại bệnh phổ biến ở người không được gây ra bởi một biến thể
di truyền trong một gen duy nhất, nhưng bị ảnh hưởng bởi các tương tác phức
tạp giữa nhiều gen cũng như các yếu tố môi trường và lối sống.
Mặc dù các yếu tố môi trường và lối sống có ảnh hưởng đến sự phát
triển một căn bệnh, đây là khó khăn để đo lường và đánh giá hiệu quả tổng thể
của họ về quá trình bệnh. Vì vậy, tiềm năng của một cá nhân để phát triển một
bệnh dựa trên gen và các yếu tố di truyền.
Yếu tố di truyền cũng có thể trao nhạy cảm hoặc kháng bệnh và xác
định mức độ nghiêm trọng hoặc tiến triển của bệnh. Bởi vì chúng ta vẫn chưa
biết được tất cả các yếu tố liên quan ở trong những đường phức tạp, các nhà
nghiên cứu đã tìm thấy nó khó khăn để phát triển các xét nghiệm sàng lọc cho

9


hầu hết các bệnh và các rối loạn. Bằng cách nghiên cứu mối liên quan của SNP
với một đặc điểm bệnh, các nhà nghiên cứu đã phát hiện các gen có liên quan
với một căn bệnh.
Xác định và hiểu biết về vai trò của yếu tố di truyền trong bệnh cũng sẽ
cho phép các nhà nghiên cứu đánh giá tốt hơn vai trò của yếu tố di truyền, chẳng
hạn như hành vi, chế độ ăn uống, lối sống, và hoạt động thể chất có trên bệnh. Bởi vì yếu tố di truyền cũng ảnh hưởng đến phản ứng của một người điều trị
bằng thuốc, đa hình DNA chẳng hạn như SNPs sẽ là hữu ích trong việc giúp các
nhà nghiên cứu xác định và hiểu lý do tại sao các cá nhân khác nhau trong
khả năng của mình có thể hấp thụ các loại thuốc nhất định, cũng như để xác
định lý do tại sao một cá nhân có thể trải nghiệm một tác dụng phụ bất lợi cho
một loại thuốc cụ thể. Vì vậy, việc phát hiện gần đây của SNPs hứa hẹn mang
đến một cuộc cách mạng không chỉ là quá trình phát hiện bệnh nhưng thực tế
thuốc phòng ngừa và chữa bệnh.
+ SNPs và chẩn đoán bệnh:
Vật liệu di truyền của mỗi người có một mô hình SNP độc đáo được
tạo thành nhiều biến thể di truyền khác nhau. Các nhà nghiên cứu đã tìm thấy
rằng hầu hết các SNPs không chịu trách nhiệm cho một bệnh tật nào. Thay vào
đó, nó như là các dấu hiệu sinh học để xác định chính xác một căn bệnh trên
bản đồ hệ gen của con người, bởi vì nó thường nằm gần một gen được tìm thấy
có liên quan đến một căn bệnh nào đó. Thỉnh thoảng, một SNP thực sự có thể
gây ra một căn bệnh, và do đó, có thể được sử dụng để tìm kiếm và cô lập các
gen gây bệnh. Để tạo một thử nghiệm di truyền, gen gây bệnh nào đó đã được
xác định bởi các nhà khoa học thu thập mẫu máu từ một nhóm các cá nhân bị
ảnh hưởng bởi căn bệnh này và phân tích DNA của họ cho các mẫu SNP. Tiếp

10



theo, các nhà nghiên cứu so sánh các mô hình với các mẫu thu được bằng cách
phân tích ADN từ một nhóm các cá nhân không bị ảnh hưởng bởi căn bệnh này.
Loại so sánh này, được gọi là "Hiệp hội nghiên cứu", có thể phát hiện sự
khác biệt giữa các mô hình SNP của hai nhóm, qua đó cho thấy đó là mô hình
rất có thể liên quan với gen gây bệnh. Cuối cùng, hồ sơ SNP là đặc trưng của
nhiều loại bệnh khác sẽ được thành lập. Sau đó, chỉ là vấn đề thời gian, các bác
sĩ có thể xác định một người có thể nhạy cảm với một căn bệnh nào đó chỉ bằng
cách phân tích các mẫu DNA của họ cho mô hình cụ thể SNP.

1.2.

Bài toán lựa chọn Tag SNPs và các cách tiếp cận hiện nay
Lựa chọn tag SNP1 (tag SNP selection) là bài toán có ý nghĩa quan trọng

trong nghiên cứu về liên kết giữa gene và bệnh ở người - nhằm tìm ra các gene
gây ra kiểu hình bệnh nào đó, hướng tới việc tìm cách điều trị phù hợp.
Hệ gene người chứa khoảng 3 tỉ cặp bazơ và hệ gene hai người bất kì
giống nhau tới 99.9%. SNP (single nucleotide polymorphism, thường dịch ra
tiếng Việt là đa hình đơn nucleotide) của một loài là những vị trí trên hệ gene
có sự khác biệt giữa các cá thể trong hơn 1% số dân loài đó. Trong quần thể,
SNP có thể nhận hơn một giá trị (A/C/G/T), phổ biến nhất là hai giá trị. Hệ
gene người chứa khoảng 10 triệu SNP. Khi nghiên cứu liên kết giữa gene và
bệnh nào đó, người ta sẽ phân tích hồ sơ SNP của một quần thể gồm những
người mắc bệnh và những người không mắc bệnh. Mỗi hồ sơ SNP thường
tương đương với haplotype của cá thể đó. Cho đến giờ, việc xác định thông tin
cho tất cả 10 triệu SNP này bằng các công cụ công nghệ sinh học trên quần thể
lớn như vậy vẫn là thách thức lớn.

1


Mô ̣t số tài liê ̣u dùng thuâ ̣t ngữ tagging SNP.
11


Lựa chọn tag SNP là việc chọn ra một tập con các SNP có thể đại diện
hiệu quả cho tập toàn bộ các SNP, giúp giảm đáng kể chi phí cho xác định kiểu
gene và haplotype, mà không giảm khả năng phát hiê ̣n liên kế t với bênh
̣ trong
các nghiên cứu nói trên. Các SNP được chọn gọi là tag SNP.
Hình 1.1 minh họa các khái niệm SNP, haplotype và tag SNP và cách sử du ̣ng
các thông tin này trong dự án HapMap.

Hình 1.2.Ba bước xây dựng HapMap [1]
a) Xác đi ̣nh các SNP từ các mẫu DNA trên các cá thể khác nhau.
b) Các SNP liên tiế p di truyề n cùng nhau thì được ghép thành
haplotype
c) Các tag SNP trong một bộ haplotype là những SNP nhận diê ̣n được
duy nhấ t các haplotype đó. Ở ví dụ trên, người ta chỉ cầ n thực hiê ̣n
xác đi ̣nh kiểu gene cho ba tag SNP là có thể biết được cá thể đang
xét có haplotype kiểu nào

12


Lựa cho ̣n tag SNP đã được chứng minh là một bài toán NP-khó [20] và
tiń h toán thông minh (computational intelligence) đang dần trở thành công cu ̣
quan trọng cho bài toán phức tạp này [3]. Các thuâ ̣t toán nhằ m lựa cho ̣n tag
SNP nhìn chung chia thành hai hướng: tìm dựa vào khố i (block-based) và tìm
không dựa vào khối (block-free). Tiế p cận tìm dựa vào khố i lâ ̣p luâ ̣n là hê ̣gene

của con người có thể chia thành các khố i; với mỗi khố i này hầu hế t các cá thể
trong quầ n thể đề u thuộc mô ̣t tâ ̣p nhỏ các haplotype [4]; ho ̣ thực hiêṇ phân
hoạch thành các khối rồ i đi tìm tag SNP cho mỗi khối (ví du ̣: [5], [6] và [7]).
Các nhóm khác nhau có những đinh
̣ nghiã về khố i không nhấ t quán. Vì thế có
những tác giả cho ̣n tiếp câ ̣n tìm không dựa vào khố i - tức đi tìm tâ ̣p tag SNP là
tập con có thể đa ̣i diê ̣n cho tâ ̣p toàn bộ các SNP ([8], [9]). Các phương pháp
này không cầ n thực hiện phân hoa ̣ch thành khố i.
GTagger [7] và MACA [10] là điển hình cho tiếp cận tính toán mềm đề
xuất trong thời gian gần đây giải bài toán lựa chọn tag SNP theo hướng tìm dựa
vào khố i. Bài toán có thể được phát biểu một cách hình thức như sau: Cho tâ ̣p
m haplotype H = {h1,h2, . . .,hm} lấ y từ mô ̣t quần thể nào đó. Mỗi haplotype hi
(đại diện cho một cá thể) biểu diễn bằ ng một vector n SNP hi= {s1, s2, . . ., sn}
với si ϵ {0,1}. Tìm mô ̣t tâ ̣p SNP T nhỏ hơn tập n SNP này, T = {t1, t2,. . ., tk}
(với k là số tag SNP đươ ̣c chọn) để đa ̣i diê ̣n cho mô ̣t phầ n (hay toàn bộ) các
haplotype trong H.
GTagger sử dụng lược đồ giải thuâ ̣t di truyền, trên một quần thể có kích
thước bằng số lươ ̣ng haplotype đươ ̣c cho. Trong đó, lời giải được biểu diễn
dưới dạng một vector nhị phân n chiều, SNP thứ j được chọn làm tag SNP thì
thành phần tương ứng trong vector được đặt là 1, ngược lại đặt là 0. Hàm fitness
được chọn để vừa thể hiện khả năng dự đoán của tập tag SNP và vừa thể hiêṇ

13


tiń h đa da ̣ng (đo bằ ng entropy) của tâ ̣p haplotype ứng với tập tag đó. Tốc độ
trao đổi chéo và đột biến được chọn để giữ ổn định kích thước của quần thể,
làm tăng fitness và hướng tới sinh lời giải có ít thành phần bằng 1, nhiều thành
phần bằng 0. Trước khi áp dụng giải thuật, nhóm tác giả tiền xử lý dữ liệu bằng
cách lọc ra những cặp SNP có tương quan lớn hơn 95%, mỗi cặp như vậy bỏ đi

1 SNP. Kết quả thực nghiệm trên cả dữ liệu mô phỏng và dữ liệu thực cho thấy
GTagger tìm được lời giải tối ưu trong hầu hết các trường hợp và chạy nhanh
hơn thuật toán tìm chính xác khi số lượng SNP lớn.
MACA được thiết kế để chạy thuật toán tối ưu hóa đàn kiến ACA ở ba
mức. Mức thứ nhất chia dãy SNP thành các nhóm t SNP liên tiếp (nhóm cuối
có thể ít hơn t SNP). Mỗi nhóm này cấu thành một đỉnh trên đồ thị cấu trúc. Ở
mỗi thế hệ, các con kiến xuất phát trên một đỉnh bất kì, chọn đỉnh tiếp theo dựa
trên mùi và kinh nghiệm tính theo các đại lượng coverage, repeatability và
margin cho tới khi đường đi của nó thỏa mãn điều kiện xác định. Đường đi tốt
nhất được ghi lại để xét điều kiện dừng của thuật toán. Mùi ở các đỉnh được
cập nhật theo đường đi của tất cả kiến. Ở đây tác giả sử dụng hệ số bay hơi
ngẫu nhiên. Mức thứ hai thực hiện trên tập SNP đã chọn bởi mức thứ nhất, số
SNP trong mỗi đỉnh giảm xuống còn t/2. Tương tự, mức thứ ba, mỗi đỉnh chỉ
chứa một SNP. Kết quả thực nghiệm cho thấy MACA nhanh và ổn định hơn
các thuật toán tiến hóa khác (GTagger, NSGA-II [11]) mà lại tìm ra được tập
tag SNP nhỏ hơn.

14


1.3. Tổng quan về tối ưu đàn kiến
ACO- Thuật toán phỏng bầy kiến mô phỏng hành vi của bầy kiến trong
tự nhiên nhằm tìm kiếm đường đi ngắn nhất giữa tổ kiến và nguồn thức ăn dựa
trên mật đồ mùi (Peromone) mà các con kiến để lại trên đường đi.

Hình 1.3.Hoạt động của bầy kiến trong thực tế [27]
Hình 1.2 ví dụ về hoạt động của bầy kiến trong thực tế. Bầy kiến di
chuyển từ điểm A là nơi có thực phẩm thẳng tới tổ là điểm E và ngược lại trong
hình 1.2.a. Một vật cản trở xuất hiện trên đường đi của điểm tại điểm B như
hình 1.2.b, do đó tại điểm B hoặc D, bầy kiến phải quyết định rẽ phải hoặc rẽ

trái. Sự lựa chọn sẽ bị tác động lớn khi xuất hiện mùi hương thu hút của một
con khác. Nếu mùi hương thu hút từ bên phải càng lớn sẽ tạo cho bầy kiến một
động lực mạnh mẽ hơn và do đó xác xuất rẽ phải sẽ lớn hơn. Con kiến đầu đàn
đến điểm B (hoặc D) sẽ có xác suất như nhau cho rẽ phải hay rẽ trái (vì không
có mùi hương thu hút trước đó trên cả hai tuyến). Bởi vì tuyến B-C-D ngắn hơn
B-H-D, con kiến đầu đàn sau đó sẽ đến điểm D trước khi con kiến đầu đàn đi
15


×