Tải bản đầy đủ (.pdf) (29 trang)

phương pháp phân cụm sử dụng marker tren dữ liệu Comparative Genomic Hybridization

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.21 MB, 29 trang )

Ti liu chia s ti: wWw.SinhHoc.edu.vn
1
báo cáobáo cáo
Ng-ời thực hiện: ThS. Nguyễn Thị Tân Tiến
ThS. Đỗ Thị Ph-ơng Quỳnh
đại học tháI nguyên
Tr-ờng đại học y d-ợc
Thái Nguyên, tháng 1/2012
Ph-ơng pháp phân cụm sử dụng Marker
trên dữ liệu Comparative Genomic Hybridization
Tài liӋu chia sҿ tҥi: wWw.SinhHoc.edu.vn
2
 Căn bӋnh ung thư đã trӣ thành nӛi ám ҧnh cӫa rҩt nhiӅu
quӕc gia.
 Thӵc nghiӋm: Các bӋnh nhân mҳc cùng mӝt bӋnh ung thư
thì mүu quang sai cӫa hӑ sӁ tương đӗng vӟi nhau
 Giҧi pháp đưa ra: Sӱ dөng phương pháp phân cөm đӇ
nhóm các bӋnh nhân có mүu quang sai giӕng nhau vào
cùng mӝt cөm.
 Trên cơ sӣ đó, chúng tôi nghiên cӭu ³Phương pháp phân
cͭm s͵ dͭng marker trên dͷ li͏u Comparative Genomic
Hybridization (CGH)´.
LÝ DO NGHIÊN CͨU
Tài liӋu chia sҿ tҥi: wWw.SinhHoc.edu.vn
3
N͘I DUNG TRÌNH BÀY
1
2
3
4
Dӳ liӋu CGH


Marker
Đӝ đo
Phương pháp phân cөm
5
Nӝi dung
Đánh giá kӃt quҧ thӵc nghiӋm
Tài liӋu chia sҿ tҥi: wWw.SinhHoc.edu.vn
 Dӳ liӋu CGH là dӳ liӋu có đưӧc tӯ phương pháp lai gen
so sánh, đưӧc sӱ dөng đӇ đo sӵ khác thưӡng cӫa bӝ gen
nhҵm phát hiӋn ra các gen mҩt cân bҵng ± gen dӏ tұt trong
bӝ nhiӉm sҳc thӇ
Dͮ LIʃU CGH
Dӵa trên cơ chӃ nhân đӕi cӫa tӃ bào, trong kӻ thuұt CGH
tiӃn hành lai DNA thuӝc bӝ gen cӫa tӃ bào tham khҧo và DNA
thuӝc bӝ gen cӫa tӃ bào kiӇm tra.
Tài liӋu chia sҿ tҥi: wWw.SinhHoc.edu.vn
Dͯ liʄu thô và sau khi đưͣc làm mʈn
Mӛi mүu cӫa nhiӉm sҳc thӇ CGH tương ӭng vӟi mӝt dãy các
giá trӏ 1, -1, 0 tương ӭng vӟi 3 trҥng thái thͳa, thi͇u, không đ͝i
sӕ lưӧng sao chép đoҥn DNA
Tài liӋu chia sҿ tҥi: wWw.SinhHoc.edu.vn
6
PHƯƠNG PHÁP PHÂN CӨM
Các thuұt toán phân cөmCác thuұt toán phân cөm
33
Thuұt toán bottom - up
22
Thuұt toán top - down
11
Thuұt toán k -means

Nhóm các đӕi tưӧng tương tӵ nhau trong tұp dӳ liӋu
vào các cөm sao cho các đӕi tưӧng trong cùng mӝt cөm có đӝ
tương đӗng cao, còn các đӕi tưӧng ӣ các cөm khác nhau sӁ có
đӝ tương đӗng thҩp hơn.
Tài liӋu chia sҿ tҥi: wWw.SinhHoc.edu.vn
7
MARKER, NHɩN DIʃN MARKER
 Khái ni͏m

Marker là mӝt khoҧng gen quan trӑng đҥi diӋn cho mӝt
vùng biӃn đәi hӗi quy (recurrent alteration - tұp hӧp các
quang sai có cùng tình trҥng mà nhiӅu mүu CGH thӇ
hiӋn chúng).
 Mӛi marker đưӧc đҥi diӋn bӣi 2 sӕ <p, q> trong đó p
và q tương ӭng biӇu thӏ vӏ trí và loҥi quang sai.
Tài liӋu chia sҿ tҥi: wWw.SinhHoc.edu.vn
8
Ví dͭ:
Có 4 marker ӣ các khoҧng gen 52, 69, 287, 690
Bi͋u đ͛ quang sai cͯa b͏nh ung thư nguyên bào võng m̩c.
Tài liӋu chia sҿ tҥi: wWw.SinhHoc.edu.vn
9
Đ͘ ĐO RSIM
Ví dͭ
m
1
m
2
Các khoҧng gen
Đӝ đo Sim là phép đo sӵ chӗng chéo giӳa các phân

đoҥn
Đӝ đo Rsim là phép đo sӵ chӗng chéo giӳa các phân
đoҥn giao vӟi mӝt marker mà giá trӏ cӫa phân đoҥn chӗng
chéo giӕng giá trӏ cӫa marker.
Tài liӋu chia sҿ tҥi: wWw.SinhHoc.edu.vn
10
So sánh hai đӝ đo Sim và Rsim:
 Giӕng nhau: ĐӅu là phép đo các phân đoҥn chӗng
chéo trên tӯng cһp mүu CGH
 Khác nhau: Đӝ đo Sim đo sӕ phân đoҥn chӗng chéo.
Còn Rsim không xem xét các phân đoҥn chӗng chéo
mà không giao nhau vӟi marker nào. Bӣi vұy, lӧi thӃ
cӫa đӝ đo Rsim là loҥi bӓ đưӧc nhiӉu.
Đ͘ ĐO RSIM
Tài liӋu chia sҿ tҥi: wWw.SinhHoc.edu.vn
11
CHƯƠNG TRÌNH THͰC NGHIʃM
 Input: Bӝ dӳ liӋu 23 loҥi bӋnh ung thư biӇu mô, là file có
dҥng *.txt, đưӧc lҩy tҥi cơ sӣ dӳ liӋu progenetix [10]
(trang web ). Đây là bӝ dӳ liӋu
gӗm 6000 mүu CGH. Mӛi mүu có 862 khoҧng gen đưӧc
lҩy ra tӯ 24 nhiӉm sҳc thӇ.
 Output: Hình ҧnh phân cөm vӟi sӕ lưӧng marker đưӧc
chӍ đӏnh trưӟc.
 Công cө đưӧc xây dӵng bӣi Jun Liu (2008)
 Ngôn ngӳ: Matlab, C++
Tài liӋu chia sҿ tҥi: wWw.SinhHoc.edu.vn
12
Hình 3. 1: Hình ̫nh phân cͭm trên t̵p m̳u th͹c nghi͏m
Tài liӋu chia sҿ tҥi: wWw.SinhHoc.edu.vn

13
Sӕ lưӧng
cөm
Đӝ đo
4 6 8 10 12
Sim 945 1303 1611 1884 2123
Rsim 993 1463 1764 2006 2257
Chҥy thӵc nghiӋm thuұt toán top - down sӱ dөng hai đӝ đo
khác nhau Sim và Rsim, thu đưӧc kӃt quҧ như bҧng sau:
 So sánh đ͡ đo Sim và Rsim
ĐÁNH GIÁ KӂT QUҦ THӴC NGHIӊMĐÁNH GIÁ KӂT QUҦ THӴC NGHIӊMĐÁNH GIÁ KӂT QUҦ THӴC NGHIӊMĐÁNH GIÁ KӂT QUҦ THӴC NGHIӊM
Tài liӋu chia sҿ tҥi: wWw.SinhHoc.edu.vn
14
Hình 3. 2: Sӱ dөng đӝ đo
Sim
Hình 3. 3: Sӱ dөng đӝ đo
RSim
ĐÁNH GIÁ KɻT QUɟ THͰC NGHIʃM
Tài liӋu chia sҿ tҥi: wWw.SinhHoc.edu.vn
15
ĐÁNH GIÁ KɻT QUɟ THͰC NGHIʃM
 Đánh giá s͙ lưͫng và ch̭t lưͫng marker
Sӕ lưӧng marker Chҩt lưӧng cөm Thӡi gian (h)
10 455.6411 3h
20 510.6452 3h30
40 624.3025 4h
60 628.7182 5h
80 737.851 9h
Sӕ lưӧng marker khác nhau thì chҩt lưӧng phân cөm thu
đưӧc cũng khác nhau: khi tăng sӕ lưӧng marker thì mҩt nhiӅu

thӡi gian hơn tuy nhiên chҩt lưӧng phân cөm tӕt hơn.
Tài liӋu chia sҿ tҥi: wWw.SinhHoc.edu.vn
16
CHÚNG TÔI TRÂN TRӐNG
CҦM ƠN QUÝ THҪY CÔ!
L͜I CɟM ƠN
Tài liӋu chia sҿ tҥi: wWw.SinhHoc.edu.vn
17
TÀI LIʃU THAM KHɟO
[1] Anil K.Jain, Richard C. D ubes (1988), Algorithms for
clustering data. Michigan State Univ East Lansing.
[2] A. Fritz, C. Percy, A. Jack, L. Sobin, and M. Parkin, editors,
(2000) International Classification of Diseases for Oncology
(ICD-O), Third Edition. World Health Organization, Geneva
[3] Jun Liu, (2008), mining comparative genomic hybridization
data, University of Florida.
[4] Jun Liu, S. Ranka, and T. Kahveci, (2007) Markers improve
clustering of CGH data. Bioinformatics
[5] Jun Liu, J. Mohammed, J. Carter, S. Ranka, T. Kahveci, and
M. Baudis, (2006) Distance-based clustering of CGH data.
Bioinformatics.
[6] Jiawei Han, Micheline Kamber, (2001) Data mining:
concepts and techniques
Tài liӋu chia sҿ tҥi: wWw.SinhHoc.edu.vn
18
THUҰT TOÁN TOP - DOWN
Ví dө
Ti liu chia s ti: wWw.SinhHoc.edu.vn
19
báobáo cáocáo

Ng-ời thực hiện: ThS. Nguyễn Thị Tân Tiến
ThS. Đỗ Thị Ph-ơng Quỳnh
đại học tháI nguyên
Tr-ờng đại học y d-ợc
Thái Nguyên, tháng 1/2012
Ph-ơng pháp phân cụm sử dụng Marker
trên dữ liệu Comparative Genomic Hybridization
Nhằm hỗ trợ chẩn đoán một số bệnh ung th-
Tài liӋu chia sҿ tҥi: wWw.SinhHoc.edu.vn
20
N͘I DUNG TRÌNH BÀY
1
2
3
4
Dӳ liӋu CGH
Marker và nhұn diӋn marker
Đӝ đo Rsim
Phương pháp phân cөm
5
Nӝi dung
Đánh giá kӃt quҧ thӵc nghiӋm
Tài liӋu chia sҿ tҥi: wWw.SinhHoc.edu.vn
21
MARKER, NHҰN DIӊN
MARKER
Đ͡ h͟ trͫ
Tài liӋu chia sҿ tҥi: wWw.SinhHoc.edu.vn
22
ĐӜ HӚ TRӦ

Tài liӋu chia sҿ tҥi: wWw.SinhHoc.edu.vn
23
NHҰN DIӊN MARKER
V̭n đ͉ nh̵n di͏n marker
Input: Cho S là tұp các mүu CGH S={s
1
,s
2
,«,s
n
}
Output: Tìm tұp M gӗm R các marker M={m
1
,m
2
,«,m
r
},
p<p
1
<p
2
<«<p
r
sao cho tәng hӛ trӧ các marker trong M là tӕi đa
Tài liӋu chia sҿ tҥi: wWw.SinhHoc.edu.vn
24
Trưӡng hӧp 2: Không
tӗn tҥi 1 marker m
r

nào
tҥi khoҧng gen d
Trưӡng hӧp 1: Tӗn tҥi 1
marker m
r
tҥi khoҧng
gen d
±
±
À
±
±
¿
¾
±
±
°
±
±
¯
®



!
)()1,1(

)()1,2(
)()1,1(
max),(

r
r
r
mSupportrbO
mSupportrdO
mSupportrdO
rdO
_ a
),1(max),( rdOrdO !
Tài liӋu chia sҿ tҥi: wWw.SinhHoc.edu.vn
25
2. Các khái niӋm cơ bҧn2. Các khái niӋm cơ bҧn
2.1. Phân đoҥn (segment)

×