Tải bản đầy đủ (.pdf) (48 trang)

Approche métagénomique pour le binning taxonomique du microbiome intestinal humain = khai phá cấu trúc phân loài của hệ vi sinh vật ruột người từ dữ liệu di truyền học môi trường

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.88 MB, 48 trang )

UNIVERSITE NATIONALE DU VIETNAM, HANOI
INSTITUT FRANCOPHONE INTERNATIONAL

DƯƠNG TIẾN HẬU

APPROCHE MÉTAGÉNOMIQUE POUR LE BINNING
TAXONOMIQUE DU MICROBIOME INTESTIAL
HUMAIN
KHAI PHÁ CẤU TRÚC PHÂN LOÀI CỦA HỆ VI SINH
VẬT RUỘT NGƯỜI TỪ DỮ LIỆU DI TRUYỀN HỌC
MÔI TRƯỜNG

MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE

HANOI – 2017


UNIVERSITE NATIONALE DU VIETNAM, HANOI
INSTITUT FRANCOPHONE INTERNATIONAL

DƯƠNG TIẾN HẬU

APPROCHE MÉTAGÉNOMIQUE POUR LE BINNING
TAXONOMIQUE DU MICROBIOME INTESTIAL
HUMAIN
KHAI PHÁ CẤU TRÚC PHÂN LOÀI CỦA HỆ VI SINH
VẬT RUỘT NGƯỜI TỪ DỮ LIỆU DI TRUYỀN HỌC
MÔI TRƯỜNG
Spécialité: Systèmes Intelligents & Multimédia
Code: Programme pilote


MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE

Sous la direction de : Dr. Jean-Daniel Zucker, Dr. Ho Bich Hai

HANOI – 2017


ATTESTATION SUR L’HONNEUR
J’atteste sur l’honneur que ce m´emoire a ´et´e r´ealis´e par moi-mˆeme et que les donn´ees et les
r´esultats qui y sont pr´esent´es sont exacts et n’ont jamais ´et´e publi´es ailleurs. La source des
informations cit´ees dans ce m´emoire a ´et´e bien pr´ecis´ee.

LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong
bất kỳ công trình nào khác. Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn
gốc.
Signature de l’´etudiant

Dương Tiến Hậu


Table des mati`
eres
INTRODUCTION

2

Chapitre 1 : Contexte
1.1 M´etag´enomique . . . . . . . . . . . .

1.2 Diversit´e taxonomique . . . . . . . .
1.3 Diversit´e fonctionnelle . . . . . . . .
1.4 M´etag´enomique comparative . . . . .
1.5 Donn´ees de NGS . . . . . . . . . . .
1.5.1 Les plateformes de s´equen¸cage
1.5.2 Des notions de base . . . . . .
1.5.3 Format de donn´ees . . . . . .

.
.
.
.
.
.
.
.

3
3
4
6
7
8
8
8
8

Chapitre 2 : Probl´
ematique
´

2.1 Etat
de l’art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
´
2.2 Enonc´
e du probl`eme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11
11
12

Chapitre 3 : M´
ethodes propos´
ees
3.1 Prototype de pipeline . . . . . . . . . . .
3.1.1 Tableau de donn´ees . . . . . . . .
3.1.2 Configuration . . . . . . . . . . .
3.1.3 Outils . . . . . . . . . . . . . . .
3.1.4 G´en´erateur de commande . . . .
3.2 La distance phylog´en´etique des s´equences
3.2.1 La mesure de distance . . . . . .
3.2.2 S´election de mod`ele . . . . . . . .
3.3 Analyse de donn´ees METAHIT . . . . .

.
.
.
.
.
.
.

.
.

14
14
15
16
16
16
17
18
19
20

.
.
.
.
.
.
.
.
.
.
.

21
21
21
22

26
26
29
29
30
32
32
33

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.

.
.
.
.
.
.
.
.

. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
d’ADN
. . . . .
. . . . .
. . . . .

.
.
.
.
.
.
.
.


.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.


.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.

.
.
.
.
.
.
.

Chapitre 4 : Exp´
eriment
4.1 Pipelines de binning . . . . . . . . . . . . . . . . . . . .
4.1.1 Assemblage . . . . . . . . . . . . . . . . . . . . .
4.1.2 Estimation d’abondance des s´equences (Counting)
4.1.3 Segmentation . . . . . . . . . . . . . . . . . . . .
4.1.4 Inter-clustering . . . . . . . . . . . . . . . . . . .
4.2 Segmentation . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Conception de l’objet de segment . . . . . . . . .
4.2.2 S´election du mod`ele . . . . . . . . . . . . . . . . .
4.3 Analyse de donn´ees METAHIT . . . . . . . . . . . . . .
4.3.1 Donn´ees : METAHIT . . . . . . . . . . . . . . . .
4.3.2 Assemblage . . . . . . . . . . . . . . . . . . . . .
i

.
.
.
.
.
.
.

.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.


.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.


.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.


4.3.3
4.3.4
4.3.5

Calculation d’abondance (counting) . . . . . . . . . . . . . . . . . . .
Segmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Inter-clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

34
34
35

CONCLUSION

36

´ ERENCES
´
REF

38

ii


Table des figures

1
2
3
4
5
6
7
8
9
10
11
12
13

14
15
16
17
18
19
20

Trois questions principales de la m´etag´enomique [15] . . . . . . . . . . . . .
4
Neuf r´egions hypervariables de 16S rRNA du Escherichia coli [16]. . . . . . .
5
Un exemple de m´ethode d’analyse quantitative [26]. Les s´equences sont group´es
en basant sur le profil d’abondance. . . . . . . . . . . . . . . . . . . . . . . .
6
Explication des notions de base [12] . . . . . . . . . . . . . . . . . . . . . . .

10
Binning. Pipeline de MetaBAT [35]. Binning taxonomique bas´e deux caract´eristiques :
l’abondance de la s´equence et la composition de l’ADN . . . . . . . . . . . .
11
Le sch´ema global de binning taxonomique. Rectangles bleus : developp´es par
nous. Rectangles jaunes : d´evelopp´es par l’´equipe de ICAN (dans l’avenir) . .
13
Prototype de pipeline. Le g´en´erateur lit les configuration et les m´etadonn´ees
pour g´en´erer et appeler les commandes . . . . . . . . . . . . . . . . . . . . .
15
La distance entre deux segments est mesur´ee par la distance phylog´en´etique
entre deux ensemble des anotations . . . . . . . . . . . . . . . . . . . . . . .
18
Distance entre deux annotations est calcul´ee par ses distance sur l’arbre de
phylog´en´etique. Distance entre x et y est ´egale `a 3, [45] . . . . . . . . . . . .
19
Pipeline d’assemblage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
Pipeline de counting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
Pipeline de segmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
Comment segmenter les s´equences. Le mod`ele de segmentation essaie de trouver des points de coupures pour s´eparer des segments de deux types : partag´e
et non partag´e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
Le profil d’abondance est estim´e par l’abondance respective d’une s´equence
dans chaque ´echantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
Faire l’alignement d’une s´equence aux s´equences de chaque ´echantillon pour
extraire d’abondance a` travers ´echantillons . . . . . . . . . . . . . . . . . . .

28
Pearson correlation [44] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
Les distances ne suivent pas la loi normale. L’histogramme de distribution est
“skew” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
La plupart des s´equences sont bonnes (la qualit´e de 30 a` 39) . . . . . . . . .
33
Nombre de contig par ´echantillons . . . . . . . . . . . . . . . . . . . . . . . .
34
Nombre de s´equence par ´echantillon . . . . . . . . . . . . . . . . . . . . . . .
35

Liste des tableaux
1
2
3

Des technique de s´equen¸cage [31] . . . . . . . . . . . . . . . . . . . . . . . .
R´esum´e des pipelines de binning taxonomiques dans les travaux pr´ec´edents. .
La performance de deux versions de counting . . . . . . . . . . . . . . . . . .
iii

9
12
26


4
5


R´esum´e deux ´etapes de pr´etraitement . . . . . . . . . . . . . . . . . . . . . .
R´esum´e sur le r´esultat de clustering . . . . . . . . . . . . . . . . . . . . . . .

iv

33
35



esum´
e : On a estim´e que les microbes dans nos corps sont environ 100 trillions de
cellules, dix fois le nombre de cellules humaines et a sugg´er´e qu’ils codent 100 fois plus de
g`enes uniques que notre propre g´enome [1] . Une des communaut´es importantes est la communaut´e des microbes dans l’intestin humain, car ils ont donc une profonde influence sur
la physiologie humaine et la nutrition, autrement dit ils sont cruciaux pour la vie humaine.
Comprendre la composition et fonction de cette communaut´e est importante pour am´eliorer
la sant´e humaine. Des nouveaux progr`es de s´equen¸cage de haut d´ebit (NGS) permet d’´etudier
en profonde les microbes dans l’environnement complexe. M´etag´enomique est un ensemble de
m´ethode pour traiter et analyser ce nouveau type de donn´ees. Au point de vue d’informatique,
la m´etag´enomique entraˆıne des probl`emes de computation, car les donn´ees de m´etag´enome
sont normalement grandes et complexes. Un projet (rMGS) du laboratoire (INSERM/ICAN)
travaille sur des donn´ees de m´etagn´enome qui vise `a d’analyser la composition des microbes
dans l’intestin humain. Pour r´esoudre cette question, une nouvelle m´ethode de binning taxonomique a ´et´e propos´e par notre ´equipe. Dans le cadre du projet, trois travaux sont : (1)
proposer un prototype de pipeline pour analyser des probl`emes m´etag´enomiques, (2) proposer d’une mesure de similarit´e des segments d’ADN bas´e sur l’annotation phylog´en´etique
(distance phylog´en´etique), (3) analyser la donn´ees r´eelle METAHIT [2] (124 ´echantillons par
MetaHIT consortium, Commission europ´eenne 7th FP) en utilisant nos pipelines. Ma contribution est donc repr´esent´ee en trois aspects : (1) Le prototype est utilis´e comme un standard
pour tous les pipelines de notre ´equipe. Il est facile a` lancer pour les experts du domaine
(m´etag´enomique) et facile `a maintenir, a` modifier pour les informaticiens. Les r´esultats sont
coh´erents, donc il est facile a` suivre et `a d´eboguer. (2) La distance phylog´en´etique est utilis´ee

non seulement dans le projet, mais encore elle est utile dans d’autres probl`emes par exemple
la s´election du mod`ele, la validation des clusters taxonomiques (esp`ece m´etag´enomique –
rMGS). Elle contribue une autre fa¸con pour mesurer la similarit´e a` cˆot´e de la m´ethode classique bas´e sur les nucl´eotides.(3) Les r´esultats de binning taxonomique sur la donn´ees r´eelle
METAHIT sert `a comparer avec les travaux pr´ec´edents en termes de performance de pipeline
ainsi que les informations biologiques.
Mots cl´
es : M´etag´enomique, composition microbienne, binning taxonomique, NGS

1


INTRODUCTION
Ce stage, d’une dur´ee de cinq mois, a consist´e `a mettre en place des pipelines d’analyse
des donn´ees m´etag´enomique afin d’´etudier la communaut´e de microbes dans l’intestin humain.
Ce rapport pr´esente le travail que j’ai effectu´e lors de mon stage au sein de laboratoire UMI
UMMISCO, IRD France Nord et UMI UMMISCO-VN. Il est d´eroul´e du 1 f´evrier 2016 au
30 juin 2016. Pendant le stage, je me suis familiaris´e avec la m´etag´enomique et le traitement
des donn´ees de nouvelle g´en´eration de s´equen¸cage (NGS). En effet, ce stage est intediscipline,
je suis comme un interface entre la biologie et l’informatique, donc, au d´ebout du stage, je
faisais des efforts pour comprendre des termes et des concepts biologiques. De plus en plus,
j’ai conscience des applications protentielles de m´etag´enomique. J’ai d´ecider d’orienter ma
carri`ere vers la bio-informatique.
Le projet r´ealis´e ´etait tr`es int´eressant et tr`es enrichissant pour mon exp´erience professionelle. En effet, les microbes joue un rˆole primordial pour notre sant´e, pourtant nous avons
insuffisament connaissance sur cette communaut´e car la plupart de celles ne peuvent pas
mettre en culture dans les laboratoires. Grˆace au d´eveloppement de technique de s´equen¸cage
(NGS), nous pouvons maintenant ´etudier en profond cette communaut´e.
Je vous expose dans ce rapport en premier lieu la contexte du projet dans le chapitre 1.
Qu’est-ce que la m´etag´enomique ? quelles sont leur application ? quels sont leur d´efis ?. J’explique ensuite trois questions principales a` r´esoudre de m´etag´enomique. Les types de donn´ees
et les techniques de s´equen¸cage sont aussi pr´esent´e dans ce chapitre.
Dans le chapitre 2, je vais expliquer en d´etail le probl`eme a` r´esoudre dans mon stage. En

effet, ce stage est dans le contexe d’un grand projet de ICAN-INCERN, nous essayons de regrouper des s´equences dans des clusters intitul´e rMGS, chaque cluster repr´esente une esp`ece
m´etag´enomique. En fonction de stagiaire, je dois impl´ementer des pipelines pour analyser
automatiquement des donn´ees m´etag´enomiques. Des travaux pr´ec´edents et des techniques
populaires sont abord´es et compar´e.
Pour le chapitre 3, je vais aborder nos m´ethodes propos´ees, y compris : un prototype
de pipeline comme un standard de tous les pipelines, flux de travail de quatre pipelines dans
notre projet, une proposition une nouvelle mesure de distance entre des segments d’ADN,
l’analyse une donn´ees r´eelle avec nos pipelines.
Dans la dernier chapitre (chapitre 4), je fais une r´esum´e sur les r´esultat obtenu.

2


Chapitre 1 : Contexte
1.1


etag´
enomique

Les microbes pr´esentent dans presque tous les environnements de la Terre, jouent un rˆole
crucial dans les cycles biog´eochimiques et repr´esentent une grande partie de la diversit´e de la
vie. Ces microbes peuvent interagir avec son hˆote pour influencer la physiologie et contribuer `a
la sant´e, a` la croissance ou `a la forme physique. On s’int´eresse aux communaut´es des microbes
dans l’intestin humain, l’eau et le sol etc. Exemple, l’analyse des communaut´es de microbe
a des applications en sant´e : la nutrition [3, 4, 6] et les maladies [7, 8, 9], en agriculture : la
corr´elation entre les microbes et les ph´enotypes du plant [10, 11, 13]. L’analyse ces types de
l’environnement est compliqu´e comme les microbes vivent dans un environnement complexe
o`
u elles interagissent entre eux. De plus, des techniques traditionnelles de s´equen¸cage sont

coˆ
uteuses, prennent de temps, sont incapables a` traiter une grande quantit´e de g´enome.
La nouvelle g´en´eration de s´equen¸cage (NGS) qui a ´et´e mise en march´e au milieu des ann´ees
2000, est des plateformes de haut d´ebit de s´equen¸cage. Le coˆ
ut de s´equen¸cage fait tomber
50,000-fois par rapport le coˆ
ut de s´equen¸cage au d´ebut de projet de g´enome humain [14]. Le
temps de s´equen¸cage est aussi rapide, nous pouvons prendre une jour pour obtenir la g´enome
compl`ete de l’homme au lieu d’une d´ecennie comme avant. Grˆace a` cette technologie, les
chercheurs sont capables d’analyser une massive quantit´e de g´enome mat´eriel. Cela permet
d’explorer des nouvelles g´enomes et des microbes qui ne sont pas mises en culture. Elle est
une approche compl´ementaire pour l’identification des microbes. La technique NGS cause
des difficult´es :
— Les donn´ees sont grandes : environ 20- 30 millions reads (10 Gb) par ´echantillon.
— Complexe : contient des s´equences d’ADN de hˆote, faible couverture rend des erreurs
de l’assemblage.
— Les s´equences sont courtes : 75-300 paires de bases (bp) de Illumina (reads) par rapport plus de 500 bp de Sanger. Plus les reads sont courtes, plus la complexit´e de
computation augmente.
Pourtant, l’int´egr´e de cette technique est grande. Donc, on essaie de d´evelopper des autres
m´ethodes pour r´esoudre ces d´efis. La m´etag´enomique, apparu vers 2005, est un ensemble
de m´ethodes pour traiter les donn´ees de NGS. Les analyses de m´etag´enomique essaie de
r´epondre trois questions biologiques, voyez le figure 1 :
— La diversit´e taxonomique (qui est l`a ?) : L’identification des esp`eces dans la communaut´e, l’abondance des esp`eces.
— Diversit´e fonctionnelle (que font-ils) : Les fonctions de communaut´e en des ´echelles
diff´erentes : des g`enes, prot´eines, esp`eces, pathway etc
— Comparaison m´etag´enomique : (1) la combinaison entre les communaut´es selon la diversit´e taxonomique et fonctionnelle, (2) l’interaction entre les organismes, l’interaction entre les organismes et leur hˆote, (3) l’analyse longitudinale, suivre un ´echantillon
3


Figure 1 – Trois questions principales de la m´etag´enomique [15]

dans des points de temps.
Il y a des difficult´es en computation :
— On n’a pas suffisamment des g´enomes de r´ef´erence. La base de donn´ees RefSeq de
l’NCBI inclut 66224 g´enomes aux niveaux diff´erents de compl´etude (chromosome,
scaffold, contigs etc). La plupart des g´enomes de la RefSeq sont sous forme “draft”.
C’est-`a-dire elles pr´esentent sous la forme d’un ensemble de fragments de s´equences
plutˆot qu’une seule s´equence repr´esentant le g´enome entier.
— Ensuite, les donn´ees sont normalement grandes. Ce d´efi peut ˆetre r´esolu par la computation en parall`ele et distribu´e.
— Il existe des pipelines et outils pour l’analyse des donn´ees NGS. Pourtant, la plupart
des pipelines visent `a r´esoudre un probl`eme concr`ete. Les chercheurs doivent construire
des nouveaux pipelines pour les nouveaux probl`emes.

1.2

Diversit´
e taxonomique

Une des principales fa¸cons de caract´eriser une communaut´e microbienne est la caract´erisation
de sa diversit´e taxonomique. Cela vise a` d´eterminer : (1) quels sont les microbes dans une
communaut´e, (2) ces microbes pr´esentent `a quelle abondance. La diversit´e taxonomique sert
a` ´etablir le profil d’une communaut´e et peut servir a` comparer la similarit´e entre deux ou
plusieurs communaut´es. Il y a deux mesures principales : α-diversit´e (α-diversity) est la biodiversit´e dans un habitat ou un ´ecosyst`eme d´efini, β-diversit´e (β-diversity) est la comparaison
du profil taxonomique entre deux ´ecosyst`emes. La diversit´e taxonomique est normalement
quantifi´ee par : (1) l’analyse des g`enes marqueurs, (2) l’analyse quantitative (binning).
L’analyse des g`enes marqueurs est l’une des m´ethodes les plus simples et les plus efficientes en termes de calcul pour estimer la diversit´e taxonomique d’une communaut´e. Dans
4


cette m´ethode, on s’int´eresse des r´egions hypervariables qui peuvent fournir des signatures
sp´ecifiques de l’esp`ece.

Les marqueurs les plus utilis´es sont les g`enes rRNA qui ont tendance `a ˆetre une seule copie et

Figure 2 – Neuf r´egions hypervariables de 16S rRNA du Escherichia coli [16].
communs aux g´enomes microbiens. Pour les bact´eries et archaeas, on prend les s´equences 16S
rRNA qui contient la r´egion variable et conserv´ee. De la mˆeme fa¸con, on choisit les s´equences
18S pour l’eukaryote, ITS pour le fungi. Dans l’´etape de s´equen¸cage, on essaie de dessiner des
amorces (primers) pour extraire les s´equences rRNA cibl´ees. Une OTU (Operational Taxonomic Units) est d´efinie comme un groupe de reads similaires, motiv´ee par l’esp´erance que
celles-ci correspondent `a peu pr`es une esp`ece. Des m´ethodes les plus utilis´ees pour analyser
les g`enes marqueurs :
— M´ethode bas´ee sur la base de donn´ees des r´ef´erences, on fait un alignement pairwise
entre la s´equence et la base des r´ef´erences. Les bases de r´ef´erence populaires : Silva
[17], Greengenes [18] et RDP [19].
— Distance-based ou de novo clustering. Dans cette m´ethode, on regroupe les s´equences
en OTU bas´e sur la distance entre les s´equences. Donc, le coˆ
ut de calcul de cette
m´ethode est quadratique avec le nombre de s´equences uniques [20]. Le point fort de
novo est son ind´ependance des bases de r´ef´erences pour la r´ealisation de l’´etape de
regroupement. Pour cette raison, l’approche de novo est plus pr´ef´er´ee que la m´ethode
de r´ef´erence.
— Open Reference OTUs est une approche hybride de r´ef´erence et de novo, on prend
d’abord la m´ethode de r´ef´erence, pour les s´equences non class´ees, on utilise la m´ethode
de novo. Deux outils populaires pour l’analyse des g`enes marqueurs sont QIIME [21]
et MOTHUR [22].
5


La deuxi`eme m´ethode se base sur l’analyse quantitative qui vise a` “bin” toutes les s´
equences
d’ADN en des g´enomes. Chaque s´equence est classifi´ee soit (1) par la comparaison (blast)
avec une base de r´ef´erence, (2) par la composition de l’ADN (k-mers, GC pourcent. . . ), (3)

par le profil d’abondance (voyez la figure 3). Les s´equences peuvent ´egalement ˆetre group´e en
fonction de leur similarit´e de s´equence avec une base de donn´ees des s´equences annot´ees. Elle
d´epend une base de r´ef´erence, donc cette m´ethode ne convient pas pour d´ecouvrir de nouvelles g´enomes. Un des outils les plus utilis´es est MEGAN [23] qui utilise l’alignement pour
comparer les s´equences m´etag´enomiques `a une base de donn´ees de s´equences annot´es comme
NCBI, Ensembl. La m´ethode bas´ee sur la composition de l’ADN utilise des caract´eristiques de
s´equences (par exemple, une fr´equence de t´etram`ere) pour regrouper ou classer des s´equences
en groupes taxonomiques : KHMER [24], CompostBin [25] . Cette m´ethode n’a pas besoin de
l’alignement `a une base de donn´ees de r´ef´erence, par cons´equent, elle peut traiter rapidement
des grandes m´etag´enomes. La derni`ere m´ethode d´epend du profil d’abondance des s´equences.
Des s´equences similaires en profil d’abondance sont group´ees dans un groupe. C’est une bonne
m´ethode pour d´ecouvrir de nouvelles g´enomes, pourtant sa computation est coˆ
uteuse, car il
faut faire des alignements.

Figure 3 – Un exemple de m´ethode d’analyse quantitative [26]. Les s´equences sont group´es
en basant sur le profil d’abondance.

1.3

Diversit´
e fonctionnelle

Les m´etag´enomes donnent un aper¸cu de la physiologie d’une communaut´e en clarifiant
les fonctions cod´ees dans les g´enomes de la communaut´e. La diversit´e fonctionnelle d’une
communaut´e peut ˆetre profil´e en annotant des s´equences avec des fonctions biologiques. Cela
implique l’identification des s´equences codantes de prot´eines et la comparaison de la s´equence
codant a` une base de donn´ees de g`enes, de prot´eines, de familles de prot´eines pour lesquelles
des informations fonctionnelles sont connues d´ej`a. On obtient un profil qui d´ecrit le nombre de
6



types de fonctions et leur abondance dans la communaut´e. L’analyse de la diversit´e fonctionnelle implique deux ´etapes : pr´ediction des s´equences codantes et annotation fonctionnelle.
La pr´ediction des g`enes d´etermine quelles s´equences contiennent des s´equences codantes. Un
des moyens les plus simples pour d´eterminer les s´equences codantes consiste `a aligner les
s´equences `a une base de donn´ees de g`enes. Cette m´ethode n’est pas favorable pour les communaut´es avec des g´enomes qui ne sont pas repr´esent´es dans des bases de donn´ees, surtout si
nous voulons identifier des g`enes nouveaux ou tr`es divergents. La m´ethode de novo est largement utilis´ee. Elle peut potentiellement identifier de nouveaux g`enes. On utilise des mod`eles
qui sont bas´es sur des propri´et´es des g`enes microbiens (la longueur, codon, caract´eristique de
GC), sont utilis´es pour ´evaluer si une s´equence ou un contig contient un g`ene. Des outils de
pr´ediction des g`enes incluent MetaGenMark [27], MetaGen [28].
Une fois que les s´equences codantes sont pr´edites, elles peuvent ˆetre soumises a` l’annotation fonctionnelle. La fa¸con la plus connue est de classer les prot´eines pr´edites en familles
prot´eiques. Comme les prot´eines d’une famille partagent un ancˆetre commun, on pense
qu’elles codent des fonctions biologiques similaires. Si l’on d´etermine qu’une s´equence appartient a` cette famille, on d´eduit que la s´equence code la fonction de la famille. COGs,
EggNOGs et KEGG sont des bases de prot´eines populaires. Des outils sont impl´ement´es
pour cette tˆache comme MG-RAST [29] , CAMERA [30].

1.4


etag´
enomique comparative

Des analyses comparatives entre des m´etag´enomes peuvent fournir des informations suppl´ementaires
sur la fonction des communaut´es complexes de microbe et leur rˆole dans la sant´e de l’hˆote.
Nous nous int´eressons `a trois aspects :
La simarit´
e des communaut´
es (inter-communaut´
e) : La comparaison pair-wise ou
multiple de communaut´e peut ˆetre faite aux niveaux diff´erents : la composition de s´equence
(contenu de GC ou la taille du g´enome), la diversit´e taxonomique ou la diversit´e fonctionnel.

Pour r´epondre cette question, nous devons utiliser les r´esultats de deux premi`eres questions.
La corr´
elation avec des m´
etadonn´
ees : Les activit´ees des microbes influencent les caract´eristiques de leur hˆote. Les microbes dans la r´egion de rhizosph`ere influence fortement le
ph´enotype du plant [10]. Les communaut´es de microbes du sol contribuent a` la changement
des caract´eristique chimique, physique et biomass du sol [11].
La dynamique : On veut ´etudier : (1) le changement de composition des microbes entre des
conditions diff´erentes [46], (2) l’interaction entre les microbes dans la communaut´e et l’interaction entre des communaut´es [47] . Trois techniques sont souvant utilis´ees pour ´evaluer
l’interaction : (1) basant sur l’abondance pour d´eduire la co-occurrence ou co-exclusion de
deux organismes, (2) mod`ele de r´egression o`
u l’information des autres organismes permet de
pr´edire l’abondance de l’organisme. (3) mod`ele Local similarity analysis (LSA) [48] permet
d’analyser l’abondance des microorganismes dans des s´eries chronologiques, cet m´ethode est

7


utile quand on veut d’´evaluer la dynamique de communaut´e.

1.5

Donn´
ees de NGS

Dans la m´etag´enomique, on travaille souvent sur deux types de donn´ees :
— Les g`enes de marqueur : 16S rRNA pour bact´eries et archaea, 18S rRNA pour l’eukaryote, ITS pour fungi.
— Les s´equences compl`etes d’ADN : toutes les s´equences ADN extrait dans un environnement.
1.5.1


Les plateformes de s´
equen¸cage

Premi`
ere g´
en´
eration : La premi`ere g´en´eration de s´equen¸cage a ´et´e d´evelopp´e a` l’origine
par Sanger en 1975. Cette m´ethode donne des reads de 800 bases en moyenne. Elle est des
limitations : la petite quantit´e d’ADN qui pourraient ˆetre trait´ees par unit´e de temps, d´ebit,
le coˆ
ut ´elev´e.
Deuxi`
eme g´
en´
eration : Chaque technique a son propre fa¸con pour extraire les s´equences,
cependant elles partagent des principes communs : s´equen¸cage en parall`ele et courtes s´equences
(75-300 bps avec Illumina, 400 avec IonTorrent PGM et 454 avec Pyrosequencing). En retour,
ces techniques nous donnent une massif quantit´e des s´equences (200-500 megabases avec Pyrosequencing, 20-50 gigabase avec Illumina)
Troisi`
eme g´
en´
eration : Les techniques comme Pacbio, Oxford Nanopore apparaissent des
ann´ees r´ecentes. Le point fort de cette technique est la longueur des s´equences (10 -15 kilobase).
R´esume des techniques de s´equen¸cage, voyez le tableau 1
1.5.2

Des notions de base







Le terme “Paired-end” s’agit de deux extr´emit´es d’un segment d’ADN.
Read 1 : read de direction avant
Read 2 : read de direction inverse
Adapter : Un adaptateur est une courte mol´ecule d’ADN `a double strands qui est
utilis´ee pour relier les extr´emit´es des segments d’ADN.
— Insert size : Insert size est la longueur de l’ADN (ou de l’ARN) que vous souhaitez
s´equencer et qui est “ins´er´e” entre les adaptateurs.
1.5.3

Format de donn´
ees

FASTA et FASTQ sont deux types populaire de donn´ees en m´etag´enomique. Ces deux
formats sont document textuel, donc il est facile a` le traiter dans n’importe ´editeur de texte
ou langage de programmation. Chaque nucl´eotide est repr´esent´e par un caract`ere. Chaque
8


Table 1 – Des technique de s´equen¸cage
NGS platformes /en- Longueur
Nombre de Temps (h
treprise /taille de du reads reads
ou jours)
donn´ees maximale par (bp)
run
Premi`ere g´en´eration
Sanger/Life Technolo- 800

1
2h
gies/84 kb
Premi`ere g´en´eration
454
GS 700
1 ∗ 106
24-48h
FLX+/Roche/0.7
Gb
GS Junior/Roche/70 500
1 ∗ 105
18h
Mb
HiSeq/Illumina/1500 2x150
5 ∗ 109
27-240h
Gb
MiSeq/Illumina/15
2x300
3 ∗ 108
27h
Gb
SOLiD/Life Technolo- 50
1 ∗ 109
14 jours
gies/120 Gb
Ion PGM/Life Tech- 200
5 ∗ 106
2–5h

nologies/2 Gb
Troisi`eme g´en´eration
SMRT/Pac Bio/1 Gb >10,000
1 ∗ 106
1–2h
4
Nanopore/Oxford
>5000
6 ∗ 10
48-72h
Nanopore Technologies/1 Gb

9

[31]
Coˆ
ut par Teaux
1 millions d’erreur
bases
(%)

2400

0.3

10

1

9


-

0.1

0.8

0.13

0.8

0.13

0.01

1

1.7

2
<1

12.9
34


Figure 4 – Explication des notions de base [12]
s´equence se compose deux parties : identification et s´equence L’identification commence par
le caract`ere “>” pour FASTA et “@” pour FASTQ. La s´equence est situ´ee dans la ligne
suivante.

Exemple une s´equence FASTA, voyez le listing 1 :
Listing 1 – Format de FASTA. La premi`ere ligne (commence par “>”) est l’identification de
la s´equence, les restes sont des caract`eres repr´esentant les nucl´eotides
>NM 012515
TGTGGATCTTTCCAGAACAGCAGTTGCAATCACTATGTCTCAATCCTGGGTACCCGCCGT
GGGCCTCACTCTGGTGCCCAGCCTGGGGGGCTTCATGGGAGCCTACTTTGTGCGTGGTGA
GGGCCTCCGCTGGTATGCTAGCTTGCAGAAACCCTCCTGGCATCCGCCTCGCTGGACACT
CTCCCATCTGGGGCACACTGTATTCGGCCATGGGGTATGGCTCCTACATAATCTGGAAAG
AGCTGGGAGGTTTCACAGAGGAGGCTATGGTTCCCTTGGGTCTCTACACTGGTCAGC

Le format FASTQ est similaire FASTA, pourtant, il ajoute une ligne de contrˆole la qualit´e de
la s´equence (repr´esent´e par des caract`eres ASCII). Le score de qualit´e repr´esente l’exactitude
quand la machine lit un nucl´eotide, ce score a un ´ecart de 0-93 (ASCII de 33 a` 126), pourtant les scores sont normalement moins de 40, donc des logiciels prennent 40 est la valeur
maximale.
Exemple une s´equence FASTQ, voyez le listing 2 :
Listing 2 – Format de FASTQ. La derni`ere linge est le score de qualit´e cod´ee par des caract`eres
ASCII
@SEQ ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
! ’ ’∗((((∗∗∗+))%%%++)(%%%%).1∗∗∗ −+∗ ’ ’))∗∗55CCF>>>>>>CCCCCCC65

10


Chapitre 2 : Probl´
ematique
2.1

´

Etat
de l’art

Figure 5 – Binning. Pipeline de MetaBAT [35]. Binning taxonomique bas´e deux caract´eristiques : l’abondance de la s´equence et la composition de l’ADN
Il y a deux approches de regrouper des s´equences en cluster : (1) l’approche bas´ee sur le
profil de co-abondance a` travers les ´echantillons, (2) la composition de l’ADN (fr´equence de
t´etra-nucl´eotidiques, GC pourcentage. . . )
La m´ethode bas´ee sur l’abondance est largement utilis´ee. L’abondance est la fr´equence d’une
s´equence dans un ´echantillon. L’abondance d’une s´equence ´elever ou basse r´efl´echit l’abondance de l’esp`ece qui proc`ede cette s´equence. Cette m´ethode se base sur une supposition :
deux s´equences qui ont un profil similaire de l’abondance peuvent appartenir `a une mˆeme
esp`ece. Autrement dit, si deux s´equences apparaissent de mˆeme forme dans des ´echantillons,
nous avons raison pour dire que ces s´equences peut-ˆetre appartiennent a` une mˆeme esp`ece.
La m´ethode bas´ee sur l’abondance fonctionne g´en´eralement meilleur que k-mers, elle peut
distinguer les esp`eces dans le cas o`
u la composition de k-mers est similaire, cependant elle
consomme plus de ressource (calcul, temps. . . ).
La m´ethode de k-mers est similaire le mod`ele sac de mot dans l’apprentissage automatique.
Une s´equence est une chaˆıne de caract`eres. Donc, il peut ˆetre consid´er´e comme un paragraphe
ou un document. Nous allons calculer la fr´equence d’un groupe de k caract`eres apparaˆıt. Pareil, dans le mod`ele de sac de mot, nous comptons la fr´equence des mots dans un document.
Deux documents (s´equences) sont similaires si la distance entre eux est faible. Si la distance
entre deux s´equences est inf´erieur `a un seuil, il va ˆetre group´e dans un cluster. Des recherches
montrent que 4-mers est suffisant pour discriminer les s´equences. Cette m´ethode fonctionne,
car deux esp`eces ont normalement deux compositions diff´erentes de ADN. L’avantage de cette
m´ethode est que elle a besoins moins de ressource (temps, RAM, calcul. . . ), cependant elle
travaille seulement efficace dans le cas o`
u la composition ADN des esp`eces sont diff´erentes.
11


Au contraire, si la composition de deux esp`eces sont similaires (deux esp`eces de mˆeme gerne

par exemple), cette m´ethode ne peut pas les distinguer.
La plupart des pipelines actuels combinent deux caract´eristiques dans un mod`ele pour augmenter la pr´ecision de binning. Voyez un pipeline de MetaBAT dans le figure 5. Le tableau
2 montre des pipelines de binning taxonomique.

Table 2 – R´esum´e des pipelines de binning taxonomiques dans les travaux pr´ec´edents.
Pipeline
GroopM [32]
CONCOCT [33]

MaxBin [34]
MetaBAT [35]

MyCC [36]

2.2

Caract´eristiques
TNF et co-abondance *
TNF
et
co-abondance,
m´elanger deux caract´eristiques
dans une vecteur.
TNF et co-abondance
TNF et co-abondance

Algorithme
Clustering it´eratif
Gaussian mixture model et
Bayesian approximation


Expectation–Maximization
k-medoid clustering TFN euclidien ajust´e et abondance
probabiliste
4-mers, 5 -mers et 5p6 mers Affinity propagation clustering
et co-abondance (optionnel),
r´eduire la dimension
* TNF : fr´equence de t´etra-nucl´eotidiques

´
Enonc´
e du probl`
eme

Une ´equipe du laboratoire ICAN propose une nouvelle m´ethode pour le binning taxonomique. Ses chercheurs veulent augmenter la pr´ecision de binning en r´esolvant des inconv´enient
des travaux actuels :
— La m´ethode de binning bas´e sur les g´enomes de r´ef´erence de Qin et al [1] cause des
pertes d’information de la diversit´e.
— Neilsen et al [26] , Li et al [37] proposent une m´ethode bas´e sur l’abondance des
s´equences. Cette m´ethode conduit `a un nombre consid´erable de contigs/g`enes non
class´es, y compris :
— Des r´egions partag´ees : le profil d’abondance n’est pas corr´elatif.
— Des r´egions sp´ecifiques de strain : Aucun profil de co-abondance et/ou aucun profil
g´enomique similaire
— Les travaux actuels perdent a` suivre la trace des strains de l”´echantillon avec des
ph´enotypes sp´ecifiques.
12


Pour r´esoudre ces probl`emes, l’´equipe de l’ICAN propose une m´ethode qui se compose quatre

tˆaches principales : pr´eparasion de donn´ees, interclustering, intraclustering et combinaision.
Le figure 6 montre la sch´ema de m´ethode propos´e par l’´equipe.
La pr´eparation de donn´ees est divis´ee en trois pipelines. Les restes sont trois pipelines. Nous

Figure 6 – Le sch´ema global de binning taxonomique. Rectangles bleus : developp´es par
nous. Rectangles jaunes : d´evelopp´es par l’´equipe de ICAN (dans l’avenir)
avons totalement six pipelines.
Nous devons d’abord proposer un prototype pour utiliser dans tous les pipelines du projet.
Ensuite, nous impl´ementons quatre parmi six pipelines. En fin, nous allons tester les pipelines
pour faire binning taxonomique avec une donn´ees r´eelle : METAHIT [2].
Donc, ce travail a trois objectifs :
1. Proposer une pipeline de prototype pour des probl`emes connus de m´etag´enomique.
Cette pipeline doit ˆetre flexible et norme. Nous allons appliquer ce prototype pour
toutes les pipelines m´etag´enomiques. D´evelopper quatre pipelines bas´e sur la m´ethode
propos´ee pour le binning taxonomique. Les pipelines doivent ˆetre capable de traiter
et analyser des grandes donn´ees. Ils sont ind´ependants pour ˆetre utilis´es dans d’autres
tˆaches.
2. Proposer d’une mesure de similarit´e des segments d’ADN bas´e sur l’annotation phylog´en´etique (distance phylog´en´etique)
3. Analyser la donn´ees METAHIT avec nos pipelines afin de trouver des rMGSs et de
valider nos pipelines. Le r´esultat permet de comparer avec d’autres travaux pr´ec´edents.

13


Chapitre 3 : M´
ethodes propos´
ees
Nous commen¸cons par d´ecrire le prototype de pipeline dans la section 3.1. Nous allons
parler des composants, de la structure et du flux de travail. Nous d´ecrivons aussi la fa¸con
d’int´egration des composants. L’impl´emente d´etaill´e des pipelines vont d´ecrire en section 4.1.

Ensuite, nous proposons une m´ethode afin de mesurer la similarit´e entre des segments d’ADN
dans la section 3.2. Nous allons d´ecrivons d’abord la formule, la fa¸con de calculer la distance
entre deux segments et la m´ethode de s´election les param`eres. Le r´esultat de la s´election
du mod`ele va aborder en section 4.2. Enfin, nous d´ecrivons la donn´ees METAHIT et notre
strat´egie de test, section 3.3. Les r´esultats de test sont pr´esent´es en section 4.3.

3.1

Prototype de pipeline

Contexte : Quand on travaille avec les donn´ees m´etag´enomiques, on doit typiquement
passer plusieurs ´etapes. Chaque ´etape donc a besoin des donn´ees et param`etres sp´ecifiques.
Les chercheurs (particuli`erement ce qui ne travaille pas dans le domaine d’informatique)
rendent des probl`emes de : (1) int´egration des ´etapes, (2) gestion des param`etres, (3) gestion
des donn´ees entr´ees, sorties. Un pipeline est un ensemble d’´etape connect´e dans une s´erie
o`
u la sortie d’une ´etape est l’entr´ee de la suivante. Dans des projets complexes, nous devons
travailler a` la fois avec des pipelines diff´erents. La sortie d’un pipeline devient l’entr´ee d’autre
pipeline. Si les pipelines ne suivent pas un standard, il sera difficile a` les int´egrer.
Objectif : Proposer un prototype de pipeline qui vont utiliser comme un standard de tous
les pipelines m´etag´enomiques. Le prototype suit quatre principes :
— Facile a` utiliser : les utilisateurs sont des personnes dans des domaines diff´erents
(m´edecins, biologistes etc). Ils vont travailler dans la couche la plus haute, ils veulent
plutˆot les r´esultats, ils ne s’int´eressent pas les codes, les configurations compliqu´ees. . .
Le pipeline final dois ˆetre claire et simple. Les utilisateurs lancent seulement une ou
deux commandes de shell pour ex´ecuter une tˆache complexe.
— Contrˆole : les utilisateurs ont le droit de contrˆoler toues les param`etres et les processus.
Il y a aussi les param`etres fournis par d´efaut.
— Flexible : le prototype doit ˆetre adapt´e aux pipelines diff´erents pour r´esoudre des
probl`emes m´etag´enomiques.

— Facile `a mainternir, a` modifier.
Le prototype de pipeline (la figure 7) se compose trois composants principaux : configuration,
d´efinition de donn´ees, g´en´erateur de commande. Les donn´ees et les outils sont l’entr´ee de
pipeline. La sortie est des commandes. La gestion des r´epertoire sert `a g´erer les chemins
entr´ees et sorties de chaque ´etape du pipeline.
Les pipelines finaux ont normalement des ´etapes, chaque ´etape demande un ou des outils
particuliers. La plupart des outils sont impl´ement´es par les autres auteurs, nous essayons
donc de combiner les outils s´epar´es dans un pipeline complet pour r´esoudre un probl`eme
14


Figure 7 – Prototype de pipeline. Le g´en´erateur lit les configuration et les m´etadonn´ees
pour g´en´erer et appeler les commandes
concr`ete. Nous impl´ementons aussi quelques propres outils qui n’existent pas ou qui est trop
complexe `a int´egrer.
Pour lancer un pipeline, les utilisateurs doivent :
— D´ecrire les donn´ees : les ´echantillons, les noms du fichier correspondant.
— D´ecrire les param`etres : chaque ´etape du pipeline a besoins d’une ensemble de param`etre.
— Ex´ecuter ´etape par ´etape ou lancer un pipeline complet.
3.1.1

Tableau de donn´
ees

Dans des projets m´etag´enomiques, on doit analyser un grand nombre d’´echantillon. Chaque
´echantillon inclut un ou des “run”. Il faut trouver une fa¸con efficace pour g´erer ces m´etadonn´ees.
Nous proposons d’utiliser un fichier .json pour stocker les m´etadonn´ees, car ce type de fichier
est structur´ee, l´eg`ere et facile a` d’extraire les informations. Ce fichier contient :
— L’identification des ´echantillons.
— L’identification de “run” *

— Le nom de fichier correspondant
* run : Une ´echantillon peut faire s´equen¸cage une ou plusieurs fois, chaque fois est un “run”
La structure du tableau de donn´ees est montr´e dans le listing 3.
Listing 3 – La structure de la table de donn´ees
{
” sample ID ” : {
” run ID ” : [ ” r e a d s 1 ” , ” r e a d s 2 ” ]
}
}

Exemple : On a une ´echantillon MH0009, l’identification de “run” est 081224, les noms
du fichiers sont MH0009 081224.1.fastq.gz pour reads 1 et MH0009 081224.2.fastq.gz pour

15


reads 2. Listing 4

Listing 4 – Un exemple de tableau de donn´ees
{
‘ ‘ MH0009 ’ ’ : {
‘ ‘ 0 8 1 2 2 4 ’ ’ : [ ‘ ‘ MH0009 081224 . 1 . f a s t q . gz ’ ’ , ‘ ‘ MH0009 081224 . 2 . f a s t q . gz ’ ’ ]
}
}

3.1.2

Configuration

Un pipeline se compose des outils. Un outil a besoins des param`etres a` fournir. Il faut

aussi configurer les r´epertoires entr´ees et sorties. Ces param`etres sont stock´ees dans un fichier
.json. Voyez listing 5
Listing 5 – Fichier de configuration. Les param`etres sont stock´es dans un fichier .json
{
” a n a l y s e p a t h ” : ” / data / p r o j e c t s / rmgs / s e g m e n t a t i o n / d a t a l ” ,
” tmp path ” : ” / data / p r o j e c t s / rmgs / s e g m e n t a t i o n / d a t a l /tmp ” ,
” assembly ” : {
” input dir ”:”1. Preprocessing ” ,
” o u t p u t d i r ” : ” 2 . Assembly ” ,
”mink ” : 3 5 ,
”maxk ” : 4 5 ,
” step ”:2 ,
” seed kmer ” : 1 7 ,
” min contig ”:500 ,
” p r e c o r r e c t i o n ” : true ,
” similar ”:0.9 ,
” Ns thresdhold ”:200
}
}

3.1.3

Outils

Chaque pipeline a un ensemble de outils particuliers pour r´esoudre des tˆaches concr`etes.
Toutes ces outils sont install´es dans un r´epertoire pour faciliter la gestion et la mise `a jour.
Nous avons install´e des outils qui sont utilis´es fr´equemment dans tous les pipelines, y compris :
IDBA UD [38], bowtie2 [39] , trimmomatic [40] , MetaGenMark [27].
3.1.4



en´
erateur de commande

Ce script est ´ecrit en Python. Le g´en´erateur vise a` cr´eer des commandes corrects de
shell bash selon des outils, param`etres et donn´ees disponibles. Le g´en´erateur fait des ´etapes
suivantes :
— Lire des m´etadonn´ees.
— Lire des configurations.
16


— G´en´erer des commandes selon des donn´ees et des param`etres.
— Ex´ecuter des commandes.
— Stocker les r´esultats et les r´esum´es.

3.2

La distance phylog´
en´
etique des s´
equences d’ADN

Contexte : Quand on travaille avec des donn´ees de m´etag´enome, on trouve que les microbes partagent typiquement des s´equences communes. Dans l’´etape d’assemblage, nous
essayons de reconstruire des longues s´equences `a partir des reads. Ces s´equences contiennent
des morceaux partag´es entre deux ou des esp`eces. Si on calcule l’abondance de ces s´equences,
le niveau d’abondance n’est pas coh´erent, car l’abondance de segments partag´e est normalement plus haut que le segment non partag´e. Notre ´equipe impl´emente un mod`ele de s´eparer
deux types de segment bas´e sur le mod`ele de Poisson et le framework Bayes. Ce mod`ele doit
passer une ´etape de lissage qui a besoin de deux param`etres : reg et win.
Mod`

ele de segmentation :
— D´ecrire la distribution d’abondance avec un mod`ele de Poisson mixture
— Classer chaque base dans une ´etiquette en basant l’inf´erence bay´esienne sur la distribution d’abondance.
— Lissage pour r´eduire le bruit : Lissage de r´egression lin´eaire
Apr`es la segmentation, des segments de mˆeme distribution sont class´es dans une classe. Donc,
nous attendons que les segments de mˆeme classe vont appartenir `a une mˆeme annotation
taxonomique.
Objectif : Proposer une mesure de distance pour estimer la similarit´e des segments bas´e sur
l’anonotation taxonomique. Nous l’appelons la distance phylog´en´etique, car elle se base sur
la distance entre des annotations sur l’arbre de phylog´en´etique.
Usage : Nous utilisons cette mesure dans l’´etape de s´election du mod`ele. Un sous-ensemble
de ´echantillon sont choisis de fa¸con al´eatoire. Ces ´echantillons sont pass´ees dans plusieurs
mod`ele de segmentation o`
u chacun prend un ensemble de param`etre (l’´ecart de param`etre se
base sur la longueur du reads : 50%, 100%, 150%, 200% etc).
Algorithme :
— Un fragment est align´e avec une base de donn´ees de r´ef´erence (NCBI nt). Les taxons
sont extraits bas´e sur la qualit´e de l’alignement (la longueur, l’indentit´e). Chaque
fragment aligne avec un ensemble de taxon.
— Construction l’arbre phylog´en´etique entre des taxons (annotation) en utilisant une
base de taxonomique par exemble Entrez [49].
— La distance entre des annotations est calcul´e par la distance du plus proche ancˆetre
commun entre des annotation sur l’arbre phylog´en´etique.
— La distance de deux fragments sont calcul´ee par la distance entre deux ensembles des
annotations.

17


— Le meilleur mod`ele est ce qui a la distance minimale.

3.2.1

La mesure de distance

La distance entre deux fragments sont calcul´e selon la distance phylog´en´etique de deux
ensembles des taxons.
Supposons que :
— Le fragment X aligne avec des annotations X1 , . . . , Xn
— Le fragment Y aligne avec des annotations Y1 , . . . , Ym
Distance entre deux fragments est calcul´ee par la distance entre deux ensembles des annotations, regardez la figure 8.
Distance(X, Y ) = Distance({X1 , . . . , Xn }, {Y1 , . . . , Ym })

(1)

Figure 8 – La distance entre deux segments est mesur´ee par la distance phylog´en´etique
entre deux ensemble des anotations
Cette distance est calcul´ee par la distance moyenne des annotations dans X avec l’ensemble Y et l’inverse.
n
1

Distance({X1 , ..., Xn }, {Y1 , . . . , Ym }) =

distance(Xi ,{Y1 ,. . . ,Ym )}
n

+
2

m
1


distance(Yj ,{X1,. . . ,Xn })
m

(2)
La distance entre une annotation dans X avec un ensemble de Y est calcul´e par la distance
minimale entre l’annotation Xi avec tous les annotations dans Y.

Distance(Xi , {Y1 , . . . , Ym }) = min(distance(Xi , Yj )), j = [1, m]

(3)

La distance entre deux annotations est calcul´e selon la m´ethode “le plus proche ancˆetre commun”, figure 9.
Distance(Xi , Yj ) = distance entre deux annotations sur l’arbre de phylogenetique.
Une longue s´equence peut ˆetre segment´ee en plusieurs segments. Il y a des segments de
mˆeme ´etiquette (mˆeme esp`ece). Un bon mod`ele doit ´etiquetter corretement des segments.
Autrement dit, si deux segments sont class´es en mˆeme groupe (´etiquette), leurs ensembles de
18


×