Bioinformatique-Modélisation

Plateformes de calcul scientifique

Le Centre de Calcul Régional ROMEO est une plateforme technologique de l’Université de Reims Champagne-Ardenne depuis 2002. Son rôle est de mettre à disposition des industriels et chercheurs de la région des ressources de calcul performantes, des espaces de stockage sécurisés, des logiciels adaptés, un accompagnement dans l’utilisation de ces outils ainsi qu’une expertise sur des domaines scientifiques et techniques avancés, le calcul à haute performance, les mathématiques appliquées, la physique, la biophysique et la chimie. L'accès au Centre de Calcul Régional ROMEO peut se faire sur demande dans le cadre d'un projet de recherche.

Le Centre Régional Informatique et d'Applications Numériques de Normandie (CRIANN) propose des services informatiques mutualisés mis au service de l'éducation, de la recherche et de l'innovation. Le CRIANN a pour mission d’aider les organismes publics et privés normands à développer des activités d’enseignement, de recherche et de développement basées sur l’utilisation des nouvelles technologies de communication et sur l’informatique. Pour cela, le CRIANN déploie des infrastructures informatiques à haut niveau de performance au service de l'enseignement supérieur, de la recherche et de l'innovation en Normandie. Pour les chercheurs des laboratoires publics, une procédure d’attribution d’heures de calcul a lieu deux fois par an (novembre et mai) lors des appels à projets scientifiques. Les nouveaux projets peuvent être accueillis au fil de l’eau en prenant contact avec le CRIANN pour étudier la faisabilité.

Une partie de nos travaux s’appuie sur  un cluster de calcul INERIS qui prend en charge les besoins de calculs ponctuels et offre un environnement souple et évolutif pour permettre la montée en compétence des collaborateurs à l’utilisation de plateformes de calculs scientifiques linux.  Les calculs intensifs ou massivement parallèles étant confiés au CCRT (Centre de Calcul Recherche et Technologie). Le CCRT est une des composantes du complexe de calcul scientifique du Très Grand Centre de Calcul du CEA (TGCC). L’INERIS est un partenaire du CCRT et possède ainsi un contrat de partenariat pluriannuel, gage de la construction d’une collaboration solide et pérenne et peut donc accéder au calculateur COBALT . Le calculateur COBALT  a une puissance de calcul crête de 2.4 PFlop/s et c’est une machine massivement parallèle (scalaire) conçue et fournie par Bull. Tous les nœuds de calculs et de traitement sont interconnectés par un réseau haute performance InfiniBand EDR. L’infrastructure pour le stockage local des données dispose d’une capacité de 2,5 Po.  

Modèle utilisés et développés

2.1. Modèles de toxicocinétique

Les modèles mathématiques les plus communément utilisés pour décrire la toxicocinétique d’un composé représentent les organismes comme un système de compartiments pour décrire l’évolution dans le temps, résultant des processus ADME, des concentrations tissulaires.

fish pbpk

Différents niveaux de complexité sont utilisés pour les modèles empirique : (i) les modèles à un compartiment, qui supposent que la concentration est uniforme au sein des tissus de l’organisme, et (ii) les modèles multi-compartimentaux qui supposent que les concentrations d’une substance chimique varient entre les organes et/ou groupes d’organes d’un organisme.

Pour obtenir une description réaliste de la cinétique au niveau de chacun des organes d’un organisme, on recourt généralement aux modèles toxicocinétiques à fondement physiologique (modèle PBPK pour Physiologically based Pharmacokinetic). Ce sont des modèles à compartiments qui décrivent, au moyen d’un système d’équations différentielles, les processus ADME en se basant sur des considérations anatomiques, physiologiques, biochimiques et physicochimiques. Ils reposent sur l’hypothèse que la distribution du contaminant, une fois entré dans l’organisme, s’effectue par la circulation sanguine et/ou par la circulation lymphatique. Tous les paramètres de ces modèles ont une signification physiologique ou biochimique. Deux catégories de paramètres sont généralement distinguées : les paramètres physiologiques qui ne dépendent pas du contaminant considéré (par exemple, le flux sanguin ou le volume des organes) et ceux spécifiques des substances chimiques considérées (par exemple, le coefficient de partage entre le sang et les organes, la vitesse de biotransformation).

Les modèles PBTK permettent d’extrapoler la toxicocinétique des molécules entre espèces, entre voies d’exposition, entre fortes et faibles doses, entre scénarios d’exposition (exposition continue ou aiguë), entre individus (variabilité interindividuelle), et pour un même individu (variabilité intra-individuelle) les modèles PBTK permettent d’extrapoler la toxicocinétique des molécules entre espèces, entre voies d’exposition, entre fortes et faibles doses, entre scénarios d’exposition (exposition continue ou aiguë), entre individus (variabilité interindividuelle), et pour un même individu (variabilité intra-individuelle)

Des modèles PBPK ont déjà été développés au sein de l'umr pour le poisson zèbre (Péry et al. 2014, Grech et al. 2019) et pour l'épinoche à trois épines (Grech et al. 2019).

2.2. Les modèles d'effet

Dynamic Energy Budget model

L’énergie est au cœur du cycle de vie des organismes dans la mesure où elle rend compte de la nutrition, de la croissance et de la reproduction. Ce concept, proposé pour la première fois par Thomas T. Young en 1807, est relatif en biologie à la faculté d’induire des réactions chimiques en opposition à l’évolution thermodynamique normale (Péry et al. 2017). Bas Kooijman en accord avec ce principe a proposé une approche intégrée : la théorie « Dynamic Energy Budgets » (Kooijman 2010). Cette théorie décrit quantitativement, par des modèles mathématiques réalistes, les grandes fonctions biologiques des organismes (nutrition, digestion, croissance, reproduction, maintenance et vieillissement).

DEB stickleback

L’énergie de l’organisme provient de la nourriture qui est absorbée à une vitesse proportionnelle à la surface du tube digestif de l’organisme, chaque unité de surface étant considérée comme homogène dans le temps et dans l’espace. La théorie DEB suppose ensuite l’existence d’une loi, dite loi Kappa, qui répartit l’énergie entre la part somatique et la part reproductive. De la part somatique, une portion est allouée à la maintenance des fonctions vitales, le reste étant consacré à la croissance du volume. Dans le cadre de la théorie DEB, l’entrée d’énergie est proportionnelle à la surface des organismes et la perte due à la maintenance est proportionnelle à leur volume. Or, le volume augmente avec la taille plus rapidement que la surface. Il arrive donc un moment, suite à l’augmentation de taille, où l’ensemble de l’entrée d’énergie est consommé par la fonction de maintenance. Il n’y a alors plus de croissance possible. La théorie DEB implique donc l’existence d’une taille maximale des organismes.

Le modèle DEB est utilisé en écotoxicologie (modèle DEBtox) pour décrire les effets des polluants sur les organismes. Le modèle DEB est ensuite couplé à un modèle TK / TD et suppose que l'effet sur un paramètre du modèle apparaît lorsque la concentration toxique interne dépasse un seuil appelé concentration sans effet (NEC).

Des modèles DEB et DEBtox ont déjà été développés au sein de l'umr pour différents organismes tels que les crustacés (Massarin et al., 2011), les vers (Goussen et al., 2015) et les poissons (Le Loutre et al., 2016 et David et al., 2018).

 

Matrix population models

 

Indvidual-based model

Les modèles individus centrés (IBM) décrivent la dynamique des populations en modélisant les processus de chaque individu de cette population. Les individus (ou agents) peuvent interagir avec les autres agents et leur environnement, et chaque individu peut être unique et autonome. De plus, un modèle IBM peut être couplé à un modèle DEB qui décrit les processus physiologiques de chaque individu (entretien, croissance, reproduction).

Fichier vidéo

Les modèles IBM sont utiles pour comprendre les propriétés résultantes au niveau de la population telles que la persistance, la résilience ou la régulation de toutes les interactions entre les individus et leur environnement. Ils peuvent par exemple être utilisés pour répondre à des questions scientifiques, aider à la prise de décision et à la gestion. De plus, ces modèles suscitent un intérêt croissant en écotoxicologie car ils intègrent les connaissances mécanistes disponibles sur les liens entre les réponses au niveau individuel et les réponses au niveau de la population. Par conséquent, ils peuvent prédire les effets d'un produit chimique sur une population à partir des effets observés sur les organismes lors d'expériences en laboratoire. Pour ce faire, les modèles IBM doivent d'abord pouvoir décrire avec précision la dynamique des populations dans différentes conditions écologiques afin d'être utilisés en écotoxicologie pour détecter les effets directs et indirects d'un produit chimique sur cette population.

La conséquence du haut niveau de complexité et de précision des IBM est que ces modèles nécessitent une grande quantité de données sur les processus physiologiques impliqués au niveau de l'organisme. Ensuite, imbriquer un modèle DEB dans une dynamique de population IBM peut être utile lorsque des modèles existants et / ou des données sur la physiologie au niveau de l'organisme sont disponibles.

Des modèles DEB-IBM ont déjà été développés au sein de l'umr pour le poisson zèbre (Beaudouin et al, 2015) et pour l'épinoche à trois épines (David et al, 2019a et b).

Logiciels utilisés et développés

 

Outils "omiques"

L'utilisation des techniques "omiques" (génomique, transcriptomique, protéomique, métabolomique...) nécessite d'avoir des outils spécialisés pour le traitement des larges jeux de données (listes non exhaustive) : 

  • Outils multiomiques transdisciplinaires pour la bioinformatique et la biostatistique : R (librairies : topGOKEGGREST, mixOmics, WGCNA, vegan...), BLAST2GO (annotation de transcrits/protéines) ;
  • Outils destinés à la génomique : GATK et pLink (analyse de variants, SNPs...)
  • Outils destinés à la transcriptomique : Galaxy et DRAP (RNAseq), GATKpLink, librairies R (DESeq2, edgeR,...) ;
  • Outils destinés à la protéomique : Delta2D et Melanie (Analyse de gels 2D), Mascot et xTandem et xTandemPipeline (Identification de protéines par MS/MS), Scaffold (visualisation de données MS/MS), MassChroQ (quantification de spectres LC-MS), PyMOL (modélisation 3D de la structure protéique), librairies R (qvalue...). 
  • Outils destinés à la métabolomique : ?

Les outils gratuits/libres sont indiqués en gras, les logiciels à licences payantes disponible dans l'unité sont en italique

 

MCSim : https://www.gnu.org/software/mcsim/ GNU

MCSim est un logiciel libre de simulation mathématique. Il permet d’implémenter et résoudre des modèles différentiels ou algébriques, d’effectuer pour ces modèles des calculs statistiques d’incertitude ou de sensibilité par la méthode de Monte-Carlo ainsi que des calculs d’inférence bayésienne par le biais de la méthode des chaînes de Markov simulées. Les dernières versions offrent la possibilité de faire de l'intégration thermodynamique et la parallélisation sur plusieurs processeurs.

Netlogo : https://ccl.northwestern.edu/netlogo/

NetLogo est un langage de programmation et un environnement de modélisation pour le développement de système multi-agents. Développé par l'université Northwestern et financé par la National Science Foundation, NetLogo a été conçu et rédigé par Uri Wilensky, directeur de l'université de Northwestern. Il est utilisé dans l'enseignement et dans le domaine professionnel sans pour autant avoir des connaissances en programmation pour modéliser des phénomènes liés.De même, il est particulièrement adapté pour la modélisation de systèmes complexes sur un parcours de temps. De nombreux modèles (biologie, physique, chimie, psychologie, économie, etc.) y sont présents et l'utilisateur a la possibilité d'y en ajouter ou d'en modifier.