WP3 Outils pour opérer la médecine de trajectoire | My way to health

Objectifs

L'une des principales lacunes de la médecine des trajectoires est le manque d'intégration de l'ensemble des déterminants individuels, y compris les facteurs cliniques, environnementaux, sociaux, sociétaux et comportementaux, dans la prédiction des réponses et des résultats du traitement des patients. Différents ensembles de données existent déjà ou seront produits et collectés par les partenariats du projet CDP dans une grande variété de formats. Pour surmonter cette hétérogénéité, l'objectif de ce WP est de relever à la fois les défis techniques de l'intégration de ces données dans un référentiel centralisé et unique et les questions complexes de sécurité et de réglementation liées à la nécessité d'un accès à distance par les partenaires académiques et industriels pour effectuer des analyses grâce à un nuage d'analyse de big data. Cette plateforme sécurisée fournira des couches d'infrastructure, d'analyse, d'interopérabilité, de contrôle de la qualité, de sécurité, de confidentialité et de service pour la collecte, l'agrégation, le stockage, l'accès, l'analyse et la visualisation de données multi-échelles selon une conception centrée sur l'utilisateur. Nous construirons cette plateforme sécurisée sur la base des connaissances préalables que nous avons acquises en utilisant différentes bases de données.

Base de données MARS

La base de données MARS est une cohorte clinique en vie réelle qui a été mise en place en 2016, avec les autorisations administratives et éthiques appropriées (C.C.T.I.R.S N°15.925bis, obtenu le 23 mars 2016 ; Déclaration CNIL conforme à la méthodologie de référence MR003 N° 1996650v0 obtenue le 5 octobre 2016). Tous les patients de la base de données ont signé un consentement éclairé écrit avant d'être inclus. Le taux d'inclusion est de plus de 300 patients/mois, avec 8 000 patients de notre CHU et 4 000 patients d'autres centres hospitaliers déjà inclus dans la base de données. Cette solution de données complète et sécurisée résout les problèmes d'acquisition de données de santé au cours du processus de soins, de data banking avec des données brutes (~1 000 polysomnographies, données DICOM issues de l'imagerie (300 tomodensitogrammes cérébraux et IRM, 150 tomodensitogrammes thoraciques et 250 échocardiographies) et de connecter ces ensembles de données avec l'IoT et les dispositifs connectés pour capturer les trajectoires de santé des patients sous traitement du SAOS. Nous sommes actuellement en train de relier cette base de données hautement phénotypée aux données SNDS des services de santé nationaux.

Système d'information, de stockage et de gestion de données EpiMed

Un système de traitement et de stockage de l'information a été développé par EpiMed pour permettre et faciliter l'utilisation des données Omics. Ce système intègre principalement des données d'expression et d'épigénomique, provenant de sources publiques ou produites par nos équipes à partir d'individus dans divers contextes cliniques ou épidémiologiques. La spécificité de ce système est que son objectif principal est de faciliter la mise en place d'approches "concept-driven" pour l'analyse des données, guidées par des questions scientifiques spécifiques et pouvant être implémentées dans différentes technologies et plateformes génomiques,

Plus précisément, ce système d'information s'appuie sur trois composantes principales pour la gestion : i/ des données omiques dans divers formats (méthylomes, transcriptomes, ChIPseq...), ii/ des annotations cliniques et d'échantillons, iii/ des annotations de gènes et de régions génomiques ; avec des mises à jour régulières. Ces pipelines sont accessibles via le site web d'EpiMed. En outre, les pipelines, outils et packages spécifiques développés par EpiMed sont également accessibles en ligne.

EpiMed contribue financièrement à l'infrastructure informatique du mésocentre CIMENT/GRICAD (4 éléments de stockage et 4 nœuds de calcul) et siège au comité des utilisateurs, ce qui lui donne un accès prioritaire à une partie de l'installation tout en bénéficiant des ressources informatiques mises en commun. EpiMed a accès à ses serveurs pour héberger les bases de données et le système d'information d'EpiMed (3 serveurs Winter UAR GRICAD) et à ses installations de stockage de données (contribution d'EpiMed au stockage de Bettick : ~250To sur 1.3Po ; Environ 60 To de stockage sécurisé sur l'UAR d'été).

Exploration de la dynamique des protéomes Système d'information EDyP et stockage et gestion des données

L'équipe EDyP est certifiée ISO:9001 et NFX50-900. Les données protéomiques produites seront de plusieurs types : i) fichiers bruts issus des spectromètres de masse (raw ou autre format propriétaire), ii) données traitées (.mgf, .dat, .txt, .mzIdentML, etc.), iii) résultats retraités et consolidés (.xlsx, .pptx, .docx, etc.).

Toutes les données brutes de spectrométrie de masse sont introduites dans un LIMS interne (ePims) permettant l'organisation, le stockage et la sauvegarde automatiques. Les métadonnées telles que les paramètres d'acquisition, le type d'appareil ou la version du logiciel sont incluses dans les fichiers bruts. Le stockage utilise des baies NetApp avec un système de miroir, géré par l'infogérance du CEA. Le logiciel Proline utilisé pour l'identification et la quantification des protéines conserve toutes les métadonnées associées au processus. Les bases de données sous-jacentes ainsi que les analyses quantitatives, les résultats d'identification, etc. sont stockés sur les serveurs de l'équipe, sauvegardés hebdomadairement par le système du CEA.