La carte

Boulevard Professeur Jacques Monod

Les missions du poste

Poste rattaché au Service Data Factory & Analytics (Direction de la recherche et des data).
L'objectif principal est de développer une solution permettant d'automatiser le processus d'extraction d'informations pertinentes (périmètre des variables encore à définir) à partir de documents médicaux non structurés et d'évaluer les performances de cette solution.
Tâches principales :
-
Compréhension des données médicales : familiarisation avec les différents types de comptes rendus médicaux. Analyse des spécificités linguistiques et des structures de ces documents.
-
Appréhension de la pipeline d'extraction existante.
-
Adaptation de la pipeline d'extraction existante et/ou développement d'une nouvelle : conception et mise en oeuvre d'un pipeline automatisé utilisant Mistral AI pour extraire les variables d'intérêts à partir des documents médicaux, et permettant d'alimenter une base de données structurée.
-
Évaluation de la performance de la solution en termes de précision, de rappel et de F1-score en utilisant une base de données manuellement saisie comme Gold Standard.
-
Identification des opportunités d'amélioration et itération du modèle pour une extraction plus performante.
-
Adaptation du process pour extraire différentes variables.
Cette alternance offre une opportunité unique d'acquérir des compétences pratiques en data science appliquée à la santé, tout en contribuant au développement d'une solution innovante essentielle pour exploiter des données médicales non structurées. L'alternant(e) travaillera en étroite collaboration avec une équipe multidisciplinaire composée de spécialistes en biostatistique, data science et en oncologie.
Références :
1. Schiappa R, Contu S, Culie D, Thamphya B, Chateau Y, Gal J, et al. RUBY: Natural Language Processing of French Electronic Medical Records for Breast Cancer Research. JCO Clin Cancer Inform. 2022 Jul;6:e2100199. doi:10.1200/CCI.21.00199 PubMed PMID: 35960900; PubMed Central PMCID: PMC9470144.
2. Savova GK, Ogren PV, Duffy PH, Buntrock JD, Chute CG. Mayo clinic NLP system for patient smoking status identification. J Am Med Inform Assoc JAMIA. 2008;15(1):25-8. doi:10.1197/jamia.M2437 PubMed PMID: 17947622; PubMed Central PMCID: PMC2274870.
3. Holmes B, Chitale D, Loving J, Tran M, Subramanian V, Berry A, et al. Customizable Natural Language Processing Biomarker Extraction Tool. JCO Clin Cancer Inform. 2021 Aug;5:833-41. doi:10.1200/CCI.21.00017 PubMed PMID: 34406803.
4. Hanauer DA, Barnholtz-Sloan JS, Beno MF, Del Fiol G, Durbin EB, Gologorskaya O, et al. Electronic Medical Record Search Engine (EMERSE): An Information Retrieval Tool for Supporting Cancer Research. JCO Clin Cancer Inform. 2020 May;4:454-63. doi:10.1200/CCI.19.00134 PubMed PMID: 32412846; PubMed Central PMCID: PMC7265780.
5. Carrell DS, Halgrim S, Tran DT, Buist DSM, Chubak J, Chapman WW, et al. Using natural language processing to improve efficiency of manual chart abstraction in research: the case of breast cancer recurrence. Am J Epidemiol. 2014 Mar 15;179(6):749-58. doi:10.1093/aje/kwt441 PubMed PMID: 24488511; PubMed Central PMCID: PMC3939853.
6. Banerjee I, Bozkurt S, Caswell-Jin JL, Kurian AW, Rubin DL. Natural Language Processing Approaches to Detect the Timeline of Metastatic Recurrence of Breast Cancer. JCO Clin Cancer Inform. 2019 Oct;3:1-12. doi:10.1200/CCI.19.00034 PubMed PMID: 31584836.
7. Joseph E, Vallee P, Perennec T, Wagneur N, Frenel JS, Campone M, et al. Development and Assessment of a Pipeline for Extracting Structured Data From Free-Text Medical Reports Using a Large Language Model. JCO Clin Cancer Inform. 2026 Feb;10:e2500133. doi:10.1200/CCI-25-00133 PubMed PMID: 41707099; PubMed Central PMCID: PMC12928813.