E : Informatique, statistiques et calcul scientifique

Ingénieur d'études

Concours N° 109

Délégation organisatrice : Ile-de-France Meudon (DR 05) (MEUDON)

 

Nbre de postes : 1
Emploi-type : Ingénieur-e en calcul scientifique


Affectation : Institut de l'information scientifique et technique, VANDOEUVRE LES NANCY
Groupe de fonction : Groupe 3
Fonction mutualisée: Non
Autre(s) institut(s) du poste mutualisé:
Autre(s) unité(s) du poste mutualisé:

 

Mission :  
La/le chargé(e) d'analyse de données et fouille de textes participe aux différentes phases du cycle de vie des projets de valorisation de données : analyse, développement, qualification, intégration, déploiement dans le respect du cahier des charges, des normes et des règles de sécurité et de confidentialité.
Il/Elle sera amené(e) à mettre en oeuvre des méthodes innovantes en Intelligence Artificielle.

 

Activités :  
- Collecter, sélectionner et valider les données pertinentes pour le projet,
- Identifier les besoins et la problématique d'analyse et de fouille de textes du projet,
- Améliorer la qualité et enrichir les métadonnées associées aux documents,
- Déterminer les outils et méthodes de traitement et d'analyse,
- Convertir, coder et intégrer les outils, programmes dans les workflows de traitement des données,
- Maîtriser la qualité des données tout au long de leur traitement,
- Effectuer une veille sur les avancées techniques et scientifiques du domaine.
- Participer ponctuellement à des conférences ainsi qu'à la rédaction d'articles scientifiques et à des opérations de formation.

 

Compétences :  
Savoirs :
- Compétences en programmation et bonne compréhension des structures de données,
- Connaissance des méthodes « word embedding » et des réseaux neuronaux,
- Connaissance de NodeJS,
- Connaissance de l'API REST,
- Connaissance d'ElasticSearch
- Connaissance de l'outil de containerisation Docker
- Connaissance des bases de données MongoDB, PostgreSQL,

Savoir-faire :
- Maîtrise de Python et des bibliothèques d'analyse et de traitement de données (Spacy, Scikit, Scipy, Tensorflow, NLTK...),
- Maîtrise des méthodes et outils de fouille de textes, et de traitement du langage naturel (NLP/TAL),
- Maîtrise des méthodes d'apprentissage automatique et de l'analyse statistique,
- Capacité à réaliser des analyses prédictives et statistiques à partir de différentes bases de données,
- Maîtrise de Linux
- Savoir manipuler des formats XML, JSON et traiter des données volumineuses
- Capacité à analyser des données chiffrées et les synthétiser
- Pratique des méthodes agiles (SCRUM)
- Etre réactif et savoir organiser son travail en fonction des contraintes et des urgences
- Bonne compréhension orale et écrite en anglais : Niveau B1 (cadre européen commun de référence pour les langues)

Savoir être :
- Curiosité, ouverture d'esprit, être force de proposition
- Rigueur, autonomie, sens du travail en équipe

 

Contexte :  
L'INIST-CNRS est une unité d'appui à la recherche rattachée à la Direction des Données Ouvertes de la Recherche. Elle compte 154 agents et est située à Vandoeuvre les Nancy.
Dans le contexte du Plan national pour la science ouverte, l'INIST déploie ses activités autour de 3 axes cœur « Analyse et fouille de l'information », « Valorisation des données de la recherche », et « Accès à l'information scientifique ».

Le poste est rattaché au service « Text Data Mining » au sein du département « Analyse et fouille de l'information ».
Le service Text Data Mining développe et intègre des outils et méthodes de fouille de textes principalement pour valoriser les données proposées par l'Institut notamment celles du fonds documentaire ISTEX et de la base CONDITOR. La base ISTEX est une archive de littérature scientifique pour la communauté enseignement supérieur et recherche française. La base CONDITOR est le référentiel de la production de la recherche publique française.
L'institut applique sur les métadonnées et sur les documents de ces deux bases des processus visant à les enrichir par l'ajout de nouvelles métadonnées (catégorisations, alignements, extraction de connaissances...), ceci dans le but de faciliter l'accès aux documents, l'exploration de corpus et les analyses thématiques ou bibliométriques.

La personne recrutée travaillera avec une équipe mixte (fonctionnel, IT) utilisant la méthode de développement agile SCRUM, et contribuera à valoriser des données textuelles à l'aide d'outils et méthodes de « text and data mining » (TDM). Il/Elle participera à la planification des cycles de développement, réalisera les calculs, le traitement des données et l'intégration des composants développés.

Des déplacements occasionnels en France ou l'étranger sont à prévoir, notamment dans le cadre de conférences.