E : Informatique, statistiques et calcul scientifique

Ingénieur d'études

Concours N° 106

Délégation organisatrice : Ile-de-France Meudon (DR 05) (MEUDON)

 

Nbre de postes : 2
Emploi-type : Ingénieur-e en calcul scientifique

1er poste du concours N° 106

Affectation : Institut de l'information scientifique et technique, VANDOEUVRE LES NANCY
Groupe de fonction : Groupe 3

 

Mission :  
- Mettre en œuvre des méthodes mathématiques et des techniques informatiques pour
développer des services d'analyse automatique de données et textes.
- Participer aux différentes phases du cycle de vie des projets de valorisation de
données: analyse, développement, qualification, intégration, déploiement dans le
respect du cahier des charges, des normes et des règles de sécurité et de confidentialité.
- Contribuer à l'interprétation et à l'analyse des résultats

 

Activités :  
- Contribuer au développement d'une boite à outil nécessaire à l'analyse et à la
fouille de textes
- Participer à la planification des cycles de développement
- Réaliser les calculs, le traitement des données et l'intégration des composants
développés
- Collecter, sélectionner et valider les données pertinentes pour le projet
- Identifier la problématique d'analyse et de fouille de textes du projet à partir des besoins exprimés
- Améliorer la qualité et enrichir les métadonnées associées aux documents
- Déterminer les outils et méthodes de traitement et d'analyse
- Convertir, coder et intégrer les outils, programmes dans les workflows de traitement des données
- Maîtriser la qualité des données tout au long de leur traitement
- Effectuer une veille sur les avancées techniques et scientifiques du domaine
- Participer à des conférences ainsi qu'à la rédaction d'articles scientifiques et à des opérations de formation

 

Compétences :  
Savoirs :
- Connaissance des méthodes « word embedding » et des réseaux neuronaux
- Connaissance des maths appliquées (statistiques et probabilités)
- Connaissance des algorithmes et technologies d'exploration et de traitement des données
- Connaissance des méthodes et techniques d'apprentissage automatique, machine learning et de l'analyse statistique
- Connaissance des méthodes et technologies d'ingénierie documentaire et linguistique
- Connaissance des méthodes et outils de représentation par graphes et visualisation des données

Savoir-faire/Compétences opérationnelles :
- Maîtrise Python et les bibliothèques d'analyse et de traitement de données
(Spacy, Scikit, Scipy, Tensorflow, NLTK¿, NLP/TAL)
- Connaissance des formats documentaires (XML, JSON) et des méthodes de traitement des données volumineuses
- Connaissance des langages de programmation (NodeJS, API REST, Docker,MongoDB)
- Connaissance d' un ou plusieurs langages de traitement et de transformation de données (Exemple : XSLT)
- Utiliser les environnements Ubuntu, Shell, Git (hub)
- Rédiger et mettre à jour la documentation fonctionnelle et technique
- Piloter un projet et mettre en œuvre des méthodes agiles (Scrum, XP, Kanban ...)
- Maîtriser l'anglais technique

Savoir-être/Compétences comportementales :
- Autonomie
- Rigueur
- Travailler en équipe
- Être force de proposition
- Sens relationnel

 

Contexte :  
L'Institut de l'information scientifique et technique (lnist - CNRS), Unité d'Appui à la Recherche (UAR76) du CNRS, facilite l'accès, l'analyse et la fouille de l'information scientifique et valorise la production scientifique (publications et données de recherche). Il siège, depuis 1989, dans un bâtiment conçu par l'architecte Jean Nouvel situé à Vandoeuvre Les Nancy (54500) et compte 156 collaborateurs.

Le ou la candidate intégrera le service « Text & Data Mining », composé de 9 personnes, qui développe et intègre des outils et méthodes de fouille de textes principalement pour valoriser les données proposées par l'unité notamment celles du fonds documentaire ISTEX (www.istex.fr)et de la base CorHAL. La base ISTEX est une archive de littérature scientifique pour la communauté enseignement supérieur et recherche française. La base ConditorL est un référentiel de la production de la recherche publique française.

L'institut applique sur les métadonnées et sur les documents de ces deux bases des
processus visant à les enrichir par l'ajout de nouvelles métadonnées (catégorisations, alignements, extraction de connaissances...), ceci dans le but de faciliter l'accès aux documents, l'exploration de corpus et les analyses thématiques ou bibliométriques.

2eme poste du concours N° 106

Affectation : Institut de l'information scientifique et technique, VANDOEUVRE LES NANCY
Groupe de fonction : Groupe 3

 

Mission :  
- Mettre en œuvre des méthodes mathématiques et des techniques informatiques pour
développer des services d'analyse automatique de données et textes.
- Participer aux différentes phases du cycle de vie des projets de valorisation de
données: analyse, développement, qualification, intégration, déploiement dans le
respect du cahier des charges, des normes et des règles de sécurité et de
confidentialité.
- Contribuer à l'interprétation et à l'analyse des résultats

 

Activités :  
- Contribuer au développement d'une boite à outil nécessaire à l'analyse et à la
fouille de textes
- Participer à la planification des cycles de développement
- Réaliser les calculs, le traitement des données et l'intégration des composants
développés
- Collecter, sélectionner et valider les données pertinentes pour le projet
- Identifier la problématique d'analyse et de fouille de textes du projet à partir des besoins exprimés
- Améliorer la qualité et enrichir les métadonnées associées aux documents
- Déterminer les outils et méthodes de traitement et d'analyse
- Convertir, coder et intégrer les outils, programmes dans les workflows de traitement des données
- Maîtriser la qualité des données tout au long de leur traitement
- Effectuer une veille sur les avancées techniques et scientifiques du domaine
- Participer à des conférences ainsi qu'à la rédaction d'articles scientifiques et à des opérations de formation

 

Compétences :  
Savoirs :
- Connaissance de l'écosystème IST et de son évolution
- Connaissance de l'écosystème recherche et de son évolution
- Connaissance des méthodes « word embedding » et des réseaux neuronaux
- Connaissance des maths appliquées (statistiques et probabilités)
- Connaissance des langages de programmation de calcul scientifique
- Connaissance d'un ou plusieurs langages de programmation et des technologies de structuration des données
- Connaissance des algorithmes et technologies d'exploration et de traitement des données
- Connaissance des outils de fouille de textes et de traitement du langage naturel (NLP/TAL)
- Connaissance des méthodes et techniques d'apprentissage automatique, machine
learning et de l'analyse statistique
- Connaissance des méthodes et technologies d'ingénierie documentaire et
linguistique
- Connaissance des méthodes et outils de représentation par graphes et visualisation des données

Savoir- faire/Compétences opérationnelles :
- Maîtriser Python et les bibliothèques d'analyse et de traitement de données
(Spacy, Scikit, Scipy, Tensorflow, NLTK...)
- Manipuler des formats documentaires (XML, JSON) et traiter des données
volumineuses
- Réaliser des analyses prédictives et statistiques à partir de différentes bases de données
- Mettre en œuvre plusieurs langages de programmation (NodeJS, API REST,
Docker, MongoDB)
- Utiliser un ou plusieurs langages de traitement et de transformation de données
- Utiliser les environnements Ubuntu, Shell, Git (hub)
- Rédiger et mettre à jour la documentation fonctionnelle et technique
- Mener des expérimentations
- Piloter un projet et mettre en œuvre des méthodes agiles (Scrum, XP, Kanban
...)
- Maîtriser l'anglais technique

Savoir-être/Compétences comportementales :
- Autonomie
- Rigueur
- Travailler en équipe
- Créativité
- Être force de proposition
- Sens relationnel

 

Contexte :  
L'Institut de l'information scientifique et technique (lnist - CNRS), Unité d'Appui à la Recherche (UAR76) du CNRS, facilite l'accès, l'analyse et la fouille de l'information scientifique et valorise la production scientifique (publications et données de recherche). Il siège, depuis 1989, dans un bâtiment conçu par l'architecte Jean Nouvel situé à Vandoeuvre Les Nancy (54500) et compte 156 collaborateurs.

Le ou la candidate intégrera le service « Text & Data Mining », composé de 9 personnes, qui développe et intègre des outils et méthodes de fouille de textes principalement pour valoriser les données proposées par l'unité notamment celles du fonds documentaire ISTEX (www.istex.fr)et de la base CorHAL.

La base ISTEX est une archive de littérature scientifique pour la communauté
enseignement supérieur et recherche française. La base ConditorL est un référentiel de la production de la recherche publique française.
L'institut applique sur les métadonnées et sur les documents de ces deux bases des
processus visant à les enrichir par l'ajout de nouvelles métadonnées (catégorisations, alignements, extraction de connaissances...), ceci dans le but de faciliter l'accès aux documents, l'exploration de corpus et les analyses thématiques ou bibliométriques.