Détail des missions : Implémenter et mettre en place des traitements de données dans leur intégralité (data pipeline) :
Collecte et ingestion de flux de données
Modélisation et nettoyage
Traitement et transformation de la donnée collectée,
Contrôle de qualité / pertinence et détection des anomalies
Restitution des données sous divers formats
Industrialiser et déployer des pipelines de traitement On Premise et dans le Cloud (AWS, Azure) ;
Veiller à la gouvernance des données et mise en place de process MDM :
Rapprochement de données de différentes sources non homogènes
Dédoublonnage,
Normalisation,
Historisation
Calcul d'indicateurs et d'agrégats
Ordonnancer et planifier des traitements dans les environnements de production ;
Participer à l'évolution de la stack technique et au choix des outils (Framework interne, technologies BigData, Cloud,...) ;
Participer à la veille technologique et s'informer en permanence des nouveautés dans le domaine ;
Collaborer avec une équipe de DevOps pour la mise en place des outils Big Data et assurer la sécurité des données ;
Optimiser les traitements, revues de code ;
Environnement technique Technologies et langages :SQL/T-SQL, Hadoop, Spark, Scala, Python (PySpark), Hue, Zeppelin, Suite MS BI (SQL Server, SSIS, SSRS), PowerShell, Shell Unix, AWS (S3, Glue), Docker/Kubernetes, Frameworks `maison`, Power BI, tableau software.Organisation et agilité :Gitlab, Scrum/JiraProfil recherché Vous justifiez d'une expérience professionnelle de 2 ans minimum dans la data et avez déjà travaillé sur un environnement Bigdata avec Spark et Hadoop ;
Vous êtes à l'aise avec dans des environnements algorithmiques complexes ;
Vous êtes autonome, rigoureux, force de proposition vous avez un bon relationnel ;
Vous êtes passionné par la data ;
Vous êtes diplômé(e)s d'une école d'informatique ;
Vous avez développé une appétence à la compréhension fonctionnelle ;
Des connaissances Cloud (AWS, Azure) seraient un plus.