Le projet
- Concevoir l’architecture globale des services IA (LLMOps).
- Orchestrer les modèles et les pipelines de traitement.
- Définir et mettre en œuvre des architectures RAG adaptées aux cas d’usage (Advanced, Graph, Agentic).
- Concevoir et optimiser les bases vectorielles (Vector DB).
- Gérer le cycle de vie des prompts et le fine-tuning de modèles spécialisés.
- Mettre en place des pipelines automatisés de déploiement et de monitoring.
- Industrialiser les workflows ML (MLflow, Kubeflow, Airflow, DVC…).
- Optimiser les coûts d’inférence (gestion des tokens, choix des modèles).
- Assurer la qualité et la robustesse des modèles en production.
- Piloter l’infrastructure Cloud et Kubernetes.
- Garantir la montée en charge et la haute disponibilité des services.
- Optimiser l’utilisation des ressources (CPU/GPU).
- Améliorer les performances globales de la plateforme.
- Mettre en place des mécanismes de :
- mesure de pertinence,
- réduction des hallucinations,
- re-ranking des résultats.
- Assurer la traçabilité des sources dans les réponses générées.
- Intégrer une approche “confidentialité by design”.
- Garantir la protection des données sensibles.
- Assurer la conformité aux réglementations (RGPD, AI Act).
- Contribuer aux enjeux de souveraineté des données.
Profil recherché
- MLflow, Kubeflow, DVC, Airflow
Niveau : Confirmé
- SQL, document, graph, vector databases (Elasticsearch, OpenSearch, Weaviate)
Niveau : Expert
- AWS, Azure ou GCP
- Terraform, Ansible
Niveau : Confirmé
- Langchain, LlamaIndex
Niveau : Expert
- Docker, Kubernetes
Niveau : Confirmé
- Python, Spark
- PyTorch, TensorFlow, Scikit-learn
- NVIDIA, Triton
Niveau : Expert