CoGenAI

CoGenAI est une plateforme d'IA générative collaborative conçue pour les laboratoires de recherche et les entreprises qui ont besoin de leur propre environnement IA sécurisé et adapté. Elle vulgarise l'IA de niveau recherche via une interface intuitive et des appels API prêts à l'emploi, permettant aux non-experts en NLP et aux non-codeurs de construire, déployer et servir des SLM personnalisés et des pipelines RAG.

CoGenAI est en phase de développement actif et de test interne. Si vous souhaitez le tester ou collaborer, contactez-moi.

Platform architecture, seven horizontal layers from users to model lifecycle

Fonctionnalités

Ingestion & Stockage de Données

Téléchargement de documents (PDF, DOCX, PPTX, images) vers le stockage objet MinIO avec organisation par bucket/catégorie
Découverte de documents web, recherche et téléchargement depuis arXiv, PubMed, Semantic Scholar, Brave Search directement dans le stockage
Intégration de serveurs MCP pour analyse approfondie : extraction plein texte, graphes de citations, liens vers dépôts de code, recherche de brevets
Cache de datasets partagés avec gestion de synchronisation, lier les datasets aux projets sans dupliquer les fichiers

Pipeline de Traitement

Six étapes séquentielles, entièrement versionnées avec traçabilité de lignée
Extraction de texte avec métriques de qualité par fichier (lisibilité, détection de charabia, confiance linguistique)
Nettoyage & filtrage avec plusieurs versions de filtres à partir du même texte extrait
Découpage, 4 stratégies : taille fixe, phrase, paragraphe, sémantique (basé sur un registre, extensible)
Tokenisation, 3 stratégies : HuggingFace BPE, caractère, espacement
Embedding, sentence-transformers + OpenAI Ada, stockés dans pgvector (recherche vectorielle native PostgreSQL)
Génération de paires QA à partir de texte découpé avec fournisseur LLM et modèle configurables

RAG & Recherche

Pipeline RAG de bout en bout : récupération de documents → assemblage de contexte → génération de réponse LLM
Recherche FAISS/pgvector avec score de similarité et affichage des chunks
Métriques réelles : latence de récupération, chunks récupérés, latence de génération de réponse
Envoi des métriques vers Prometheus/Grafana pour la supervision

Chat & Collaboration

Chat multi-tours avec fournisseur + modèle + RAG + Agent configurables, persistance de session
Comparaison côte à côte de modèles avec métriques delta (latence, tokens, chunks, pertinence, itérations d'agent)
Mode évaluation QA : noter les paires QA répondues des ensembles générés avec suivi de progression
Résumer, régénérer, supprimer des messages ; panneau de chunks RAG avec scores de similarité
Envoi optimiste, arrêt de génération, rendu markdown

Framework Agent

Chat Simple, appel LLM direct de base
Assistant RAG, récupération de contexte + synthèse fondée avec étapes de raisonnement
Agent ReAct, boucle Pensée → Action → Observation avec itérations configurables
Raffinement Conversationnel, évaluation de clarté → clarification QCM → requête raffinée → réponse
Générateur de templates d'agent pour agents personnalisés (basé sur un registre, extensible)
Entièrement extensible : ajoutez vos propres stratégies RAG, algorithmes de découpage, modèles d'embedding ou workflows d'agent sans modifier le code principal

Gestion de Modèles

Recherche & téléchargement HuggingFace avec support de quantification GGUF, suivi de progression, validation
Registre de tokenizers + modèles d'embedding avec opérations par lot
Inférence locale : découverte automatique Ollama + LM Studio avec indicateurs de santé
Fournisseurs API : OpenAI, Anthropic, DeepSeek, Google Gemini, NVIDIA NIM, Zhipu GLM
Déploiement cloud : GCP Vertex AI, AWS SageMaker, Azure ML
Détection de modèles manquants/cassés avec re-téléchargement

Fine-Tuning & Entraînement

Entraînement SFT/LoRA/DPO propulsé par Unsloth avec support GPU réel
Mode simulation pour le développement sans GPU
Gestion des tâches d'entraînement : config, progression, annulation, logs, tableau de bord Grafana par tâche
Évaluation post-entraînement : perplexité, génération d'échantillons, comparaison base vs fine-tuné
Modèles fine-tunés automatiquement enregistrés dans le catalogue de modèles
Historique des métriques d'entraînement en DB + Prometheus pour visualisation

Validation QA & Humain-dans-la-Boucle

Rôle Contributeur avec accès limité pour la validation QA
Évaluation pouce haut/neutre/bas avec commentaires
Attribution de tâches admin, assigner des contributeurs aux projets
Datasets raffinés : exporter les paires QA bien notées pour l'entraînement (SFT, DPO, RLHF)
Boucle de rétroaction complète : validation → datasets raffinés → fine-tuning

Déploiement

Déploiement local : conteneurs Docker vLLM / Ollama
Déploiement cloud : GCP Vertex AI, AWS SageMaker, Azure ML
Test d'inférence de modèles via l'interface de chat intégrée

Métriques & Supervision

Stack Prometheus + Pushgateway + Grafana avec 11 métriques enregistrées sur l'entraînement, le RAG et le traitement
3 tableaux de bord Grafana auto-provisionnés : Entraînement (courbes de perte, durée, progression), RAG (latence, chunks, requêtes/sec), Système (santé, statut de collecte)
Décorateur modulaire @register_metric, ajoutez une métrique en déposant une classe dans metrics/builtin/
API de gestion : lister les métriques enregistrées, interroger Prometheus via proxy PromQL, purger les données Pushgateway
Tableau de bord frontend avec 5 onglets (Aperçu, Valeurs, Pushgateway, PromQL, Purge) + cartes de statut

Infrastructure de la Plateforme

Contrôle d'accès basé sur les rôles : super_admin > admin > chercheur > contributeur
Sauvegarde & restauration : PostgreSQL, MinIO, workspaces avec planificateur et mémo
Base de données : PostgreSQL 16 avec extension pgvector
File de tâches : Celery + Redis pour tous les traitements lourds
Conteneurisé : Docker Compose avec 15+ services dont 4 sidecars MCP
Frontend responsive avec barre latérale rétractable, cartes de statistiques en dégradé, couche d'abstraction de design system

Demander une Démo