Weavestruct - Documentation¶
Weavestruct est une plateforme modulaire et évolutive permettant le traitement intelligent de documents, l'extraction d'entités, la construction de graphes de connaissances et l’intégration avec des modèles de langage avancés. Elle s’appuie notamment sur les projets GLiNER et GLiREL (pour l’extraction d’entités nommées et de relations), LangChain, Docling v2, ainsi que WeaveStruct pour transformer des données brutes en informations structurées et exploitables.
Cette documentation est organisée en plusieurs sections, détaillant les fonctionnalités, l’installation, la configuration, l’utilisation, l’intégration de modèles et l’API de Weavestruct. Vous trouverez également des ressources connexes, une sitographie et des indications sur la licence et la contribution.
Sections Clés de la Documentation¶
- À propos (About) : Présentation générale du projet et de ses objectifs.
- Fonctionnalités (Features) : Liste détaillée des capacités de Weavestruct.
- Installation : Guide pas-à-pas pour installer l’environnement.
- Configuration : Paramétrages spécifiques, variables d’environnement et intégration des services.
- Utilisation (Usage) : Instructions pour l’utilisation de l’outil, du traitement de documents à l’extraction d’entités et de relations.
- API : Documentation de l’API REST, avec un schéma Swagger disponible dans la section API/Swagger.
- Modèles (Models) : Informations sur les modèles exploités (dont GLiNER et GLiREL), leur intégration avec LangChain et la génération d’embeddings.
- MLflow : Gestion du cycle de vie de modèles ML, suivi des expériences et déploiements.
- Sitographie : Liste de ressources externes, articles, dépôts GitHub et documentations complémentaires.
- License : Conditions de licence et réutilisation du code.
Fonctionnalités principales¶
- Traitement de documents : Convertir et analyser des fichiers.
- Extraction d'entités : Identifier des entités clés.
- Relations : Créer des relations entre entités.
- Graphiques : Visualiser et interagir avec les graphes de connaissances.
Sitographie et Ressources¶
Pour aller plus loin dans la compréhension des technologies mises en œuvre :
- MLOps et Pipelines : MLflow, Kubeflow, CI/CD pour ML
- NLP, GLiNER, GLiREL : Modèles généralistes et légers pour NER et extraction de relations.
- LangChain : Chaînage d’LLMs pour la création de pipelines avancés.
- Docling v2 : Préparation de documents pour l’IA générative et analyses avancées.
- WeaveStruct : Conversion de données brutes en informations actionnables et intégration dans des graphes de connaissances.
Retrouvez la liste complète des références (articles, dépôts, documentations) dans la Sitographie.