Les modèles
GLiNER et GLiREL sont deux modèles avancés conçus pour l'extraction d'informations à partir de textes en langage naturel, chacun se spécialisant dans des tâches distinctes.
GLiNER (Generalist and Lightweight Model for Named Entity Recognition)
GLiNER est un modèle de Reconnaissance d'Entités Nommées (NER) capable d'identifier tout type d'entité en utilisant un encodeur transformeur bidirectionnel, similaire à BERT. Contrairement aux modèles NER traditionnels, qui se limitent à des types d'entités prédéfinis, GLiNER offre une flexibilité accrue en permettant l'extraction d'entités arbitraires via des instructions en langage naturel. Cette approche le rend particulièrement utile pour des applications nécessitant une identification précise et adaptable des entités dans divers contextes textuels.
GLiREL (Generalist and Lightweight Model for Zero-Shot Relation Extraction)
GLiREL est un modèle d'Extraction de Relations (RE) conçu pour classifier des relations inédites entre des entités présentes dans un texte. Il s'appuie sur les avancées de GLiNER pour permettre une reconnaissance efficace des entités en mode zero-shot, c'est-à-dire sans nécessiter d'entraînement préalable sur des types de relations spécifiques. Cette capacité rend GLiREL particulièrement adapté à l'extraction de relations complexes dans des domaines variés, facilitant ainsi la construction de graphes de connaissances et l'amélioration de systèmes de recherche structurée.
En somme, GLiNER et GLiREL constituent des outils puissants pour l'extraction d'informations, offrant une flexibilité et une efficacité accrues dans la reconnaissance d'entités nommées et l'extraction de relations, respectivement.
Les modèles GLiNER et GLiREL sont entraînés sur des ensembles de données annotées spécifiques à leurs tâches respectives.
GLiNER (Generalist and Lightweight Model for Named Entity Recognition)
GLiNER est un modèle de Reconnaissance d'Entités Nommées (NER) qui identifie divers types d'entités dans un texte. Pour son entraînement, il utilise des ensembles de données où chaque mot ou groupe de mots est étiqueté avec le type d'entité correspondant, selon un format standard en NER. Par exemple, une phrase annotée pourrait ressembler à :
John B-PER
Doe I-PER
est O
un O
ingénieur O
chez O
OpenAI B-ORG
. O
Dans cet exemple, "John Doe" est annoté comme une personne (PER) et "OpenAI" comme une organisation (ORG), avec des préfixes indiquant le début (B-) ou l'intérieur (I-) d'une entité, et "O" signifiant l'absence d'entité.
GLiREL (Generalist and Lightweight Model for Zero-Shot Relation Extraction)
GLiREL se concentre sur l'extraction des relations entre entités dans un texte. Son entraînement nécessite des ensembles de données où les entités sont identifiées et les relations entre elles sont spécifiées. Le format typique inclut des phrases avec des entités annotées et des relations définies entre ces entités. Par exemple :
Phrase : "Marie Curie a remporté le prix Nobel de physique en 1903."
Entités :
- Marie Curie (Personne)
- prix Nobel de physique (Prix)
Relation : Lauréat(Marie Curie, prix Nobel de physique)
Ici, la relation "Lauréat" est établie entre "Marie Curie" et "prix Nobel de physique".
Ces formats d'annotation permettent aux modèles d'apprendre à identifier et à classer les entités et les relations dans de nouveaux textes. Pour plus de détails sur l'utilisation et l'entraînement de GLiNER et GLiREL, vous pouvez consulter leurs dépôts GitHub respectifs :
- GLiNER : https://github.com/urchade/GLiNER
- GLiREL : https://github.com/jackboyla/GLiREL