LangExtract ofrece una combinación única de capacidades que la hacen útil para la extracción de información:
- Fundamentación precisa: Cada entidad extraída se asigna a sus desplazamientos de caracteres exactos en el texto de origen. Como se demuestra en las siguientes animaciones, esta función proporciona trazabilidad resaltando visualmente cada extracción en el texto original, lo que facilita mucho la evaluación y verificación de la información extraída.
- Resultados estructurados confiables: Define el resultado deseado utilizando la representación de datos LangExtracts y proporciona ejemplos concisos. LangExtract utiliza esto para hacer cumplir un esquema, aprovechando la generación controlada en modelos compatibles como Gemini para garantizar resultados estructurados de manera coherente. Esto proporciona resultados sólidos, como se demuestra en nuestro análisis de texto completo de Romeo y Julieta.
- Extracción optimizada de información de contexto largo: Obtener información de documentos grandes puede ser complejo. Por ejemplo, mientras los LLM muestran un buen rendimiento en muchos puntos de referencia, las pruebas de aguja en un pajar en contextos de millones de tokens muestran que la sensibilidad puede disminuir en escenarios de obtención de múltiples hechos. LangExtract está diseñada para manejar esto con una estrategia de fragmentación, procesamiento paralelo y múltiples pases de extracción en contextos más pequeños y enfocados.
- Visualización interactiva: Pasa de tener un texto sin formato a una visualización HTML interactiva e independiente en minutos. LangExtract facilita la revisión de las entidades extraídas en contexto, con compatibilidad para explorar miles de anotaciones.
- Compatibilidad flexible para backends de LLM: Trabaja con tus modelos preferidos, ya sean LLM basados en la nube (como la familia Gemini de Google) o modelos de código abierto integrados en el dispositivo.
- Flexible en todos los dominios: Define las tareas de extracción de información para cualquier dominio con solo unos pocos ejemplos bien elegidos, sin la necesidad de ajustar un LLM. LangExtract “aprende” el resultado deseado y puede aplicarlo a entradas de texto nuevas y grandes. Consulta cómo funciona con este ejemplo de extracción de medicamentos.
- Utilización del conocimiento mundial de LLM: Además de extraer entidades fundamentadas, LangExtract puede aprovechar el conocimiento mundial de un modelo para complementar la información extraída. Esta información puede ser explícita (es decir, derivada del texto de origen) o inferida (es decir, derivada del conocimiento mundial inherente del modelo). La precisión y la relevancia de ese conocimiento complementario, particularmente cuando se infiere, están fuertemente influenciadas por las capacidades del LLM elegido y la precisión de los ejemplos de indicación que guían la extracción.