¿Hay alguna manera de obtener los datos de texto “originales” para OpenNLP?

Sé que esta pregunta se hizo antes, pero la respuesta no fue satisfactoria (en el sentido de que la respuesta fue solo un enlace).

Entonces, mi pregunta es, ¿hay alguna manera de extender los modelos existentes de openNLP? Ya conozco la técnica con DBPedia / Wikipedia. Pero, ¿qué pasa si solo quiero añadir algunas líneas de texto para mejorar los modelos? ¿Realmente no hay manera? (Si es así, sería realmente estúpido …)

Desafortunadamente, no puedes. Vea esta pregunta que tiene una respuesta detallada al mismo problema.

Creo que ese es un problema grave, porque cuando se trata de textos, a menudo hay problemas de licencias. Por ejemplo, no puede crear un corpus en los datos de Twitter y publicarlo en la comunidad (consulte este documento para obtener más información).

Por lo tanto, a menudo las empresas construyen cuerpos específicos de dominio y los usan internamente. Por ejemplo, lo hicimos en nuestro proyecto de investigación. Por lo tanto, construimos una herramienta (Quick Pad Tagger) para crear cuerpos anotados de manera eficiente (ver aquí ).

Ok, creo que esto necesita una respuesta por separado. He encontrado la base de datos Yago: http://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago//

Esta base de datos parece ser simplemente fantástica (desde el primer vistazo). Puede descargar todos los datos etiquetados y colocarlos en una base de datos (ya proporcionan las herramientas para eso).

La siguiente etapa es “refactorizar” las entidades etiquetadas para que opennlp pueda usarlas (openNLP usa algo como esto Pierre Vinken )

Luego creas algunos archivos de texto y los entrenas con la herramienta de capacitación entregada por opennlp.

No estoy 100% seguro de si esto funciona, pero volveré y te lo diré.