Corpus

El corpus Ameresco recoge conversaciones coloquiales espontáneas de las principales ciudades de Latinoamérica, de acuerdo con la metodología del corpus Val.Es.Co. Actualmente, participan más de 10 ciudades pertenecientes a 6 países y existen 4 más en vías de incorporación.

En su versión actual, el corpus para el estudio del español oral ESLORA contiene 60 horas de entrevistas semidirigidas y 20 horas de conversaciones de hablantes de Galicia grabadas entre los años 2007 y 2015. Los registros sonoros se transcribieron ortográficamente con alineación texto-voz para facilitar el acceso inmediato al audio desde la transcripción. En el proceso de enriquecimiento del corpus se han desarrollado recursos para la lematización y el etiquetado morfosintáctico de los textos que permiten realizar diversos tipos de búsquedas.

En el corpus MEsA es posible encontrar textos en español, en un ámbito panhispánico, de una amplia gama de lugares en Internet: blogs, Facebook, foros, Instagram, Twitter, WhatsApp, YouTube y páginas web de distinto tipo. Mensajes escritos y transcripciones de vídeos constituyen la mayor parte del corpus y estos se complementan con descripciones de los elementos no verbales que rodean cada texto.

Los materiales compilados se han modificado para facilitar las búsquedas y las comparaciones de resultados de distintas fuentes, pero respetando en la medida de lo posible el original. Además, todos los textos de este corpus aparecen exhaustivamente organizados bajo etiquetas que los clasifican por fuente, temática y fecha. De esta forma, se consigue realizar consultas de fenómenos lingüísticos más eficaces que la búsqueda directamente por Internet.

Este corpus consta de textos impresos y manuscritos (desde fines del XVII a nuestros días), los cuales dan cuenta de la conformación de nuevas tradiciones discursivas vinculadas al surgimiento del discurso (pre)periodístico y a los principales contextos de manifestación de la oralidad; además de la compilación de un conjunto significativo de testimonios lingüísticos de diferente perfil concepcional. Algunos textos se han transcrito, generalmente siguiendo los criterios de edición paleográfica de CHARTA.

El corpus Val.Es.Co. 2.1 (Cabedo y Pons, en línea) recoge una muestra del español coloquial de Valencia. Para ello, se han transcrito 46 conversaciones y se han secuenciado en diferentes unidades de análisis: intervenciones, grupos entonativos y palabras» 

El corpus tiene un etiquetado correcto en un 75% del material registrado. El 25% restante está actualmente en proceso de revisión. Un 90% del corpus está compuesto por conversaciones recogidas en entornos reales de habla y mediante técnica de grabación secreta. El otro 10% pertenece a conversaciones semidirigidas en las que las personas sabían que estaban siendo grabadas.

  • Corpus Val.Es.Co. 3.0 (en construcción)

El corpus Val.Es.Co. 3.0, que se espera esté disponible en mayo o junio de 2021, supone una ampliación del corpus 2.1. Cuenta con más de cincuenta conversaciones procedentes tanto del corpus 2.1. como de nueva planta. La cantidad y distribución sociolingüística de los hablantes permite compararlo con otras muestras de los corpus PRESEEA y Ameresco. Todas presentan alineación de audio y texto y están trascritas mediante el sistema Val.Es.Co. (en pantalla) además de estar etiquetadas siguiendo el protocolo TEI (en el backend). El sistema de búsqueda ha sido rediseñado por completo para mejorar las opciones de visualización, selección y almacenamiento de información y se ha incorporado el etiquetador XIADA (desarrollado por el Grupo de Gramática del Español) para el reconocimiento morfosintáctico.
A un subcorpus de quince conversaciones (unas cincuenta mil palabras) se les ha aplicado la segmentación en unidades y subunidades discursivas desarrollado por el grupo Val.Es.Co., lo que constituye la primera segmentación total de un corpus de conversaciones coloquiales desde un sistema de análisis de base pragmática.

CREATIME es la mayor base de datos de gestos que acompañan al discurso asociados a expresiones temporales. Su construcción se realiza con la colaboración de Red Hen Lab y su contenido forma parte de NewsScape Library de la UCLA.

El portal web OBServa.HUMOR conforma un observatorio de la identidad de mujeres y hombres a través del humor. Es el resultado de los proyectos GRIALEObserva (“Humor de género: observatorio de la identidad de mujeres y hombres a través del humor”. PROMETEO 2016/052, Generalitat Valenciana.) y GENHUMID (“Género, humor e identidad: desarrollo, consolidación y aplicabilidad de mecanismos lingüísticos en español”. FFI2015-64540-C2-1-P, MINECO-FEDER, UE.). En la actualidad está compuesto por los corpus VALESCO.HUMOR, COLUMNAS.HUMOR y ERASMUS.HUMOR. Este observatorio se completa con el corpus CHILDHUM, compuesto por narraciones humorísticas escritas por niños y niñas de 8 a 12 años.

La aplicación de consulta en línea, disponible en la sección Corpus, permite realizar búsquedas a partir de las variables sexo (hombre/mujer), nivel sociocultural(alto/medio/bajo) y edad (-25, 25-55, +55), tanto para cada uno de los corpus por separado como de manera conjunta.