EL CORPUS

Una parte fundamental del Proyecto es la recopilación de un corpus de textos y la creación de una base de datos de CSL en la prensa española con el fin de 

  1. facilitar la difusión y consulta de textos, muchos de ellos poco accesibles y 
  2. promover la explotación con fines investigadores de este tipo de textos. 

Tras cuatro años de trabajo se han localizado y recopilado 24 columnas sobre la lengua, con un total de 5691 textos firmados por 28 autores en 13 periódicos nacionales, regionales, locales, en papel y en edición digital, para el período comprendido entre 1940 (1939)-2019.

TEMPORALIDAD

En esta fase, hemos considerado seleccionar los textos publicados en la prensa escrita desde los inicios del siglo XX hasta la actualidad. Asumimos el concepto de “siglo XX como diacronía” (Cano Aguilar, 1988) y entendemos, con Pons Bordería (2014, 1000), que “el siglo XX es un espacio de cambio lingüístico que reclama un estudio diacrónico”. 

En este sentido, las columnas sobre la lengua publicadas en la prensa son un testimonio de primera mano para poder estudiar las dimensiones del cambio lingüístico durante el siglo XX en términos de:

  1. Construcción del discurso sobre la lengua como género: presentación verbal de la autoridad epistémica, tipo de metalenguaje, estrategias de interacción con los lectores, formas de dialogicidad, tipos de polifonía, cortesía, estrategias argumentativas, uso de recursos retóricos, etc
  2. Percepción de la lengua e imaginario lingüístico: unidad del idioma, purismo, corrección, lenguas en contacto, dialecto, etc.
  3. Tipología y recurrencia de la problemática sobre la lengua que se plantea a lo largo del período. Léxica, lexicográfica y sociolingüística (la más abundante): neología, anglicismo, galicismo, tecnicismo, definiciones, usos, vulgarismos, fraseología, etc.; gramatical –construcciones sintácticas, uso de preposiciones, marcadores del discurso, etc-; estilística, relativa a la pronunciación, los acentos, el español de América, etc.          

SOPORTE MATERIAL

La prensa escrita es el medio que unifica la producción de textos sobre la lengua en todo este período por lo que hemos preferido ceñirnos a este formato. La prensa escrita, además, es un espacio de poder, de acceso limitado –sólo escriben en la prensa unos pocos- pero de gran difusión –tiene vocación de llegar a muchas personas-, está estrechamente unida a los cambios sociales y políticos y desempeña un papel relevante en la transmisión y circulación de saberes sobre el lenguaje. Incluimos los soportes papel y digital. En otras etapas se incorporarán otros medios de comunicación como radios, blogs sobre la lengua, páginas web, etc.

ÁMBITO Y LENGUA

Prensa nacional y regional publicada en España y escrita en castellano. 

RECOGIDA DE DATOS

Una parte muy importante del corpus se encuentra en formato digital en distintas bases de datos. Sin embargo ha sido necesario:

  1. Unificar formatos de lo ya localizado para poder integrarlo en la base de datos. 
  2. Obtener de primera mano –de la prensa de origen- los textos que se encuentran publicados en libros o antologías. 
  3. Localizar de textos que no estén incorporados a los corpus o no se hayan digitalizado.

PROTOCOLO Y ETIQUETADO

Para poder incorporarse a la base de datos, los textos procedentes de los periódicos deben pasarse a Word/pdf, identificarse y etiquetarse. El protocolo de etiquetaje identificador compatible con la base de datos CLROM.net del Proyecto CIRCULA  es el siguiente:

  • Metadatos: (Letra arial 12) Nombre, Apellidos, Título general de la Columna, periódico, Lugar, día mes año, página, papel/digital, idioma, país
  • Acrónimo: 1ª sílaba del apellido, primera del periódico (o acortamiento), 1ª sílaba título general, fecha y año seguidos
  • Título de la columna
  • Cuerpo del texto: Word, letra Times New Roman 12 puntos. Márgenes, 2,5-2,5-2,5-2,5. Espaciado inferior, 6 puntos. Justificado. Se empieza sin dejar espacio arriba.

Ejemplo:

  • Rabanal Álvarez, Manuel, Lingüística sin lágrimas, ABC, Madrid, 03 diciembre 1967, p. 19, papel, español, España
  • RabABCLinsnLa03121967
  • Helenismos del español
  • Algo acaba de suceder que pone de actualidad el tema, largo, complejo y difuso, de los helenistas del español; el tema de las palabras que debemos al griego no sólo los cultivadores….

Se han propuesto, además, 16 variables de marcación manual para poder recuperar información previo etiquetado (profesión, estilo, tema..) que se deberá revisar

Actualmente el corpus se encuentra en proceso de construcción. Hay ya 1400 textos digitalizados y en proceso de inclusión en la base de datos.