Corpus multilingüe de CI Corpus_CI_GENTT
Compilación del corpus y nomenclatura
Nuestro equipo de trabajo ha diseñado y compilado un corpus de CI en catalán, castellano e inglés, que hemos analizado aplicando técnicas de observación manual, así como diversas métricas del análisis tradicional de corpus y de massive learning para determinar cómo influyen los aspectos macro y microlingüísticos en la eficacia comunicativa del género. El corpus CI_GENTT es un corpus multilingüe (español, catalán e inglés) de consentimientos informados (CI), que consta de 1343 textos. Se trata de un corpus informatizado, una recopilación de textos seleccionados según criterios lingüísticos, codificados de modo estándar y homogéneo, con la finalidad de poder ser tratados mediante procesos informáticos con el objetivo de identificar el comportamiento de un género textual específico en las tres leguas objeto de estudio. El diseño del corpus responde a las necesidades de análisis planteadas en este proyecto y cada texto se ha caracterizado con 12 descriptores, aplicando la siguiente nomenclatura:
1. Título descriptivo y código: El criterio para nombrar los documentos del corpus pretende ser lo más transparente y explícito posible, con el objetivo de poder localizar rápidamente un texto dentro del corpus, sin necesidad de abrirlo: CI_número_tipo de procedimiento_estatus_idioma.
2. Número: número consecutivo y único asignado a cada texto del corpus a medida que estos se han añadido a la base de datos.
3. Tipo de procedimiento: en este corpus, los CI se clasificaron según el tipo de consentimiento informado según el procedimiento médico en el que se vaya a utilizar. Este puede ser intervención, marcado en el corpus con una «i» mayúscula, o diagnóstico, marcado en el corpus con una «d» mayúscula.
4. Estatus: el estatus marca la naturaleza del texto: original (OT), traducido (TR) o bitexto (BT; es decir, un texto a dos columnas, con el original a la izquierda y su correspondiente traducción a la derecha).
- CI_0001_I_OR_ES: es un CI original en español que se utilizará para una intervención
- CI_0012_D_TR_EN_ES es la traducción al español de CI original en inglés que se utilizará para el diagnóstico
- CI_0087_I_TR_EN_ES es el bitexto con el original en inglés (columna de la izquierda) y la traducción al español (columna de la derecha) de un CI que se utilizará para una intervención.
5. Idioma o combinación de lenguas: en el caso de los textos cuyo estatus fuera original, aparece el código ISO 639-1 correspondiente. En el caso de nuestro corpus, se utilizaron los códigos correspondientes para el español (ES), el inglés (EN) y el catalán (CA). En el caso de que fuera una traducción o un bitexto, se combinaron los códigos en función del par de lenguas.
6. Modelo/Auténtico: Los CI recogidos en el corpus pueden ser modelos o plantillas, a disposición del público, generalmente a través de internet (portales de los hospitales, consejerías de sanidad de las Comunidades Autónomas, fundaciones, colegios, etc.) o textos auténticos, utilizados en la práctica real y diaria de los profesionales sanitarios y proporcionados al grupo GENTT directamente por parte de estos.
7. Género textual: En este caso, todos los documentos se marcaron como «consentimiento informado» (CI). Esta columna se añadió porque puede resultar de utilidad si se decide ampliar el corpus con otros géneros textuales, en investigaciones paralelas o futuras.
8. Diagnóstico/Intervención: Generalmente, los CI suelen utilizarse para dar el consentimiento ante un procedimiento diagnóstico o una intervención, de modo que se decidió añadir esta distinción en el corpus, como complemento al resto de etiquetas.
9. Especialidad: Se decidió añadir a qué especialidad o rama de la medicina pertenece el CI. Se etiquetaron, de forma inductiva, los CI según las siguientes especialidades: alergología, anestesia y reanimación, angiología y cirugía vascular, aparato digestivo, artroscopia y cirugía articular, biopsia, cardiología, cirugía abierta del estómago, cirugía de la columna, cirugía de la mano, cirugía del pie, cirugía general, cirugía general y del aparato digestivo, cirugía oral y maxilofacial, de cabeza y del cuello, cirugía ortopédica y traumatología, cirugía protésica, dermatología, digestivo, endocrinología y nutrición, ginecología, hematología y hemoterapia, implantología, medicina interna, medicina nuclear, neumología, obstetricia, oftalmología, otorrinolaringología, otros, radiología, reumatología, traumatología y urología.
10. Autor del original / Procedencia: Aparece la fuente de la que procede el documento.
11. Ordenamiento o país: Aparece el país o el ordenamiento jurídico en el que se utiliza dicho CI y en el que, jurídicamente, tiene validez.
12. Fuente web: En caso de que el texto se obtuviese de internet, se incluyó la URL original.
Análisis de corpus
Los resultados del análisis multidimensional de los tres corpus (catalán, castellano e inglés) nos ha permitido:
- Objetivar y modelar lingüísticamente la intuición de la necesidad de mejora de la redacción (y del procedimiento de administración) de los textos.
- Generar propuestas de mejora y modelos optimizados de CI para la práctica clínica en las tres lenguas de trabajo.