COSMIN: estándares para la evaluación de propiedades de medida de las herramientas de evaluación | Habilidades científicas para Terapeutas Ocupacionales (HACTO)

COSMIN (COnsensus-based Standards for the selection of health Measurement INstruments) es una iniciativa de un grupo multidisciplinar internacional fundada en 2005 como respuesta ante la falta de claridad y unificación respecto a la terminología del estudio de las propiedades de medida de las herramientas de evaluación. El grupo está fundado y liderado por Lidwine B. (Wieneke) Mokkink y Caroline B. Terwee. El equipo está integrado por investigadores/as con experiencia epidemiológica, psicométrica, en medicina, investigación cualitativa y atención en salud.

El principal objetivo de COSMIN es mejorar la calidad de los estudios sobre propiedades de medida mediante el desarrollo de una metodología concreta y clara que permita estandarizar resultados. Del mismo modo, están comprometidos con el desarrollo de herramientas teóricas y prácticas para fomentar la selección y uso adecuado de instrumentos de evaluación tanto en la práctica clínica como en investigación.

Inicialmente, la metodología se desarrolló para herramientas destinadas a la recogida de datos informados directamente por los pacientes (PROM por sus siglas en inglés: patient-reported outcomes), pero actualmente se encuentra adaptada a resultados informados por el médico (ClinROM: clinician-reported outcome measures), las medidas de resultados basadas en el rendimiento (PerFOM: performance-based outcome measures) y los valores de laboratorio. Por simplificar terminología, tanto en los documentos de COSMIN como en esta entrada utilizaremos el término PROM. En este contexto, resulta imprescindible introducir el concepto de constructo, entendido como una entidad teórica abstracta que no es directamente observable, pero que se infiere a partir de indicadores medibles. Los constructos representan dimensiones complejas de la experiencia humana, como la calidad de vida, la participación o el desempeño, y constituyen el fundamento conceptual sobre el que se diseñan los instrumentos de medida. En el caso de los PROM, el constructo se define desde la perspectiva de la persona, lo que implica que el instrumento no pretende capturar una realidad objetiva externa, sino la percepción subjetiva del individuo respecto a su estado, funcionamiento o experiencia en relación con la salud.

Taxonomía de las propiedades de medida de COSMIN

Uno de los principales hitos de esta iniciativa fue la unificación de la terminología y definiciones sobre propiedades de medida. Entre 2006 y 2007 se alcanzó un consenso internacional a través de un estudio Delphi en el que se acordó un conjunto propiedades de medida (fiabilidad, validez y sensibilidad al cambio) que debían ser consideradas en el desarrollo y evaluación de las herramientas. Tal como se muestra en la imagen, el consenso alcanzado establece que la calidad de los instrumentos de medida debe evaluarse a partir de nueve propiedades de medida fundamentales.

Descarga

La fiabilidad es el grado en el cual el PROM produce resultados consistentes, considerando el margen de error aleatorio de cualquier medición en relación con la variabilidad total de la medida. Consta de las siguientes propiedades:

Fiabilidad test-retest (Box 6. Reliability): grado de estabilidad de las puntuaciones de la herramienta de evaluación cuando se aplica en dos momentos temporales diferentes en condiciones similares. El tiempo entre mediciones suele ser de dos semanas, pero de debe ajustarse según el constructo de interés, buscando un equilibrio entre reducir el efecto memoria y prevenir la aparición de cambios reales en el constructo evaluado.
Fiabilidad inter-evaluador (inter-rater) (Box 6. Reliability): grado de acuerdo en las puntuaciones de la herramienta de evaluación entre diferentes evaluadores al aplicar un mismo instrumento a los mismos sujetos, en condiciones equivalentes de evaluación.
Fiabilidad intra-evaluador (intra-rater) (Box 6. Reliability): grado de acuerdo en las puntuaciones de la herramienta realizada por el mismo evaluador en dos o más mediciones repetidas de la misma herramienta.
Consistencia interna (Box 4. Internal consistency): grado en que los ítems de una escala están relacionados entre sí y miden el mismo constructo.
Error de medida (Box 7. Measurement error): variabilidad de las puntuaciones atribuible a imprecisiones inherentes de la herramienta de evaluación o al proceso de medición, que no refleja cambios reales en el constructo evaluado.

La validez es el grado en el cual un PROM mide adecuadamente el constructo para el cual está diseñado. Es importante destacar que la validez no es una propiedad inherente al instrumento en sí, sino de las interpretaciones que se realizan a partir de sus puntuaciones en un contexto específico. En este sentido, un PROM puede ser válido para una población, finalidad o entorno determinados, pero no necesariamente para otros. Consta de las siguientes propiedades:

Validez de contenido (Box 2. Content validity): grado en el que el contenido del PROM refleja adecuadamente el constructo que se pretende medir en relación con su relevancia, exhaustividad y comprensibilidad para la población diana. Por ejemplo, si una PROM está diseñado para medir dolor, sus ítems deben centrarse en la experiencia dolorosa y no incluir aspectos ajenos al constructo, como la movilidad al despertarse, salvo que estos formen parte explícita de la definición teórica del constructo.
Validez de criterio (Box 8. Criterion validity): grado en el que las puntuaciones de un PROM se relacionan con las obtenidas mediante un gold standard o estándar de referencia, cuando este existe. COSMIN establece que, en el caso de los PROM, solo puede considerarse un gold standard cuando existe una medida que capture el mismo constructo de forma más completa y precisa que el instrumento que se está evaluando. En este contexto, una versión más extensa del mismo instrumento, con un mayor número de ítems, una cobertura más amplia del constructo y mejores propiedades de medida, puede actuar como estándar de referencia, siempre que esté adecuadamente validada y conceptualmente alineada. Por ejemplo, el Short Form (SF) de 12 ítems es un instrumento de resultados informados por el paciente de carácter genérico, diseñado para evaluar la calidad de vida relacionada con la salud percibida. Evalúa este constructo a través de dos grandes dimensiones: el componente físico y el componente mental. Se desarrolló como una versión abreviada del Short Form de 36 ítems, con el objetivo de reducir la carga de respuesta manteniendo una adecuada capacidad para estimar la calidad de vida relacionada con la salud. En este caso el SF-36 podría utilizarse como Gold standard para evaluar esta propiedad del SF-12.
Validez de constructo (Box 9. Hypotheses testing for construct validity): hace referencia al grado en que un PROM mide el constructo que pretende evaluar, considerando la adecuación de su estructura dimensional, el cumplimiento de hipótesis teóricas y la equivalencia del instrumento cuando se adapta a otras lenguas o culturas. Se realiza mediante:
- Testeo de hipótesis: comprobación de si las puntuaciones del PROM se comportan conforme a las relaciones esperadas con otras variables o con otras herramientas de evaluación.
- Validez estructural (Box 3. Structural validity): grado en el que la estructura dimensional del instrumento (ya sea unidimensional o multidimensional) es coherente con el modelo teórico del constructo que se pretende medir y con la organización de los ítems que lo representan.
- Validez transcultural (Box 5. Cross-cultural validity/ Measurement invariance): grado en que un PROM adaptado a otro lengua, idioma o cultura mantiene las propiedades de la herramienta original.

La sensibilidad al cambio (Box 10. Responsiveness) es la capacidad de respuesta del PROM para detectar cambios del constructo de interés que sean clínicamente relevantes.

Además, en la tabla de definición de términos relacionados con las propiedades de medida propuesta por COSMIN se incluye la interpretabilidad. Esta no es una propiedad de medida, sino una característica del instrumento de evaluación que indica el significado de los resultados obtenidos a nivel clínico. Es decir, hace referencia al significado cualitativo y clínico de las puntuaciones obtenidas.

Por último, es importante conocer que, según el consenso de COSMIN, la propiedad de medida más importante es la validez de contenido, ya que nos permitirá conocer la relevancia, exhaustividad y comprensibilidad de la herramienta. Seguidamente, se considera muy importante la estructura interna, la cual incluye validez estructural, consistencia interna y validez transcultural.

Otros recursos de COSMIN:

Guía para llevar a cabo Revisiones Sistemáticas (RS) de instrumentos de medida. Se trata de un recurso basado en la combinación de la metodología COSMIN y las guías PRISMA, ya que este tipo de RS difieren de las revisiones habituales sobre ensayos clínicos. La guía consta de ocho pasos que se deben seguir para llevarla a cabo, en ella se pueden encontrar los pasos para realizar la búsqueda, seleccionar los criterios de elegibilidad y filtros, como organizar los datos extraídos, así como criterios para evaluar cada uno de los PROM incluidos y cada una de sus propiedades de medida. Por último, incluye ejemplos de las tablas que se deben incluir en este tipo de RS y consejos para escribir el artículo.
Base de datos para realizar RS. Se utiliza en paralelo a la guía anterior, con el fin de facilitar la extracción de datos. Tipos de revisiones sistemáticas sobre instrumentos de medida:
- Calidad de un instrumento: se analizan todos los artículos y, por lo tanto, todas las propiedades de medida disponibles sobre un solo PROM.
- Calidad de varios instrumentos: se analizan todos los artículos y propiedades de medida disponibles sobre varios instrumentos que tienen en común un mismo constructo y población.
- Calidad de todos los instrumentos validados disponibles: se analizan todos los artículos y propiedades de medida disponibles sobre todos los instrumentos existentes que tienen en común un mismo constructo y población. Como resultado final se selecciona el más adecuado.
- Calidad de todos los instrumentos disponibles: se realiza el análisis sin especificar el constructo de interés en una población concreta.
Checklist de verificación de la calidad del estudio. Es una lista de verificación para evaluar la calidad metodológica de un estudio o PROM, se puede utilizar para diseñar, redactar un artículo, determinar el riesgo de sesgo de un PROM, en revisiones sistemáticas, etc. Utilizando este checklist, nos aseguraremos que nuestro estudio cumple con los estándares recomendados.
Filtros PubMed. Ofrece dos filtros de búsqueda para encontrar estudios sobre evaluación de propiedades de medida en PubMed. En concreto, son un filtro de búsqueda de alta sensibilidad para encontrar estudios sobre PROM y otro más preciso para tener que filtrar menos resúmenes, aunque este conlleva un mayor riesgo de omitir algún estudio relevante.
Guía para seleccionar instrumentos para Core Outcome Set (COS). Se trata de una iniciativa conjunta entre COSMIN y Core Outcome Measures in Effectiveness Trials (COMET) en la cual se ha desarrollado una guía para seleccionar los PROM cuando se desarrolla un COS (conjunto mínimo de resultados que deben medirse en los ensayos clínicos en una población concreta). Una vez está bien definido el COS, la guía proporciona recomendaciones para decidir qué constructos medir y cómo hacerlo, teniendo en cuenta el uso de herramientas fiables y válidas en el contexto.
Encuentra la herramienta adecuada (Find the right tool). Es otro apartado de COSMIN en el que plantea preguntas habituales que nos hacemos antes de iniciar una investigación o una intervención como qué quiero medir realmente, qué evaluaciones hay disponibles en esta población, etc. Cada una de las preguntas planteadas te llevan a una entrada en la página web donde te ofrecen diferentes opciones y recursos para que encuentres la información más adecuada en tu caso.

Además de los recursos mencionados anteriormente y de otros que puedes encontrar en su web, se han creado diferentes grupos de trabajo organizados por diferentes territorios de Europa, América del Norte y Oceanía con el fin de contribuir al crecimiento de COSMIN. En concreto, en España las responsables son Silvia Lahuerta Martín y Clara Amat Fernández, ambas encargadas de gestionar las sesiones mensuales dirigidas a hispanohablantes. Si estás interesado/a en participar en el Grupo COSMIN de Estudio de Propiedades de Medida, te puedes registrar a través de este formulario: https://forms.office.com/e/9P8BLnwgHp.

En conclusión, contar con estándares como los de COSMIN es fundamental para garantizar que los instrumentos de evaluación que utilizamos en nuestra práctica habitual sean adecuados. En investigación, nos otorga una guía acerca de cómo realizar estudios de adaptación y evaluación de propiedades de medida, ofreciéndonos terminología unificada y criterios estadísticos consistentes. Como traslación a las intervenciones y a la puesta en práctica de la Terapia Ocupacional y otras profesiones sanitarias, nos permite tener la seguridad de que estamos utilizando criterios estables, adaptados y válidos en nuestra población diana, por lo que podremos obtener resultados comparables, clínicamente significativos que facilitarán la toma de decisiones durante el tratamiento.

Empar Casaña Escriche
Terapeuta Ocupacional, Máster en Terapia Ocupacional en Neurología. Investigadora predoctoral FPU en el programa de Doctorado en Salud Pública, Ciencias Médicas y Quirúrgicas. Contratada en InTeO.

Mª Paula Noce
Graduada en Terapia Ocupacional por la Universidad de Málaga y Máster en Terapia Ocupacional en Neurología por la Universidad Miguel Hernández. Doctoranda en el Programa de Salud Pública, Ciencias Médicas y Quirúrgicas. Colaboradora del Grupo InTeO.

Casaña Escriche, E., & Noce, P. (2026, Abril, 13). COSMIN: estándares para la evaluación de propiedades de medida de las herramientas de evaluación. PublicaTO – Habilidades Científicas en Terapia Ocupacional de InTeO. https://hacto.umh.es/2026/01/27/cosmin-estandare…as-de-evaluacion/

Este trabajo está bajo una Licencia Creative Commons