Algunas
herramientas de evaluación con observación directa continúan en debate acerca de
la calidad y del impacto educativo o
medida del efecto educativo (propiedades psicométricas) sobre el aprendizaje en
educación médica de grado.
Por
ejemplo algunas de éstas son: Exámen clínico con objetivo estructurado (OSCE);
Exámen caso largo objetivo estructurado (OSLER); Evaluación de habilidades técnicas
con objetivo estructurado (OSATS), todas evalúan en el nivel “muestra cómo” (Miller), miden
competencias en todo lo que es capaz de hacer (observador/evaluador no visible).
Otras
herramientas con observación directa más retroalimentación inmediata como el
ejercicio de evaluación clínica reducido (Mini-CEX); Observación directa de
habilidades de procedimientos (DOPS); Discusión basada en casos (CbD) / Gráfico
de estímulo recordatorio (CSR); Mini evaluación por pares (mini-PAT), éstas
evalúan en el nivel “Hace” y miden el
rendimiento/habilidades clínicas reiteradamente en cada uno de los dominios
clínicos con observación directa (observador/evaluador visible al lado del
alumno y del paciente) y retroalimentación inmediata para potenciar buenos
desempeños y mejorar déficits en etapa formativa. (Boursicot
K et al. Performance in assessment: Consensus statement and recommendations
from the Ottawa conference. Med Teach 2011: 33: 370-383).
El
Mini-CEX (ABIM 1990) ha demostrado ser válido, confiable y factible y se
utiliza en forma creciente en la etapa de grado en educación médica en nuestro
país. El impacto educativo se relaciona con el proceso formativo del alumno,
generalmente muy bien aceptado por evaluadores y alumnos pero requiere
entrenamiento continuo de los evaluadores para realizar observación directa y
para otorgar una buena retroalimentación oportuna. Este efecto podría ser
mejorado si se combina con otra herramienta como el ejercicio de habilidades de
comunicación.
Esta
herramienta también se encuentra influenciada por múltiples fuentes de errores
en la medición como pueden ser aquellos provenientes de los propios alumnos, los
pacientes (reales o estandarizados), los docentes / tutores evaluadores, los
ítems a ser evaluados.
A
su vez, poniendo al docente evaluador en análisis, lo citado previamente puede
resultar al cometer frecuentemente errores como el sesgo de tendencia central (puntuación moderada intermedia y no tan
extremas), el sesgo de
indulgencia/severidad (evaluador con estilos benévolo o muy exigente), el efecto halo (la impresión inicial lleva
a valorar el resto en el mismo sentido), el
efecto de contaminación (competencias destacadas pero impertinente para la
evaluación efectuada), el efecto novedad
(evaluador encandilado que desconsidera trayectoria educativa).
Dado
que evaluar con Mini-CEX se realiza un proceso continuo de observación directa
y retroalimentación inmediata, un avance aparentemente importante en el
mejoramiento de los resultados con ésta herramienta podría ser la aplicación de
la técnica estadística de “Generalizabilidad o Teoría G” disponible en algunos
programas comerciales de estadística. Aunque la interpretación es muy laboriosa,
con la ecuación G mediante un análisis de variancia se pueden identificar y
estimar componentes de variación que influencian los resultados y posibilita
que la diferencia de puntajes encontrada entre alumnos evaluados sea verdadera
o real (por ejemplo, Coeficiente G = 0.8 o mayor) y no debida a variancia o ruidos
(facetas). La mayor confiablidad que otorga este coeficiente fundamenta el
estudio de decisión (D-study). La variancia mayor es siempre esperada normalmente
desde los alumnos y la variabilidad que influye marcadamente en los resultados es
la proveniente de los evaluadores. (Tavakol
M. Post-examination interpretation of objective test data: Monitoring and
improving the quality of high-stakes examinations: AMEE Guide No. 66. Med teach
2012; 34: e161–e175)
José
Gómez