top of page

Escalas de desempeño GRS vs BARS: evaluación del desempeño con menos sesgos

g037 portada articulo.png

¿Estás calificando desempeño… o solo defendiendo una intuición difícil de explicar?


Cuando llegan promociones, bonos o decisiones sensibles, la escala deja de ser un detalle técnico y se vuelve un problema real.


Aquí vas a entender por qué algunas escalas amplifican sesgos, otras los reducen, y cómo elegir un formato que te permita decidir con evidencia (no con impresiones).

Descarga el ebook: GRS vs BARS para evaluar sin sesgos.

g037 ebook portada.png

Guía visual: escalas conductuales para decisiones de talento justas.

g037 guia visual baja.png

Fundamentos: qué estamos midiendo cuando medimos desempeño

Antes de hablar de escalas, aclaremos el objeto.

El desempeño no es una sola cosa. En la práctica suele mezclar:

→ Desempeño de tarea: lo técnico, lo formal, lo que “debía hacer”.
→ Desempeño contextual: lo que hace que el trabajo funcione en equipo (iniciativa, cooperación, responsabilidad).

Si tu sistema solo mide resultados, se te escapa el “cómo”. Si solo mide conductas, puedes perder el “qué”. Un enfoque moderno de performance management apunta a integrar medición y desarrollo de forma continua (no solo anual).

Lo psicométrico sin dolor: validez y fiabilidad en palabras simples

Si la evaluación va a influir en decisiones reales (promociones, bonos, planes de desarrollo), necesitas dos bases:

Validez: ¿mide lo que dice que mide?

Hay varias, pero en desempeño laboral estas dos son críticas:

Validez de contenido: que la escala refleje el trabajo real, con conductas o resultados relevantes al puesto.
Validez de criterio/predictiva: que el puntaje se relacione con desempeño observable o resultados futuros (según el diseño del sistema).

Fiabilidad: ¿es consistente?

Un instrumento puede sonar “razonable” y aun así ser inconsistente.

→ Si dos evaluadores ven lo mismo y puntúan distinto, la medición se vuelve frágil.
→ Si hoy calificas “4” y mañana “2” sin cambios reales, tampoco sirve.

Y acá va una verdad incómoda: sin fiabilidad, la validez se cae. No por teoría; por lógica.

GRS: la escala más usada… y la más vulnerable

Qué es una GRS

La Graphic Rating Scale es la clásica escala 1–5 con etiquetas genéricas tipo “No cumple / Cumple / Sobresaliente”.

¿Por qué se usa tanto?

→ Porque es fácil de implementar.
→ Porque se entiende rápido.
→ Porque se puede aplicar masivamente sin construir mucho.

El costo oculto: los sesgos del evaluador

El problema no es que sea “mala”. El problema es que, por diseño, deja demasiado espacio a interpretaciones.

Los errores más típicos:

→ Efecto halo: una impresión global “contamina” todas las dimensiones.
→ Lenidad/severidad: evaluadores que tienden a poner todo alto o todo bajo.
→ Tendencia central: quedarse en el medio para evitar conflicto. 

 

En una GRS, el evaluador no tiene que probar nada. Puede “sentir” el 4. Y cuando una organización escala esto a cientos de personas, el sistema empieza a medir estilo de evaluador más que desempeño.

BARS: por qué se consideran el estándar conductual (y qué matices trae la evidencia)

Qué es una BARS

Las Behaviorally Anchored Rating Scales anclan cada punto de la escala con ejemplos de conductas observables.

En vez de “4 = sobresaliente”, una BARS se parece más a: “4 = resuelve dudas complejas con ejemplos, verifica comprensión y deja acuerdos claros”.

Su lógica viene de la Critical Incident Technique: recolectar incidentes reales de conducta efectiva e inefectiva, y convertirlos en anclajes claros. 

Por qué BARS suele reducir halo (pero no es magia)

En teoría, al obligarte a comparar con conductas específicas, reduces el margen de interpretación y el halo.

 

La evidencia empírica, sin embargo, es más honesta si la contamos completa:

→ Hay estudios que muestran menos halo con formatos conductuales frente a escalas gráficas.
→ También hay estudios donde BARS no supera consistentemente a otros formatos en todas las métricas (por ejemplo, lenidad o fiabilidad interevaluador). 

 

Entonces, la idea correcta es esta: BARS tiende a mejorar claridad y discriminación, pero sus resultados dependen mucho de cómo se construye, del trabajo de análisis del puesto y del entrenamiento.

Cómo se construye una BARS (sin adornos)

Muchos procesos siguen una secuencia basada en CIT y el enfoque original. 

→ Definir dimensiones de desempeño.
→ Recolectar incidentes críticos (conductas reales).
→ Depurar duplicados/ambigüedades.
→ Retranslación: otro grupo reasigna incidentes a dimensiones y se filtra por acuerdo.
→ Escalamiento: expertos valoran cuán efectiva es cada conducta.
→ Selección final de anclajes por nivel de la escala.

Tu Ruta hacia un Desempeño Superior con IA. Más de 50 artículos como el que estás leyendo

El gran problema de BARS: la pérdida de información (y por qué importa)

Si BARS vive de conductas, perder conductas duele. Y suele doler mucho.

En la práctica, durante depuración y retranslación se descarta una cantidad enorme de incidentes. Ese descarte no siempre significa “mala calidad”; muchas veces significa:

→ Incidentes redundantes pero valiosos para contexto.
→ Conductas difíciles de ubicar en una sola dimensión.
→ Ejemplos reales que no alcanzan acuerdo estadístico.

 

Ese “embudo” explica por qué BARS puede volverse costosa, lenta y frustrante en organizaciones donde RR.HH. necesita velocidad.

La innovación ACB: cómo reducir descarte sin perder validez

Aquí aparece la propuesta que mencionas: agrupar incidentes en Aspectos de Comportamiento Básico (ACB) para conservar más información conductual y sintetizarla de forma usable.

Un trabajo que describe este enfoque muestra el proceso de conversión desde escalas tipo Likert hacia BARS y la construcción con participación masiva, incluyendo la idea de agrupar conductas antes de “matar” información útil. 

Qué cambia con ACB:

→ En vez de elegir “un incidente” por nivel, se agrupan varios incidentes afines en un aspecto conductual.
→ Luego, esos aspectos se combinan para construir anclajes más robustos.
→ El instrumento final puede mantener calidad psicométrica sin que el proceso se vuelva una trituradora de ejemplos. 

Si tu organización quiere el rigor conductual pero no puede pagar el costo completo de BARS tradicional, ACB es un camino serio para mirar.

Si no puedes implementar BARS completas: escalas híbridas que sí ayudan

Muchas empresas están en este punto: “quiero algo más justo que una GRS, pero no tengo presupuesto para BARS por rol”.

La salida práctica no es resignarse. Es hibridar.

Qué significa “híbrida” en este contexto

Una GRS mejorada puede incorporar descriptores conductuales por nivel, aunque no haya pasado por todo el proceso BARS.

Ejemplo rápido (dimensión: colaboración):

GRS típica
→ 1–5: No cumple / Cumple / Sobresaliente.

Híbrida conductual
→ 1: evita coordinar, no comparte información clave.
→ 3: coordina lo necesario, responde cuando se le solicita.
→ 5: anticipa dependencias, alinea acuerdos y destraba a otros.

 

No tiene todo el rigor de una BARS completa, pero reduce ambigüedad y ayuda a que el evaluador “aterrice”.

Entrenamiento de evaluadores: el multiplicador que casi nadie toma en serio

Puedes tener la mejor escala del mundo y aun así fallar si el evaluador:

→ No observa.
→ No registra.
→ Evalúa por memoria.
→ Confunde “me cae bien” con “rinde bien”.

 

La investigación sobre entrenamiento de evaluadores muestra que Frame-of-Reference (FOR) Training mejora la precisión de las calificaciones porque alinea a los evaluadores en una misma definición mental de “buen desempeño”. 

Y esto no es teoría linda: FOR se ha estudiado en revisiones cuantitativas/meta-analíticas. 

 

Qué entrenar, en simple:

→ Qué conductas cuentan como evidencia.
→ Cómo diferenciar dimensiones parecidas.
→ Cómo usar anclajes y ejemplos reales.
→ Cómo registrar durante el ciclo (no al final).

Decidir entre GRS, BARS, híbrida o MBO: una guía sin humo

Hazte estas preguntas:

1) ¿Qué tan alta es la “apuesta” de la evaluación?

→ Si define promoción/compensación fuerte, necesitas más rigor y defensabilidad. 

2) ¿Cuánto varía la interpretación entre evaluadores?

→ Si tienes discrepancias grandes, necesitas anclajes conductuales y calibración.

 

3) ¿Cuántos roles distintos debes evaluar?

→ Mientras más roles, más difícil hacer BARS completas para todos. Híbridas por familias de cargo suelen ser un buen paso intermedio.

 

4) ¿El sistema mide resultados además de conductas?

La gestión por objetivos (MBO) aporta fuerza para el “qué”, siempre que los objetivos estén bien definidos y se haga seguimiento.

360° y comparabilidad: donde una mala escala se nota el doble

En evaluación 360, el desafío no es solo el sesgo individual. Es la comparabilidad entre fuentes.

 

Si la escala es ambigua:

→ Un par puntúa “duro”.
→ El jefe puntúa “blando”.
→ La autoevaluación se dispara.

Una base conductual y un marco común ayudan a bajar esa variabilidad “por estilo” y a subir la variabilidad “por desempeño real”. Y eso te ahorra discusiones infinitas.

Menos discusión. Más evidencia real

Cómo se conecta todo esto con una gestión del desempeño moderna

La escala no vive sola. Vive en un sistema que debe producir acción.

Cuando el sistema funciona, pasan cosas como estas:

→ El feedback deja de ser una lotería y se vuelve una conversación útil y medible.
→ La calibración deja de ser una reunión eterna y se apoya en criterios comparables (y corrección de sesgos).
→ Los planes de desarrollo dejan de ser un PDF olvidado y se transforman en seguimiento real.

 

Esa es la diferencia entre “medir” y “mejorar”. Y ojo: no lo resuelve una escala por sí sola. Lo resuelve un flujo completo, con evidencia, seguimiento y decisiones consistentes.

Preguntas frecuentes sobre GRS, BARS y sesgos

¿BARS siempre es mejor que GRS?

No siempre. Tiende a mejorar claridad y reducir algunos errores como halo en varios contextos, pero la evidencia muestra resultados mixtos en otras métricas y depende del diseño. 

¿Cuánto cuesta implementar BARS?

Depende del número de roles y del rigor del proceso (paneles, recolección de incidentes, retranslación, escalamiento). El costo sube rápido cuando se hace “por rol” en vez de por familias. 

¿Qué sesgo es el más común?

En la práctica suelen aparecer halo, lenidad/severidad y tendencia central, especialmente en escalas genéricas y ciclos anuales. 

¿Sirve cambiar de 5 puntos a 4 puntos?

Puede disminuir tendencia central, pero también elimina la opción legítima de “promedio”. Si lo haces, necesitas anclajes más claros y entrenamiento para evitar distorsiones.

¿Qué es ACB y por qué importa?

Es un enfoque para agrupar incidentes conductuales en aspectos básicos, reduciendo descarte y manteniendo riqueza conductual, con reportes de buena calidad psicométrica en instrumentos construidos bajo esta lógica. 

¿Puedo hacer una “BARS light” sin psicometría?

Puedes hacer una escala híbrida con descriptores conductuales. Ayuda bastante. Lo que no conviene es llamarla BARS si no pasó por un proceso de construcción y validación mínimo.

¿El entrenamiento realmente cambia algo?

Sí, especialmente el FOR training. La evidencia cuantitativa muestra mejoras en precisión/alineación cuando los evaluadores comparten un marco común. 

¿Qué debería priorizar si estoy empezando?

Un primer salto razonable suele ser:

→ Definir dimensiones claras por familia de cargo.
→ Agregar anclajes conductuales por nivel (híbrida).
→ Entrenar evaluadores con marco común.
→ Implementar calibración y seguimiento durante el ciclo.

El objetivo no es evaluar mejor, es decidir mejor

La mayoría de las organizaciones no tiene un “problema de evaluación”. Tiene un problema de confianza en la evaluación.

Y esa confianza se construye con:

→ Definiciones claras del desempeño real.
→ Escalas que reduzcan ambigüedad.
→ Evidencia conductual, no impresiones.
→ Evaluadores entrenados.
→ Seguimiento continuo, no memoria de fin de año.

 

Si quieres que esto se traduzca en una operación simple (sin procesos manuales y con calibración más consistente), tiene sentido mirar herramientas que conecten objetivos, competencias, feedback, planes y seguimiento en un solo flujo.

Agenda una demo y descubre cómo transformar la gestión del talento en tu organización con ayuda de la inteligencia artificial.

bottom of page