Validez y confiabilidad de los instrumentos de investigación para la recolección de datos
pretende orientar a los
noveles investigadores en el procedimiento para elaborar un instrumento adecuado para la recolección de datos, válido y confiable, que proporcione un basamento relevante para el logro de los objetivos planteados y sustente los hallazgos que realicen con sus investigaciones.
El término constructo se usa en psicología para referirse a algo que no es observable, pero que literalmente es construido por el investigador para resumir o explicar las regularidades o relaciones que él observa en la conducta.
pretende orientar a los noveles investigadores en el procedimiento para elaborar instrumentos adecuados que proporcionen un basamento relevante para el logro de los objetivos planteados en la
investigación abordada y sustenten los hallazgos que se realicen.
Existen muchas consideraciones específicas a tomar en cuenta en la evaluación de un cuestionario; las cuales las englobaremos bajo tres encabezados principales: validez, confiabilidad y utilidad práctica
La Validez: La validez de un instrumento consiste en que mida lo que tiene que medir. Al estimar la validez es necesario saber a ciencia cierta qué rasgos o características se desean estudiar. A este rasgo o característica se le denomina variable criterio.
Validez de Contenido: se refiere al grado en que un instrumento refleja un dominio específico del contenido de lo que se quiere medir, se trata de determinar hasta dónde los ítemes o reactivos de un instrumento son representativos del universo de contenido de la característica o rasgo que se quiere medir
Hay que considerar que, la validez de contenido no puede expresarse
cuantitativamente es más bien una cuestión de juicio, se estima de manera
subjetiva o intersubjetiva empleando, usualmente, el denominado Juicio de
Expertos
e la relevancia y congruencia de los reactivos con el contenido teórico, la claridad en la redacción y el sesgo o
tendenciosidad en la formulación de los ítemes
La relevancia y congruencia de los reactivos
con el contenido teórico, la claridad en la redacción y el sesgo o
tendenciosidad en la formulación de los ítemes
Método Delphi: para obtener
la opinión de expertos de una manera sistemática. En un primer
momento, cada experto responde de manera individual y anónima a un cuestionario.
La problemática al momento de la recolección de datos en la realización
de los Trabajos de investigación se centra en la construcción de los instrumentos a emplear con esta finalidad, de manera que permitan recabar información válida y confiable
Administración y Calificación del Instrumento: Entre estos factores están: tiempo insuficiente para responder, ayuda adicional de otros sujetos, en caso de pruebas: las chuletas o copias, la subjetividad en los puntajes de las preguntas.
Respuestas de los Sujetos: Algunos factores: bloqueo de los sujetos al responder debido a situaciones emocionales y las respuestas al azar
FIABILIDAD Y VALIDEZ: se describen conceptualmente las propiedades psicométricas de fiabilidad y validez y los procedimientos para evaluarlas. El apartado dedicado a la fiabilidad o precisión de las puntuaciones de las pruebas describe los distintos modelos, procedimientos empíricos e índices estadísticos para cuantificarla. En cuanto a la validez, la propiedad psicométrica más importante y la que ha experimentado mayores transformaciones a lo largo de la historia de la Psicometría, se resumen las principales concepciones y los debates en torno a la misma.
Los psicólogos utilizan diversos procedimientos estandarizados para obtener muestras de la conducta de las personas. Estos recursos, genéricamente denominados tests, incluyen un procedimiento de puntuación que permite obtener medidas que pueden ser usadas con distintos propósitos: estimar el nivel de la personas en un constructo (ansiedad, calidad de vida, visualización espacial…)
Para estimar empíricamente los estadísticos de fiabilidad (ETM y coeficiente de fiabilidad) se emplean diversos diseños de recogida de datos que reflejan distintas repeticiones del proceso de medida. Los más conocidos se denominan test-retest (aplicación de un test a una muestra de personas en dos ocasiones entre las que el atributo se mantiene estable)
FIABILIDAD
La fiabilidad se concibe como la consistencia o estabilidad de las medidas cuando el proceso de medición se repite. La carencia de precisión podría tener consecuencias indeseables en el coste de ese producto en una ocasión determinada. De esta concepción se sigue que de la variabilidad de las puntuaciones obtenidas en repeticiones de la medición puede obtenerse un indicador de la fiabilidad, consistencia o precisión de las medidas.
La TCT es un conjunto articulado de
procedimientos psicométricos desarrollados fundamentalmente en la primera mitad del siglo pasado, que se ha utilizado extensivamente para la construcción, análisis y aplicación de los tests psicológicos y educativos
TCT permite cuantificar solamente dos componentes de la varianza de las puntuaciones observadas: la varianza verdadera y la varianza de error. La TG, concebida como una extensión de la TCT, trata de especificar la contribución a la varianza observada de un número mayor de facetas: la variabilidad entre las personas, las ocasiones en que se mide, las diferentes formas del instrumento, los diferentes calificadores y las interacciones entre los componentes.
De manera semejante, si una persona contestase a un test repetidamente en las mismas condiciones, de la variabilidad de las puntuaciones podría obtenerse un indicador de su grado de fiabilidad.
El estudio de la fiabilidad parte de la idea de que la puntuación observada en una prueba es un valor concreto de una variable aleatoria consistente en todas las posibles puntuaciones que podrían haber sido obtenidas por una persona en repeticiones del proceso de medida en condiciones semejantes
VALIDEZ
este enfoque sigue siendo de suma importancia cuando se emplean las pruebas para seleccionar a
los candidatos más aptos para un empleo, en los programas de admisión, en la adscripción de pacientes a tratamientos, etc. En estos casos, la evaluación de la utilidad de la prueba suele cuantificarse mediante la correlación entre sus puntuaciones y las de alguna medida del
criterio (coeficiente de validez)
Son necesarias pruebas múltiples y convergentes obtenidas en diferentes estudios. Por ello, se considera que la validación es un proceso dinámico y abierto.
Esta fase inicial de desarrollo del concepto terminó con la propuesta de dos vías regias para establecer la validez de las pruebas: la validación de criterio (la correlación entre las puntuaciones del test y las puntuaciones en el criterio) y la validación de contenido (la justificación de que los ítems para medir el criterio son una muestra representativa del contenido a evaluar).
En la actualidad se considera que la validez se refiere al grado en que la evidencia empírica y la teoría apoyan la interpretación de las puntuaciones de los tests relacionada con un uso específico (AERA, APA y NCME, (1999). La validación es un proceso de acumulación de pruebas para apoyar la interpretación y el uso de las puntuaciones. Por tanto, el objeto de la validación no es el test, sino la interpretación de sus puntuaciones en relación con un objetivo o uso concreto
La validación de contenido se extendió desde el análisis del criterio al de la validez de los tests predictores: una prueba no puede considerarse válida si los ítems que la componen no muestrean adecuadamente el contenido a evaluar
Esta insatisfacción se concretó en el influyente artículo de Cronbach y Meehl (1955) en el que se propone la validación de constructo como el modo principal de validación. Cronbach (1971) puntualizó que en un test para medir un rasgo de personalidad no hay únicamente un criterio relevante que predecir, ni un contenido que muestrear.
Validación del contenido del test:
Los tests están compuestos por un conjunto de ítems destinados a obtener una puntuación que represente el nivel de una persona en un constructo (extraversión). Difícilmente se podrá justificar la calidad de las medidas si los ítems no representan de forma suficiente las diferentes facetas de las manifestaciones del constructo
Análisis de los procesos de respuesta
Debido a la influencia de la ciencia cognitiva, la validación de los tests de inteligencia, aptitudes y rendimiento debe incluir el análisis de los procesos, las estrategias de resolución de problemas y las representaciones mentales que emplean los participantes para resolver los ítems
Asociación de las puntuaciones con otras variables
Las relaciones de las puntuaciones del test con otras variables externas a la prueba constituyen una importante fuente de validación. Cuando se emplean las puntuaciones para seleccionar los candidatos más aptos para un empleo, en los programas de admisión, en la adscripción de pacientes a tratamientos, etc, la justificación se basa en su utilidad para predecir un criterio externo.
Validación de las consecuencias del uso de los tests
plantea la previsión de las posibles consecuencias del uso de los tests como parte del proceso de validación. Desde esta perspectiva, el análisis y justificación de las consecuencias ocupan un lugar preponderante cuando los tests vayan a emplearse para tomar decisiones críticas para personas e instituciones: selección, contratación, graduación, promoción profesional, evaluación de programas, etc. La literatura psicométrica denomina estos usos como de alto riesgo.
un instrumento según Alvarado, Canales y Pineda (1994)“…es el mecanismo que utiliza el investigador para recolectar y registrar
la información”
Factores que Afectan la Validez
:Existen varios factores que tienden a distorsionar los coeficientes de validez y a complicar su interpretación
Validez Predictiva o de Criterio Externo o Empírica: se asocia con la visión de futuro, determinar hasta dónde se puede anticipar
el desempeño futuro de una persona en una actividad determinada. La validez predictiva se estudia comparando los puntajes de un instrumento con una o más variables externas denominadas
variables de criterio
El problema de apreciar la validez de
contenido está vinculado íntimamente con la planificación del cuestionario y
después con la construcción de los ítemes ajustados a esos planes y a los contenidos del marco teórico de la investigación. Un instrumento de medición debe tener representados a todos los ítemes del dominio de contenido de las variables a medir
Los investigadores deben elaborar una serie de ítemes, acordes con las
variables empleadas y sus respectivas dimensiones. Luego de la selección de los ítemes más adecuados para el proyecto, se elabora el instrumento, para ser validado por un grupo impar de expertos
Los juicios de expertos se pueden obtener por métodos grupales o por métodos de experto único. Se pueden seguir, entre
otros, el método de Agregados Individuales, el método Delphi, la técnica de Grupo Nominal y el método de Consenso Grupal
Método de Agregados Individuales: Éste es un método económico porque, al igual que el método Delphi, no exige que se reúna a los expertos en un lugar determinado.
Cada experto debe recibir la información escrita suficiente sobre: el propósito de la prueba (objetivos), conceptualización del universo de contenido, tabla de especificaciones o de operacionalización de
las variables del estudio.
Técnica de Grupo Nominal: El primer paso es reunir a los expertos (entre ocho y diez personas) y pedirles que registren,
individualmente y sin intercambiar opiniones, sus propias
puntuaciones
Método del Consenso Grupal: Se reúne a los expertos en un lugar determinado, se indica al grupo que su tarea consiste en lograr una estimación de la pertinencia y otros aspectos relacionados con
la elaboración de los ítemes.
Validez de Constructo: Para estudiar este tipo de validez es necesario que exista una conceptualización clara del rasgo
estudiado basado en una teoría determinada. La teoría sugiere las
tareas pruebas que son apropiadas para observar el atributo o rasgo
y las evidencias a considerarse en la evaluación.
Confiabilidad: Es imprescindible probar el
cuestionario sobre un pequeño grupo de población. Esta prueba piloto ha
de garantizar las mismas condiciones de realización que el trabajo de campo
real
Método Test-Retest: una forma de estimar la confiabilidad de un test o cuestionario es administrarlo dos veces al mismo grupo y correlacionar las puntuaciones obtenidas.
Método de Kuder-Richarson 21: permite obtener la confiabilidad a partir de los datos obtenidos en una sola aplicación del test.
Método común de división por mitades o Hemitest: este método computa el coeficiente de correlación entre los puntajes de las dos mitades del test o cuestionario aplicado.
Interpretación del Coeficiente de Confiabilidad
El coeficiente de confiabilidad es un coeficiente de correlación, teóricamente significa la correlación del test consigo mismo. Sus valores oscilan entre 0 y 1.
Coefiente Alfa de Cronbach: Para evaluar la confiabilidad o la homogeneidad de las preguntas o ítemes es común emplear el coeficiente alfa de Cronbach cuando se trata de alternativas de respuestas policotómicas.
Método de Kuder-Richarson 20: permite obtener la confiabilidad a partir de los datos obtenidos en una sola aplicación del test.