De la Teoría Clásica de los Tests a los Tests Adaptativos Computarizados: Una
revisión.
José E. Díaz Camacho
Universidad Autónoma de Baja California(1)
Resumen
En los últimos 30 años, la metodología y las técnicas de elaboración de tests
han manifestado un desplazamiento cada vez más marcado de los sistemas
tradicionales de exámenes, fundamentados en la teoría clásica de los tests,
hacia los sistemas adaptativos de evaluación. Esta transición ha sido propiciada
por los desarrollos que han tenido lugar en el contexto de la teoría de los
tests y, en particular, en la teoría de respuestas por ítem, así como por el
desarrollo alcanzado por la tecnología computacional. El desarrollo de la teoría
clásica de los tests ha evolucionado de una posición pragmática caracterizada
por la elaboración de reactivos y pruebas, cuyo único requisito era mantener
cierta consistencia entre sí, hacia una fase en la cual las pruebas cuentan con
un mayor sustento en postulados teóricos acerca de la personalidad, el
aprendizaje, el comportamiento y los principios que regulan la interacción entre
los factores estructurales hereditarios y los factores ambientales. La
elaboración de tests de acuerdo a la teoría clásica, conlleva ciertas
limitaciones debidas principalmente a la dependencia que hay entre cada reactivo
y la prueba de que forma parte, así como la que existe entre cada reactivo y la
población utilizada para normar la prueba, lo que limita las posibilidades de
predecir el comportamiento ante reactivos específicos. Nuevas aproximaciones,
como la teoría de respuestas por ítem, han sido elaboradas para resolver las
limitaciones planteadas por la teoría clásica de los tests y han presentado
nuevas técnicas para el desarrollo de estos instrumentos de medida. Uno de los
resultados de la teoría de respuestas por ítem es que al permitir establecer
estadísticos para cada reactivo individual y de manera independiente, se
proporciona un modelo teórico excelente para la elaboración de tests adaptativos
computarizados, caracterizados básicamente por presentar reactivos diferentes a
cada examinado, dependiendo de sus respuestas a los reactivos anteriores. Otra
de las herramientas que han sido de considerable valor para los nuevos tests
adaptativos computarizados es el desarrollo de los sistemas de cómputo que
permiten manejar grandes bases de reactivos de una manera interactiva y con una
gran velocidad de proceso.
SUMMARY
During the last 30 years, test development methodology and techniques have
gradually suffered an increasing shift from a traditional position based on the
classical test theory, to the adaptive tests. This shift has been produced as a
result of several factors, the most important being, the new test theory, and
specially, the item response theory. Another important factor is the development
of computational technology. Test theory has evolved from a pragmatical strategy
aimed to build items and tests with no other requirement than to get certain
consistency among them, to a new stage in which tests have more solid
theoretical foundations in such psychological topics like personality, learning
and the principles describing the interaction among structural and hereditary
factors. Test development according to classical test theory carries on certain
limitations, like the dependency each item has on the test to which it belongs
and on the population used to norm the test. These shortcomings prevent the
posibility to predict subjects' performance to an specific item. Item response
theory is a new approach developed to solve these shortcomings of the classical
test theory and in doing so, has dealt to the development of new measurement
instruments. One of the results of item response theory is to provide for each
specific item, statistical parameters that are independent of any other factor.
Consecuently, it creates a theoretical framework for the development of
computerized adaptive tests. Accordingly, computerized adaptive tests, allow the
examiner to present different items for each examinee depending on the responses
to previous items. This new type of tests would not be possible, the
computerized tecnology had no been evolved to such a levels as to be able to
interactively handle great amounts of data in such a high processing speed.
Introducción
Los últimos treinta años han visto un desarrollo acelerado de los sistemas
adaptativos de evaluación aplicados a diversas áreas del conocimiento. Sin
embargo, esta tecnología para la evaluación, no habría sido posible sin la
evolución de varias áreas del conocimiento entre las que se encuentran la Teoría
de Respuesta por ítem (Item Response Theory) y la tecnología computacional que
tanto en hardware como en software, ha permitido disponer de herramientas muy
rápidas y con una gran capacidad de almacenamiento y recuperación de
información. Este trabajo comenta los principales desarrollos que tuvieron lugar
en la Teoría Clásica de los Tests, señalando los problema que motivaron la
emergencia de una nueva teoría: la Teoría de Respuestas por Item. Asimismo,
relaciona las contribuciones de la Teoría de Respuestas por Item y la tecnología
computacional con el desarrollo de los sistemas adaptativos de evaluación.
La Teoría Clásica de los Tests.
Se denomina Teoría Clásica de los Tests (TCT) al conjunto de principios teóricos
y métodos cuantitativos derivados de ellos, que fundamentan la construcción,
aplicación, validación e interpretación de distintos tipos de tests y que
permiten derivar escalas estandarizadas aplicables a una población (Hambleton,
1994). Los principios en que se basa son relativamente simples y se aplican
tanto a las pruebas de desempeño, como a las de aptitud. Durante sus diferentes
fases de desarrollo, se han elaborado procedimientos de análisis cuantitativo
que han sido de gran utilidad, destacándose en lo general, tres grandes etapas
que se identifican por su objeto de interés primordial, así como por los métodos
cuantitativos y tipos de análisis teóricos que utilizan.
La primera etapa que Cattell (1986b) denomina itemetría, se caracteriza
principalmente por la construcción de pruebas conformadas por reactivos cuyas
propiedades estadísticas eran el centro de atención principal. Los tests se
consideraban como el producto de la integración de un conjunto de reactivos
cuyas propiedades estadísticas tenían que ser determinadas antes de que se les
incluyera en esa prueba particular.
Esto propició que el concepto de confiabilidad adquiriera prominencia como la
principal virtud de la escala y se medía a partir de la correlación entre los
reactivos individuales y el instrumento en su conjunto. Si la correlación eral
alta, se decía que los reactivos eran los adecuados. Sin embargo, con frecuencia
resultaba que la correlación no era tan buena, y el resultando era que se
obtenían reactivos deficientes y la prueba en su conjunto era de escaso valor.
El concepto mismo de confiabilidad implicaba al de error de la medida y tuvieron
que desarrollarse procedimientos distintos para determinar la confiabilidad del
test de una manera más precisa. Tal fue el caso de los procedimientos de pruebas
paralelas y de división por mitades.
La itemetría hizo contribuciones valiosas a la psicología debido al énfasis que
puso en el análisis del error. Entre sus contribuciones se encuentran varios
conceptos sobre precisión de la medida, las técnicas para el tratamiento del
error y el uso generalizado del error estándar de la medida como la medida
básica del error (Kaplan & Saccuzzo, 1993). Además, dio lugar a contribuciones
tales como las fórmulas de Spearman-Brown (Spearman, 1904), Kuder-Richardson (Kuder
& Richardson, 1937), Alfa de Cronbach (Cronbach, 1951) y a varios principios
básicos de escalamiento, así como al uso generalizado de la curva normal, las
pruebas de significancia, el uso de las correlaciones múltiples y la fórmula de
atenuación, etc. Sin embargo, por lo que respecta a la teoría de la
personalidad, a decir de Cattell (1986b), "ésta vivía en un mundo habitado por
ítems y apreciaciones subjetivas sobre conceptos tales como extraversión,
superego, inteligencia, persistencia, etc."(p. 5) Es decir, la fase de
desarrollo de reactivos y su agrupamiento para conformar tests, fue una fase
fundamentalmente pragmática, sin gran sustento en teorías de la personalidad que
permitieran relacionar la parte cuantitativa con la conceptual acerca del
comportamiento.
La siguiente etapa es la que Cattell (1986b) denomina psicometría estructural y
se caracteriza por el uso de las nuevas herramientas estadísticas tales como el
análisis factorial con sus variantes técnicas R-, dR- y P- como un medio para
encontrar la "estructura natural" de las habilidades en el contexto de los
factores culturales, la dotación genética, la personalidad, los rasgos, los
motivos dinámicos y las dimensiones que dan lugar a la acción y al
comportamiento. Su objetivo primordial no era como tal, aplicar pruebas, sino
determinar la relación que hay entre los conceptos clínicos sobre personalidad,
y los fundamentos de la investigación experimental multivariada (cuantitativa
por naturaleza), así como analizar las interacciones dinámicas entre los rasgos
y los estadíos de la personalidad. Los tests se consideraban significativos en
la medida que armonizaban con los constructos teóricos (Marx, 1963) formulados
conceptualmente. Sus mayores logros los obtuvo en los trabajos de Spearman(1927),
Thurstone(1938), Horn(1967), Guilford(1956), Eysenck(1959) y otros que
contribuyeron a crear una base uniforme y coherente de los procesos
psicológicos, lo cual dió a la teoría de la personalidad una nueva imágen:
cientifíca y con mayor sustento experimental.
La construcción de tests verdaderamente estructurados se produjo como resultado
de esta etapa, por lo menos en lo que respecta a las fases iniciales de
desarrollo de los tests. Un resultado marginal de la convergencia de esta
concepción más elaborada de los tests y el desarrollo cuantitativo, hasta cierto
punto desarticulado, de los procedimientos psicométricos, fue que las nuevas
teorías de la personalidad crecieron en un terreno ya ampliamente abonado por
las primeras pruebas y métodos de escalamiento.
La etapa funcional en el desarrollo de los tests es aquella que "trasciende a
las aplicaciones inmediatas y simplistas que identificaban a las estadísticas
con factores conductuales, y profundiza en las leyes y formulaciones
conceptuales del comportamiento: que relaciona rasgos, procesos y estados
psicológicos con las mediciones y estrategias estructurales" (Cattell, 1986b, p
6). Ese tipo de leyes, según Cattell, se refieren a las relaciones sistemáticas
y consistentes obtenidas de los estudios empíricos sobre el desarrollo, en el
conocimiento acerca de los rasgos determinados en forma hereditaria, de los
rasgos modificables por las experiencias y el aprendizaje y de la modulación de
los estados psicológicos producidos por las relaciones psicofisiológicas.
De esta forma, el uso funcional de los tests es sólo posible en el psicólogo
formado con base en las modernas teorías de la personalidad y del aprendizaje y
sustentadas en las técnicas de medición y experimentación (Cattell, 1986a). En
otras palabras, la observación de correlaciones sistemáticas, consistentes y
significativas entre las medidas obtenidas en diferentes tests se refiere (fuera
de la explicación trivial de covariación), no sólamente a una variación
concomitante entre medidas, sino a uno o varios posibles factores como el
traslapamiento de componentes psicológicos en el individuo o grupo que está
siendo observado, la convergencia de condiciones ambientales que determinan
patrones específicos de comportamiento, o la acción de factores genéticos
estructurales que determinan pautas específicas de comportamiento (Tryon, 1935;
y Anastasi, 1970). Así, el sustrato de la etapa funcional en el desarrollo de
los tests hace referencia a rasgos que por lo regular connotan niveles de
organización en el comportamiento que se manifiestan a través de diferentes
medidas captadas en los tests psicológicos.
En resumen, el desarrollo de la teoría clásica de los tests ha procedido de
etapas orientadas en forma pragmática para desarrollar tests y validar
reactivos, (donde a fin de cuentas, los constructos psicológicos teóricos se
definían operacionalmente como "aquéllo que mide la prueba x"); hacia etapas
conceptualmente más elaboradas en que los tests se derivan de teorías del
comportamiento más articuladas y donde cada reactivo tiene un significado
conceptual definido en un contexto teórico particular.
Limitaciones de la Teoría Clásica de los Tests.
De acuerdo a la Teoría Clásica de los Tests (TCT), la elaboración de pruebas de
desempeño máximo involucra la selección de reactivos de acuerdo a su contenido,
nivel de dificultad y poder de discriminación. Los reactivos más deseables son
los que poseen un nivel mayor de discriminación. El nivel de dificultad por su
parte, se ajusta de acuerdo a: 1. El propósito de la prueba, y; 2. El criterio
preestablecido para el grupo al cual se aplicará la prueba.
Los índices estadísticos empleados por la TCT no se mantienen constantes cuando
se aplican a poblaciones que difieren en habilidad respecto de la población
empleada para obtener las normas del test. Por lo tanto, el éxito de las
técnicas clásicas de selección de reactivos depende de qué tan parecida es la
población con la cual se obtuvieron los índices respecto de la población a la
que se pretenden aplicar. Si la diferencia es grande, los índices obtenidos de
los ítems no serán apropiados para la población objetivo. En otros términos, la
teoría clásica de los tests no puede predecir cómo responderá un individuo a los
ítems a menos que esos ítems hayan sido previamente administrados a personas
similares (Lord, 1980) Durante el trabajo práctico de elaboración de tests,
regularmente el grupo a partir del cual se obtienen los índices y el grupo al
cual el test va dirigido, difieren considerablemente.
Un caso especial en el cual los índices clásicos de los reactivos se obtienen a
partir de grupos que difieren de la población a la que van dirigidos, puede
verse al estructurar bancos de reactivos. Al elaborar un banco de reactivos, las
características de los ítems que van a ser incluídos en el banco, deben ser
determinadas. Los ítems con frecuencia denominados "experimentales", se incluyen
en un test que es administrado a un grupo de personas de tal manera que se
obtienen como resultado, los índices de esos reactivos. Por supuesto, no todos
los reactivos experimentales serán incluídos en un test particular. Por lo
tanto, se crean múltiples formas del test, cada uno de los cuales contiene
diferentes reactivos experimentales y las diferentes formas se aplican a grupos
distintos de examinados. Dado que generalmente no es posible asegurar que las
diferentes formas del examen sean administradas a grupos equivalentes, los
índices de los reactivos experimentales que se aplicaron a grupos distintos no
pueden ser equivalentes (Hambleton & Swaminathan, 1985). Por lo tanto, si los
reactivos fueron incluídos en el examen bajo el supuesto de que sus índices eran
comparables, entonces cualquier test construído a partir de ese banco de
reactivos no podrá ser apropiado para ninguna de las poblaciones que pudieran
ser seleccionadas en un momento dado.
Por otra parte, aún cuando un banco de reactivos se encuentre bien conformado,
otro problema de la teoría clásica de los tests está en la precisión de la
medición. Y es que en la teoría clásica de los tests, la contribución de un ítem
a la confiabilidad de la prueba no depende de las características del reactivo
sólamente, sino que también depende de la relación que hay entre el reactivo en
questión y los otros reactivos del test. Por lo tanto, no es posible aislar la
contribución de un ítem a la confiabilidad de la prueba y por lo consiguiente,
tampoco su participación al error estándar de la medida (Hambleton, Swaminathan,
& Rogers, 1991).
Finalmente, no obstante que el desarrollo de la teoría clásica de los tests
llegó, con la etapa funcional de los tests, a un punto en que la
conceptualización de los resultados de los tests, y consecuentemente su proceso
de desarrollo, permitían mediante sofisticados procedimientos estadísticos,
sacar a los reactivos de los límites impuestos por la prueba en su conjunto, la
limitación teórica aún permanecía y se hacía necesario un nuevo marco conceptual
para salvarlo. Este nuevo esquema para la conceptualización de los reactivos
como unidades independientes del test y del grupo utilizado para normarlo, se
obtuvo con la teoría de respuestas por ítem. No obstante, la contribución
principal de este nuevo esquema conceptual no está primordialmente, en el uso de
constructos hipotéticos o variables interventoras como explicación del
comportamiento; sino más bien, en hacer referencia a las relaciones consistentes
y sistemáticas observadas por la investigación experimental como un sustento
sobre el cuál fincar la elaboración de los reactivos y su escalamiento para
determinar a qué magnitud del rasgo definido corresponden.
La Teoría de Respuestas por Item.
La literatura sobre tests registra en los últimos 30 años un desplazamiento
progresivo del esquema proporcionado por la Teoría Clásica de los Tests, hacia
el contexto y los procedimientos delineados por la Teoría de Respuestas por Item
(TRI) [Del inglés: Item Response Theory - IRT]. Esta teoría, fue desarrollada
para resolver varios de los problemas que presentaba la Teoría Clásica de los
Tests (Hambleton & Swaminathan, 1985) y que no habían sido resueltos de una
manera satisfactoria. Algúnos de esos problemas son:
(1) El uso de índices de los reactivos cuyos valores dependen de la población
particular de la cuál fueron obtenidos, y
(2) La estimación de la habilidad del examinado depende del conjunto específico
de reactivos incluídos en la prueba.
Es decir, las características del examinado y las características de la prueba
no pueden separarse en un instrumento elaborado conforme a los principios de la
Teoría Clásica de los Tests; y por el contrario, cada uno sólo puede ser
interpretado en términos del otro.
Las características del examinado en las cuales la teoría TRI está interesada,
son la "habilidad" que mide el test. Para la TCT, la noción de habilidad se
expresa por medio del llamado puntaje verdadero que se define como "el valor
esperado a partir de la destreza observada en la prueba en questión" (Hambleton,
Swaminathan, & Rogers, 1991)
La habilidad del examinado se define sólo en términos de una prueba específica.
Si el test es "difícil", el examinado parecerá tener un nivel bajo de habilidad.
Si el test es "fácil", el examinado parecerá tener un mayor nivel de habilidad.
Y el nivel de dificultad de la prueba se define como "la proporción de
examinados en el grupo de interés, que contestó el reactivo correctamente" (Hambleton,
et. al. 1991) Por lo tanto, el que un ítem sea difícil o fácil depende de la
habilidad de los examinados a quienes se aplicó la prueba y a su vez, la
habilidad de los examinados depende del nivel de dificultad de la prueba.
De la misma forma, el nivel de discriminación de los reactivos y los
coeficientes de validéz y confiabilidad de la prueba se definen también en base
a las características del grupo particular de examinados. Así, las
características del test y de los reactivos cambian a medida que cambia el
contexto de la prueba. Por lo tanto, es muy difícil comparar examinados a
quienes se aplican diferentes tests; o aún, comparar ítems cuyas características
se obtuvieron utilizando diferentes grupos de examinados.
Esto significa que los coeficientes de los reactivos son dependientes del grupo
al mismo tiempo que son dependientes del test. Esta clase de dependencia es la
que se trata de eliminar mediante la TRI. Aunque se reconoce que tal dependencia
no es imposible de romper mediante la TCT mediante el uso de técnicas
sofisticadas de análisis estadístico (Cattell, 1986b), el problema conceptual
aún se mantiene.
Otro problema de la TCT es que es centrada-en-el-test, más que
centrada-en-el-reactivo. No se toma en consideración cómo responde el exáminado
a un reactivo dado, y por lo tanto, no se tienen bases para determinar qué tan
bien podría desempeñarse un examinado particular ante un reactivo individual. Es
decir, la teoría clásica de los tests no permite hacer predicciones acerca de
cómo se comportará un individuo o grupo particular ante un reactivo dado. Esta
posibilidad de predicción es importante en una gran variedad de situaciones como
por ejemplo, cuando se intenta predecir el comportamiento de un profesional ante
diferentes tipos de situaciones prácticas.
De acuerdo a Hambleton, et. al., (1991), las principales características de la
TRI como una alternativa a la teoría clásica de los tests son:
1. Las características de los reactivos no dependen del grupo del cuál fueron
obtenidas;
2. Los puntajes que describen la habilidad del examinado no dependen del test en
su conjunto;
3. El modelo se expresa al nivel del reactivo más que al nivel del test;
4. El modelo no requiere de pruebas paralelas para determinar el índice de
confiabilidad; y
5. Provee una medida de la precisión de cada índice de habilidad.
Algúnas otras ventajas de la TRI explican su popularidad, siendo la más
importante para fines prácticos, que los examinados no necesitan contestar el
mismo conjunto de ítems a fín de ser comparados con una misma escala (Ozen &
Reise, 1994)
Los dos principios basicos que de acuerdo con Hambleton, et. al., (1991),
sustentan a la TRI, son:
"(1) La ejecución de un examinado en una prueba pueden ser predichos por un
conjunto de rasgos, rasgos latentes y habilidades; y (2) la relación entre las
respuestas de los examinados a los reactivos y el conjunto de rasgos que
subyacen a la respuesta ante el reactivo, pueden describirse por una función
monotónicamente incrementada llamada función característica del reactivo o curva
característica del ítem (CCI). Esta función especifica que a medida que el nivel
del razgo incrementa, también incrementa la probabilidad de una respuesta
correcta ante ese reactivo." (p.7)
De acuerdo a los modelos matemáticos utilizados por la TRI, la probabilidad de
que un examinado responda correctamente ante un ítem dado, depende de la
habilidad del examinado y de las características del reactivo. Los modelos TRI
incluyen supuestos acerca de los datos a los que se puede aplicar el modelo, aún
cuando la viabilidad de los supuestos no puede determinarse directamente.
Evidencias adicionales deben ser reunidas y evaluadas. El ajuste global del
modelo a los datos de la prueba pueden por supuesto, ser también evaluados.
Son supuestos de la TRI:
1. Sólo puede medirse una habilidad por el reactivo que forma parte del examen;
este es el supuesto de la unidimensionalidad; y,
2. La función característica del reactivo refleja la relación real que hay entre
las variables no observables (habilidades) y las variables observables (las
respuestas a los reactivos; Hambleton, et. al., 1991)
Si se construye una prueba a partir de la TRI, la dificultad de los reactivos y
la habilidad del examinado se miden en la misma escala, haciendo posible
seleccionar reactivos que son más útiles en ciertos puntos de la escala de
habilidades. Por ejemplo, si se desea determinar el punto de inflexión que
separa a profesionales certificados de los profesionales no certificados, la TRI
permite seleccionar reactivos para producir una prueba que tenga el nivel
deseado de precisión para medir cualquier nivel de habilidad (Hambleton, et.
al., 1991)
Para construir una prueba de acuerdo a los principios de la TRI, es necesario
construir un banco de reactivos con parámetros estimados para cada ítem, de
acuerdo al modelo seleccionado. El procedimiento recomendado por Lord (1977)
consiste de los siguientes cuatro pasos:
"1. Decidir acerca de la forma deseada de la función de información de la prueba
o curva de información deseada (target information curve).
2. Seleccionar los reactivos del banco cuya curva de información deseada cae
bajo el área de la curva de información de la prueba, de tal manera que saturen
el área bajo la curva de la función deseada de la prueba.
3. Conforme se adicionan reactivos a la prueba, se recalcula la curva de
información de la prueba con los reactivos seleccionados hasta ese momento.
4. Continuar la selección de los reactivos hasta que la función de información
de la prueba se aproxime a la función de información deseada con un grado
satisfactorio." (p. 23)
Sin embargo, la TRI no se encuentra libre de problemas y su aplicación contiene
ciertos puntos riesgosos debido a que el uso de criterios estadísticos para la
selección de los reactivos no asegura una prueba con contenidos completamente
válidos. Deficiencias en los procedimientos de selección de los contenidos
pueden generar una prueba con un bajo nivel de validez de contenido (Hambleton,
et. al., 1991).
Otro problema de la TRI es que cuando se utilizan funciones de información de
los reactivos durante el desarrollo de una prueba, es probable que los valores
sean sobrevalorados y por lo tanto, la función de información podría sesgarse.
Una prueba construída con ítems de valores elevados puede ser que no corresponda
a los de la prueba esperada. Como consecuencia, la función de información de la
prueba será sobrevalorada y por lo tanto, habrá que añadir varios reactivos
adicionales para compensar esta sobrevaloración. Otra solución podría ser
emplear muestras más grandes, de forma que se realice una estimación más
adecuada de los parámetros de los reactivos (Hambleton, et. al., 1991)
En resúmen, la TRI es una teoría dirigida a establecer situaciones que permiten
predecir el comportamiento del examinado ante ítems particulares de un test, o
ante test completos, con base en un rasgo o patrón de comportamiento. Los dos
postulados básicos son: que la ejecución del examinado ante el test es parte de
una sóla habilidad o rasgo y que la relación entre estos dos se manifiesta
conforme a una función monotónicamente incrementada llamada función
característica del ítem (o función de la respuesta). La TRI es consistente con
la teoría de las habilidades latentes que postula que los individuos varían en
el rasgo o habilidad que mide el test y que éstos se distribuyen en un contínuo
que va de bajo a alto. La probabilidad de responder un ítem correctamente varía
con la habilidad y es baja si el nivel de habilidad es baja y alta para niveles
altos de habilidad. Esto se visualiza mediante la curva característica de ítem,
la cual es diferente para cada reactivo y para el test en su conjunto. Los
modelos de respuesta por ítem tienen múltiples aplicaciones en pruebas de amplia
aplicación en los Estados Unidos de Norteamérica como son el Scolastic
Assessment Test (SAT) y el General Educational Development (GED). Muchas
empresas e instituciones utilizan los modelos de respuesta por ítem en el
desarrollo de sus tests, tales como Educational Testing Service (ETS), The
Psychological Corporation, CTB/McGraw-Hill y otros importantes desarrolladores
de pruebas.
El Desarrollo de la Tecnología de Computadoras.
Varios eventos relacionados con la tecnología computacional han sido
significativos para permitir el desarrollo masivo de los sistemas adaptativos de
evaluación que pertecencen a la categoría de exámenes hechos a la medida en
virtud de que se adaptan a la capacidad de cada examinado. El primero de ellos
es indudablemente el desarrollo que a partir de 1970 han tenido las computadoras
personales, permitiendo cada vez más una alta velocidad de proceso y una
capacidad de almacenamiento muy por encima de lo que hubiera podido pensar en
ese año.
Otro evento significativo es la fabricación de software cada vez más potente
cuyo inicio se marcó indudablemente, por una parte, con el desarrollo del
sistema operativo MS-DOS (2), y por otra, por el sistema D-Base II (3), ambos
para computadoras personales. Antes de estos dos desarrollos, tanto los sistemas
operativos como las bases de datos operaban sólo en computadoras de las llamadas
mainframes y requerían de una capacidad de memoria y dispositivos de
almacenamiento muy superiores a lo que las computadoras de aquellos tiempos
podían razonablemente manejar. La principal ventaja que se obtuvo con el
desarrollo de los modernos sistemas operativos fue la interactividad entre el
usuario y la computadora, mientras que con las bases de datos, fue la
posibilidad de almacenar y recuperar grandes cantidades de información por medio
de procedimientos bastante simples. Ambos elementos con la capacidad para
almacenarse en pequeñas computadoras que se encuentran al alcance de cualquier
usuario individual.
Recientemente, las bases de datos creadas con una filosofía orientada a objetos
facilita el desarrollo de sistemas inteligentes de evaluación que no sólo
permiten almacenar y recuperar información de una manera flexible, sino que
además, pueden programarse fácilmente de manera que pueden tomar decisiones en
base a las respuestas de los usuarios y tomar la forma de sistemas inteligentes
o sistemas expertos.
Esto se debe a que la filosofía orientada a objetos permite replicar en el
ambiente simbólico del lenguaje de la computadora, las relaciones que se
observan en los objetos en el ambiente natural de trabajo de una manera más fiel
de lo que sucedía con los sistemas anteriores de programación. De hecho, crear
un sistema de cómputo implica crear en la computadora, una imagen de una parte
del ambiente real al que ese sistema pretende aplicarse. Lo que sucede con los
lenguajes orientados a objetos es que es posible crear en la computadora,
entidades simbólicas a las que se les asignan propiedades semejantes a las
observadas en la realidad. Y también es posible hacer que esas entidades u
objetos se comuniquen entre sí conforme a las propiedades o reglas de
interacción que han sido definidas. Así, algúnas funciones humanas como el
razonamiento deductivo observado en el silogismo y algunas otras operaciones
lógicas, pueden reproducirse en el ambiente simbólico de la computadora.
En el caso de los sistemas adaptativos de evaluación, se han identificado las
funciones que una base de datos debe poseer para permitir una óptima utilización
del sistema. En este caso, la base de datos se conforma en una buena parte por
una base de reactivos, cada uno de los cuales es una entidad o registro que
posee ciertos atributos. Los parámetros estadísticos básicos del reactivo son
los atributos del registro y cada vez que el reactivo es extraído de la base de
reactivos y contestado por un examinado, se actualizan estos parámetros.
Los bancos de reactivos fueron explorados por primera vez a fines de los sesenta
y principios de los setenta en la Gran Bretaña, pero por lo general, terminaron
en fracasos debido a las enormes cantidades de papel y recursos administrativos
y de organización que se requerían (Hambleton, 1986). La segunda generación
surgió a mediados de los ochenta cuando las computadoras fueron capaces de
almacenar, recuperar y evaluar los reactivos de una prueba.
Con un banco de reactivos adecuadamente desarrollado y los reactivos
convenientemente valorados, la construcción de las pruebas se convierte en el
siguiente paso inevitable. De acuerdo con Hambleton (1986), las características
deseables de un banco de reactivos computarizados son las siguientes:
1. Debe proporcionar mecanismos que permitan el fácil acceso a los reactivos así
como a la información estadística sobre su uso, representatividad y dificultad
asociada con ellos.
2. Debe contener un conjunto de objetivos a los que sirve cada reactivo, así
como un esquema adecuado para clasificar esos objetivos.
3. Debe contener algorítmos rápidos de búsqueda y recuperación de los reactivos
que se usarán para aplicar las pruebas.
4. Debe poseer algorítmos automatizados para configurar los exámenes.
5. Debe disponer de mecanismos interactivos de presentación de los reactivos.
6. Debe contar con rutinas adecuadas para realizar el análisis de los reactivos
y el almacenamiento de los datos asociados con los ítems del examen.
Los bancos de reactivos se hacen más refinados a medida que los exámenes van
siendo aplicados y conforme las estadísticas de los reactivos se van acumulando
al evaluarse los reactivos. Esta propiedad de retroalimentación es una
característica muy poderosa de los bancos de reactivos (Linden, 1986), puesto
que cada vez que ese reactivo es administrado, se actualizan los atributos
correspondientes de ese registro en la base. Así, los ítems que no identifican
la habilidad que con ellos se pretende medir, se modifican o se desechan
definitivamente.
Los Sistemas Adaptativos de Evaluación
Las pruebas adaptativas se aplicaron por primera vez a la medición de
diferencias individuales por Binet y Simon (DuBois, 1970) en lo que más tarde
vendría a ser conocido como las pruebas de inteligencia de Binet. En general,
durante el proceso de administración de la prueba, los tests adaptativos
involucran la selección de un conjunto de items para cada examinado, que miden
de una mejor manera algúna característica psicológica de la persona.
Binet operacionalizó el proceso adaptativo con un examinador experto. En el test
de Binet, el examinador hacía primero una estimación del nivel de habilidad de
un individuo para determinar un nivel de edad con el cual comenzar el test. Cada
pregunta se calificaba a medida que era contestada y el examinador decidía si el
siguiente bloque de preguntas deberían ser más fáciles o más difíciles. Este
proceso se repetía hasta que se obtenía un efecto de tope y el nivel basal se
había establecido. Esos dos niveles, la edad mental en la cual el examinado
contesta todos los reactivos incorrectamente y todos los ítems correctamente,
definen el rango de medición adecuada para ese individuo. Los reactivos por
debajo del nivel basal son demasiado fáciles para el examinado y, por lo tanto,
no se administran. Los ítems por arriba del efecto de tope son demasiado
difíciles para el examinado y por lo tanto, tampoco se administran. Ninguno de
esos dos conjuntos de reactivos proporcionan información valiosa respecto de ese
individuo y en realidad, son los ítems que se encuentran entre el nivel basal y
el nivel de tope, los que proporcionan información útil acerca del individuo en
cuestión.
Los exámenes adaptativos computarizados son una forma especial de los "tests a
la medida" que involucran la selección de reactivos mientras el test está siendo
administrado, y los reactivos administrados a cada individuo se escogen de
acuerdo al nivel de dificultad que requiere el examinado (Weiss, 1983).
La aplicación de un exámen adaptativo se inicia con la aplicación de un reactivo
determinado por el examinador y los siguientes reactivos se determinan a partir
de las respuestas del examinado a los reactivos anteriores. Los tests
adaptativos no son como los tradicionales que aplicaban un conjunto fijo de
reactivos a un grupo de examinados, sino más bien, son exámenes individualizados
para cada examinado. Los reactivos que se aplican a cada examinado se
seleccionan del banco de reactivos dependiendo de la precisión con que respondió
a las preguntas anteriores (ERIC, 1983). Cada reactivo de la base de ítems está
asociado con un nivel de dificultad, y por lo tanto, mientras el examinado
responde correctamente, los siguientes reactivos que se presentan son de una
dificultad mayor. Por el contrario, si responde en forma incorrecta, los
siguientes reactivos son de menor dificultad.
Entre las ventajas que presenta el uso de exámenes adaptativos está el que los
resultados pueden proporcionarse inmediatamente después del exámen y que no hay
problemas de seguridad de los exámenes dado que cada exámen es diferente.
También está el hecho de que la estandarización de las condiciones de aplicación
del exámen mejoran debido, principalmente, a la aplicación computarizada. Entre
las ventajas económicas está el que no se necesita de personal especializado
para la aplicación de las pruebas (Martois, 1983)
Entre las limitaciones para el uso de los exámenes adaptativos está el que se
requiere de una gran capacidad de almacenamiento en grandes bancos de reactivos
a fín de asegurar buenos resultados. Los resultados de los exámenes adaptativos
dependen, además, de la precisión con que han sido evaluados los reactivos que
los conforman (ERIC, 1983). Es también importante contar con una base de
reactivos suficientemente grande y correctamente cotejados con la distribución
de las habilidades que están siendo evaluadas (Green, Bock, Linn, Lord y
Reckase, 1985). Por lo tanto, se requiere de una base de reactivos
considerablemente grande y adecuadamente dimensionada respecto de un nivel
amplio del rasgo que está siendo medido.
Una limitación importante del uso de los tests adaptativos computarizados (TAC),
se relaciona con el supuesto de la unidimensionalidad. Las pruebas adaptativas
que se sustentan en la TRI requieren que se mida un sólo rasgo y que la
cuantificación se dé en torno a una sóla dimensión, de lo contrario, la
aplicación podría ser cuestionable (Laurier, 1990).
Otra limitación radica en lo que en las pruebas de lápiz y papel se denomina
"omisión" y que se refiere al hecho de que la pregunta no es contestada. En el
caso de los TAC, la prueba no puede continuar mientras no se seleccione una
opción. Por lo tanto, no hay nada previsto para las no respuestas (Wainer,
1993). Tampoco hay posibilidades de cambiar una respuesta una vez que ésta se ha
contestado, pues de inmediato aparece otro reactivo en la pantalla.
Conclusiones
La Teoría Clásica de los Tests (CTT) ha mostrado diferentes grados de
sofisticación que han ido desde una fáse práctica, caracterizada por la
elaboración de ítems y tests sin otro fín que obtener relaciones consistentes
entre las partes y los tests en su conjunto; hasta la fase, conocida como
estructural, en la cual la elaboración de tests se da a partir de los resultados
de la investigación empirica y conceptual obtenida de los diferentes campos de
la psicología, propiciando el desarrollo de test con un sustento teórico y
experimental más sólido.
Han existido sin embargo, problemas conceptuales de la TCT que limitaban su
aplicación a condiciones específicas, tales como la dependencia que hay entre
cada ítem particular y la prueba de que forma parte, así como la que existe
entre cada ítem y la población empleada para normalizar la prueba. Estas
limitaciones entre otras, dieron lugar a la formulación de la Teoría de
Respuestas por Items (TRI), cuyos procedimientos psicométricos y
conceptualizaciónes teóricas permitieron superar estos problemas.
Debido a que en un exámen adaptativo cada examinado responde a un conjunto de
reactivos particular que es diferente al que responden los otros examinados, un
modelo que permite determinar los parámetros estadísticos de cada ítem en forma
independiente del test del que forma parte resulta ser el medio más adecuado de
análisis, y ésto es lo que se obtiene mediante el uso de la TRI. Por esta razón,
ambos modelos conceptuales son complementarios.
Por otra parte, aunque el concepto de tests adaptativos no es nuevo, sus
posibilidades de implementación se han visto renovadas a raíz del desarrollo de
la tecnología computarizada que se populariza durante los 80's. Esta es otra
razón importante por la cuál es de esperarse que los tests adaptativos
computarizados tengan ahora un desarrollo sin precedentes y se conviertan en la
forma rutinaria de evaluación a partir de los 90's.
Finalmente, el uso generalizado de los tests adaptativos en educación debe verse
acompañado del desarrollo de sistemas computarizados que no sólo permitan su
aplicación, sino también, contengan algoritmos de calificación y actualización
de los estadísticos básicos de los reactivos conforme a los últimos desarrollos
en la teoría de los tests y específicamente, de la teoría de respuestas por
ítem.
Referencias.
Anastasi, A. (1970). On the formation of psychological traits. American
Psychologist, 25, 899-910.
Cattell, R. B. (1986,a). Scales and the Meaning of Standardized Scores. In R. B.
Cattell, and R. C. Johnson, (Eds). Functional Psychological Testing: Principles
and Instruments. New York: Brunner/Mazel, Publishers.
Cattell, R. B. (1986b). Structural Tests and Functional Diagnoses. In R. B.
Cattell, and R. C. Johnson, (Eds). Functional Psychological Testing: Principles
and Instruments. New York: Brunner/Mazel, Publishers.
Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests.
Psychometryca, 16, 297-334.
ERIC Clearinghouse on Tests, Measurement, and Evaluation. (1983). Computerized
adaptive testing: ERIC Digest. Princeton, N.J.: ERIC Document Reproduction
Service.
DuBois, P. H. (1970). A history of psychological testing. Boston: Allyn and
Bacon.
Eysenck, H. J. (1959). Intelligence assessment: A theoretical and experimental
approach. British Journal of Educational Psychology, 37, 81-98.
Green, B. R., Bock, R. D., Linn, R. L., Lord, F. M. y Reckase, M. D. (1985). A
plan for scaling the computerized adaptive Armed Services Vocational Aptitude
Battery (ASVAB). San Diego, CA: Navy Personnel Research and Development Center,
Manpower and Personnel Laboratory.
Guilford, J. P. The structure of the intellect. Psychological Bulletin, (1956),
53, 267-293.
Hambleton, R. K., & Swaminathan, H. (1985). Item response theory: Principles and
applications. Boston, MA: Kluwer-Nijhoff Publishing.
Hambleton, R. K. (1986). The changing conception of measurement: A commentary.
Applied Psychological Measurement, 10 (4), 415-421.
Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of Item
Response Theory. (Vol-2). Newbury Park, CA: Sage.
Hambleton, R. K. (1993). Principles and selected applications of Item Response
Theory. In Linn, R. L. (Ed.) Educational Measurement. Phoenix, AZ: Oryx.
Horn, J. L. (1967). Intelligence: Why it grows, why it declines. Trans-Action,
November, 23-31.
Kapan, R. M. & Saccuzzo, D. P. Psychological testing: Principles, applications
and issues. Pacific Grove, CA: Brooks-Cole.
Kuder, G. F. & Richardson, M. W. (1937). The theory of the estimation of
reliability. Psychometryca, 2, 151-160.
Laurier, M. (1990, April). What we can do with computerized adapting testing...
and what we cannot do. Paper presented at the Annual Meeting of the Regional
Language Center Seminar, Singapore.
Linder, van der, W. J. (1986). The changing conception of measurement in
education and psychology. Applied Psychological Measurement, 10, 325-332.
Lord, F. M. (1977). Practical applications of item characteristic curve theory.
Journal of Educational Measurement, 14, 117-138.
Lord, F. M. (1980). Application of Item Response Theory to practical testing
problems. Hillsdale, N.J: Lawrence Erlbaum Associates.
Marx, M. H. (1953). The General Nature of Theory Construction. In M. H. Marx
(Ed.) Theories in Contemporary Psychology. New York: MacMillan, 1963.
Martois, J. S. (1983). What is computer adaptive testing? Unpublished
manuscript.
Ozen, D. J., & Reise, S. P. (1994). Personality assessment. In L. W. Porter & M.
R. Rosenzweig, Annual Review of Psychology. Palo Alto: Annual Reviews.
Spearman, C. E. (1904). The proof and measurement of association between two
things. American Journal of Psychology, 15, 201,-293.
Spearman, C. E. (1927). The abilities of man. New York: Macmillan.
Thurstone, L. L. (1938). Primary mental abilities. Psychometric Monographs, 1.
Tryon, R. C. (1935). A theory of psychological components -an alternative to
"mathematical factors." Psychological Review, 42, 425-454.
Wainer, H. (1993). Some practical considerations when converting a linearly
administered test to an adaptive format. Educational Measurement: Issues and
practice, 12 (1), 15-20.
Weiss, D. J. (1983). Introduction: Latent trait theory. In D. J. Weiss (Ed.) New
Horizons in testing: Latent trait theory and computer adaptive testing (pp.
1-8). New York: Academic Press.
Weiss, D. J. and Vale, C. D. (1987). Computerized Adaptive Testing for Measuring
Abilities and other Psychological Variables. In Butcher, J. N. (Ed).
Computerized Psychological Assessment. New York: Basic Books.)
Pies de Página.
(1) Este trabajo fue desarrollado gracias al financimiento otorgado por el
Programa Interinstitucional de Investigaciones sobre Educación Superior (PIIES)
a la Universidad Autónoma de Baja California.
(2) MS-DOS es una marca registrada y patentada por Microsoft Corporation, Inc.
(3) DBase-II es una marca registrada y patentada por Ashton Tate, Inc.