De la Teoría Clásica de los Tests a los Tests Adaptativos Computarizados: Una revisión.

José E. Díaz Camacho
Universidad Autónoma de Baja California(1)


Resumen

En los últimos 30 años, la metodología y las técnicas de elaboración de tests han manifestado un desplazamiento cada vez más marcado de los sistemas tradicionales de exámenes, fundamentados en la teoría clásica de los tests, hacia los sistemas adaptativos de evaluación. Esta transición ha sido propiciada por los desarrollos que han tenido lugar en el contexto de la teoría de los tests y, en particular, en la teoría de respuestas por ítem, así como por el desarrollo alcanzado por la tecnología computacional. El desarrollo de la teoría clásica de los tests ha evolucionado de una posición pragmática caracterizada por la elaboración de reactivos y pruebas, cuyo único requisito era mantener cierta consistencia entre sí, hacia una fase en la cual las pruebas cuentan con un mayor sustento en postulados teóricos acerca de la personalidad, el aprendizaje, el comportamiento y los principios que regulan la interacción entre los factores estructurales hereditarios y los factores ambientales. La elaboración de tests de acuerdo a la teoría clásica, conlleva ciertas limitaciones debidas principalmente a la dependencia que hay entre cada reactivo y la prueba de que forma parte, así como la que existe entre cada reactivo y la población utilizada para normar la prueba, lo que limita las posibilidades de predecir el comportamiento ante reactivos específicos. Nuevas aproximaciones, como la teoría de respuestas por ítem, han sido elaboradas para resolver las limitaciones planteadas por la teoría clásica de los tests y han presentado nuevas técnicas para el desarrollo de estos instrumentos de medida. Uno de los resultados de la teoría de respuestas por ítem es que al permitir establecer estadísticos para cada reactivo individual y de manera independiente, se proporciona un modelo teórico excelente para la elaboración de tests adaptativos computarizados, caracterizados básicamente por presentar reactivos diferentes a cada examinado, dependiendo de sus respuestas a los reactivos anteriores. Otra de las herramientas que han sido de considerable valor para los nuevos tests adaptativos computarizados es el desarrollo de los sistemas de cómputo que permiten manejar grandes bases de reactivos de una manera interactiva y con una gran velocidad de proceso.

SUMMARY

During the last 30 years, test development methodology and techniques have gradually suffered an increasing shift from a traditional position based on the classical test theory, to the adaptive tests. This shift has been produced as a result of several factors, the most important being, the new test theory, and specially, the item response theory. Another important factor is the development of computational technology. Test theory has evolved from a pragmatical strategy aimed to build items and tests with no other requirement than to get certain consistency among them, to a new stage in which tests have more solid theoretical foundations in such psychological topics like personality, learning and the principles describing the interaction among structural and hereditary factors. Test development according to classical test theory carries on certain limitations, like the dependency each item has on the test to which it belongs and on the population used to norm the test. These shortcomings prevent the posibility to predict subjects' performance to an specific item. Item response theory is a new approach developed to solve these shortcomings of the classical test theory and in doing so, has dealt to the development of new measurement instruments. One of the results of item response theory is to provide for each specific item, statistical parameters that are independent of any other factor. Consecuently, it creates a theoretical framework for the development of computerized adaptive tests. Accordingly, computerized adaptive tests, allow the examiner to present different items for each examinee depending on the responses to previous items. This new type of tests would not be possible, the computerized tecnology had no been evolved to such a levels as to be able to interactively handle great amounts of data in such a high processing speed.


Introducción

Los últimos treinta años han visto un desarrollo acelerado de los sistemas adaptativos de evaluación aplicados a diversas áreas del conocimiento. Sin embargo, esta tecnología para la evaluación, no habría sido posible sin la evolución de varias áreas del conocimiento entre las que se encuentran la Teoría de Respuesta por ítem (Item Response Theory) y la tecnología computacional que tanto en hardware como en software, ha permitido disponer de herramientas muy rápidas y con una gran capacidad de almacenamiento y recuperación de información. Este trabajo comenta los principales desarrollos que tuvieron lugar en la Teoría Clásica de los Tests, señalando los problema que motivaron la emergencia de una nueva teoría: la Teoría de Respuestas por Item. Asimismo, relaciona las contribuciones de la Teoría de Respuestas por Item y la tecnología computacional con el desarrollo de los sistemas adaptativos de evaluación.


La Teoría Clásica de los Tests.

Se denomina Teoría Clásica de los Tests (TCT) al conjunto de principios teóricos y métodos cuantitativos derivados de ellos, que fundamentan la construcción, aplicación, validación e interpretación de distintos tipos de tests y que permiten derivar escalas estandarizadas aplicables a una población (Hambleton, 1994). Los principios en que se basa son relativamente simples y se aplican tanto a las pruebas de desempeño, como a las de aptitud. Durante sus diferentes fases de desarrollo, se han elaborado procedimientos de análisis cuantitativo que han sido de gran utilidad, destacándose en lo general, tres grandes etapas que se identifican por su objeto de interés primordial, así como por los métodos cuantitativos y tipos de análisis teóricos que utilizan.

La primera etapa que Cattell (1986b) denomina itemetría, se caracteriza principalmente por la construcción de pruebas conformadas por reactivos cuyas propiedades estadísticas eran el centro de atención principal. Los tests se consideraban como el producto de la integración de un conjunto de reactivos cuyas propiedades estadísticas tenían que ser determinadas antes de que se les incluyera en esa prueba particular.

Esto propició que el concepto de confiabilidad adquiriera prominencia como la principal virtud de la escala y se medía a partir de la correlación entre los reactivos individuales y el instrumento en su conjunto. Si la correlación eral alta, se decía que los reactivos eran los adecuados. Sin embargo, con frecuencia resultaba que la correlación no era tan buena, y el resultando era que se obtenían reactivos deficientes y la prueba en su conjunto era de escaso valor. El concepto mismo de confiabilidad implicaba al de error de la medida y tuvieron que desarrollarse procedimientos distintos para determinar la confiabilidad del test de una manera más precisa. Tal fue el caso de los procedimientos de pruebas paralelas y de división por mitades.

La itemetría hizo contribuciones valiosas a la psicología debido al énfasis que puso en el análisis del error. Entre sus contribuciones se encuentran varios conceptos sobre precisión de la medida, las técnicas para el tratamiento del error y el uso generalizado del error estándar de la medida como la medida básica del error (Kaplan & Saccuzzo, 1993). Además, dio lugar a contribuciones tales como las fórmulas de Spearman-Brown (Spearman, 1904), Kuder-Richardson (Kuder & Richardson, 1937), Alfa de Cronbach (Cronbach, 1951) y a varios principios básicos de escalamiento, así como al uso generalizado de la curva normal, las pruebas de significancia, el uso de las correlaciones múltiples y la fórmula de atenuación, etc. Sin embargo, por lo que respecta a la teoría de la personalidad, a decir de Cattell (1986b), "ésta vivía en un mundo habitado por ítems y apreciaciones subjetivas sobre conceptos tales como extraversión, superego, inteligencia, persistencia, etc."(p. 5) Es decir, la fase de desarrollo de reactivos y su agrupamiento para conformar tests, fue una fase fundamentalmente pragmática, sin gran sustento en teorías de la personalidad que permitieran relacionar la parte cuantitativa con la conceptual acerca del comportamiento.

La siguiente etapa es la que Cattell (1986b) denomina psicometría estructural y se caracteriza por el uso de las nuevas herramientas estadísticas tales como el análisis factorial con sus variantes técnicas R-, dR- y P- como un medio para encontrar la "estructura natural" de las habilidades en el contexto de los factores culturales, la dotación genética, la personalidad, los rasgos, los motivos dinámicos y las dimensiones que dan lugar a la acción y al comportamiento. Su objetivo primordial no era como tal, aplicar pruebas, sino determinar la relación que hay entre los conceptos clínicos sobre personalidad, y los fundamentos de la investigación experimental multivariada (cuantitativa por naturaleza), así como analizar las interacciones dinámicas entre los rasgos y los estadíos de la personalidad. Los tests se consideraban significativos en la medida que armonizaban con los constructos teóricos (Marx, 1963) formulados conceptualmente. Sus mayores logros los obtuvo en los trabajos de Spearman(1927), Thurstone(1938), Horn(1967), Guilford(1956), Eysenck(1959) y otros que contribuyeron a crear una base uniforme y coherente de los procesos psicológicos, lo cual dió a la teoría de la personalidad una nueva imágen: cientifíca y con mayor sustento experimental.

La construcción de tests verdaderamente estructurados se produjo como resultado de esta etapa, por lo menos en lo que respecta a las fases iniciales de desarrollo de los tests. Un resultado marginal de la convergencia de esta concepción más elaborada de los tests y el desarrollo cuantitativo, hasta cierto punto desarticulado, de los procedimientos psicométricos, fue que las nuevas teorías de la personalidad crecieron en un terreno ya ampliamente abonado por las primeras pruebas y métodos de escalamiento.

La etapa funcional en el desarrollo de los tests es aquella que "trasciende a las aplicaciones inmediatas y simplistas que identificaban a las estadísticas con factores conductuales, y profundiza en las leyes y formulaciones conceptuales del comportamiento: que relaciona rasgos, procesos y estados psicológicos con las mediciones y estrategias estructurales" (Cattell, 1986b, p 6). Ese tipo de leyes, según Cattell, se refieren a las relaciones sistemáticas y consistentes obtenidas de los estudios empíricos sobre el desarrollo, en el conocimiento acerca de los rasgos determinados en forma hereditaria, de los rasgos modificables por las experiencias y el aprendizaje y de la modulación de los estados psicológicos producidos por las relaciones psicofisiológicas.

De esta forma, el uso funcional de los tests es sólo posible en el psicólogo formado con base en las modernas teorías de la personalidad y del aprendizaje y sustentadas en las técnicas de medición y experimentación (Cattell, 1986a). En otras palabras, la observación de correlaciones sistemáticas, consistentes y significativas entre las medidas obtenidas en diferentes tests se refiere (fuera de la explicación trivial de covariación), no sólamente a una variación concomitante entre medidas, sino a uno o varios posibles factores como el traslapamiento de componentes psicológicos en el individuo o grupo que está siendo observado, la convergencia de condiciones ambientales que determinan patrones específicos de comportamiento, o la acción de factores genéticos estructurales que determinan pautas específicas de comportamiento (Tryon, 1935; y Anastasi, 1970). Así, el sustrato de la etapa funcional en el desarrollo de los tests hace referencia a rasgos que por lo regular connotan niveles de organización en el comportamiento que se manifiestan a través de diferentes medidas captadas en los tests psicológicos.

En resumen, el desarrollo de la teoría clásica de los tests ha procedido de etapas orientadas en forma pragmática para desarrollar tests y validar reactivos, (donde a fin de cuentas, los constructos psicológicos teóricos se definían operacionalmente como "aquéllo que mide la prueba x"); hacia etapas conceptualmente más elaboradas en que los tests se derivan de teorías del comportamiento más articuladas y donde cada reactivo tiene un significado conceptual definido en un contexto teórico particular.


Limitaciones de la Teoría Clásica de los Tests.

De acuerdo a la Teoría Clásica de los Tests (TCT), la elaboración de pruebas de desempeño máximo involucra la selección de reactivos de acuerdo a su contenido, nivel de dificultad y poder de discriminación. Los reactivos más deseables son los que poseen un nivel mayor de discriminación. El nivel de dificultad por su parte, se ajusta de acuerdo a: 1. El propósito de la prueba, y; 2. El criterio preestablecido para el grupo al cual se aplicará la prueba.

Los índices estadísticos empleados por la TCT no se mantienen constantes cuando se aplican a poblaciones que difieren en habilidad respecto de la población empleada para obtener las normas del test. Por lo tanto, el éxito de las técnicas clásicas de selección de reactivos depende de qué tan parecida es la población con la cual se obtuvieron los índices respecto de la población a la que se pretenden aplicar. Si la diferencia es grande, los índices obtenidos de los ítems no serán apropiados para la población objetivo. En otros términos, la teoría clásica de los tests no puede predecir cómo responderá un individuo a los ítems a menos que esos ítems hayan sido previamente administrados a personas similares (Lord, 1980) Durante el trabajo práctico de elaboración de tests, regularmente el grupo a partir del cual se obtienen los índices y el grupo al cual el test va dirigido, difieren considerablemente.

Un caso especial en el cual los índices clásicos de los reactivos se obtienen a partir de grupos que difieren de la población a la que van dirigidos, puede verse al estructurar bancos de reactivos. Al elaborar un banco de reactivos, las características de los ítems que van a ser incluídos en el banco, deben ser determinadas. Los ítems con frecuencia denominados "experimentales", se incluyen en un test que es administrado a un grupo de personas de tal manera que se obtienen como resultado, los índices de esos reactivos. Por supuesto, no todos los reactivos experimentales serán incluídos en un test particular. Por lo tanto, se crean múltiples formas del test, cada uno de los cuales contiene diferentes reactivos experimentales y las diferentes formas se aplican a grupos distintos de examinados. Dado que generalmente no es posible asegurar que las diferentes formas del examen sean administradas a grupos equivalentes, los índices de los reactivos experimentales que se aplicaron a grupos distintos no pueden ser equivalentes (Hambleton & Swaminathan, 1985). Por lo tanto, si los reactivos fueron incluídos en el examen bajo el supuesto de que sus índices eran comparables, entonces cualquier test construído a partir de ese banco de reactivos no podrá ser apropiado para ninguna de las poblaciones que pudieran ser seleccionadas en un momento dado.

Por otra parte, aún cuando un banco de reactivos se encuentre bien conformado, otro problema de la teoría clásica de los tests está en la precisión de la medición. Y es que en la teoría clásica de los tests, la contribución de un ítem a la confiabilidad de la prueba no depende de las características del reactivo sólamente, sino que también depende de la relación que hay entre el reactivo en questión y los otros reactivos del test. Por lo tanto, no es posible aislar la contribución de un ítem a la confiabilidad de la prueba y por lo consiguiente, tampoco su participación al error estándar de la medida (Hambleton, Swaminathan, & Rogers, 1991).

Finalmente, no obstante que el desarrollo de la teoría clásica de los tests llegó, con la etapa funcional de los tests, a un punto en que la conceptualización de los resultados de los tests, y consecuentemente su proceso de desarrollo, permitían mediante sofisticados procedimientos estadísticos, sacar a los reactivos de los límites impuestos por la prueba en su conjunto, la limitación teórica aún permanecía y se hacía necesario un nuevo marco conceptual para salvarlo. Este nuevo esquema para la conceptualización de los reactivos como unidades independientes del test y del grupo utilizado para normarlo, se obtuvo con la teoría de respuestas por ítem. No obstante, la contribución principal de este nuevo esquema conceptual no está primordialmente, en el uso de constructos hipotéticos o variables interventoras como explicación del comportamiento; sino más bien, en hacer referencia a las relaciones consistentes y sistemáticas observadas por la investigación experimental como un sustento sobre el cuál fincar la elaboración de los reactivos y su escalamiento para determinar a qué magnitud del rasgo definido corresponden.


La Teoría de Respuestas por Item.

La literatura sobre tests registra en los últimos 30 años un desplazamiento progresivo del esquema proporcionado por la Teoría Clásica de los Tests, hacia el contexto y los procedimientos delineados por la Teoría de Respuestas por Item (TRI) [Del inglés: Item Response Theory - IRT]. Esta teoría, fue desarrollada para resolver varios de los problemas que presentaba la Teoría Clásica de los Tests (Hambleton & Swaminathan, 1985) y que no habían sido resueltos de una manera satisfactoria. Algúnos de esos problemas son:

(1) El uso de índices de los reactivos cuyos valores dependen de la población particular de la cuál fueron obtenidos, y

(2) La estimación de la habilidad del examinado depende del conjunto específico de reactivos incluídos en la prueba.

Es decir, las características del examinado y las características de la prueba no pueden separarse en un instrumento elaborado conforme a los principios de la Teoría Clásica de los Tests; y por el contrario, cada uno sólo puede ser interpretado en términos del otro.

Las características del examinado en las cuales la teoría TRI está interesada, son la "habilidad" que mide el test. Para la TCT, la noción de habilidad se expresa por medio del llamado puntaje verdadero que se define como "el valor esperado a partir de la destreza observada en la prueba en questión" (Hambleton, Swaminathan, & Rogers, 1991)

La habilidad del examinado se define sólo en términos de una prueba específica. Si el test es "difícil", el examinado parecerá tener un nivel bajo de habilidad. Si el test es "fácil", el examinado parecerá tener un mayor nivel de habilidad. Y el nivel de dificultad de la prueba se define como "la proporción de examinados en el grupo de interés, que contestó el reactivo correctamente" (Hambleton, et. al. 1991) Por lo tanto, el que un ítem sea difícil o fácil depende de la habilidad de los examinados a quienes se aplicó la prueba y a su vez, la habilidad de los examinados depende del nivel de dificultad de la prueba.

De la misma forma, el nivel de discriminación de los reactivos y los coeficientes de validéz y confiabilidad de la prueba se definen también en base a las características del grupo particular de examinados. Así, las características del test y de los reactivos cambian a medida que cambia el contexto de la prueba. Por lo tanto, es muy difícil comparar examinados a quienes se aplican diferentes tests; o aún, comparar ítems cuyas características se obtuvieron utilizando diferentes grupos de examinados.

Esto significa que los coeficientes de los reactivos son dependientes del grupo al mismo tiempo que son dependientes del test. Esta clase de dependencia es la que se trata de eliminar mediante la TRI. Aunque se reconoce que tal dependencia no es imposible de romper mediante la TCT mediante el uso de técnicas sofisticadas de análisis estadístico (Cattell, 1986b), el problema conceptual aún se mantiene.

Otro problema de la TCT es que es centrada-en-el-test, más que centrada-en-el-reactivo. No se toma en consideración cómo responde el exáminado a un reactivo dado, y por lo tanto, no se tienen bases para determinar qué tan bien podría desempeñarse un examinado particular ante un reactivo individual. Es decir, la teoría clásica de los tests no permite hacer predicciones acerca de cómo se comportará un individuo o grupo particular ante un reactivo dado. Esta posibilidad de predicción es importante en una gran variedad de situaciones como por ejemplo, cuando se intenta predecir el comportamiento de un profesional ante diferentes tipos de situaciones prácticas.

De acuerdo a Hambleton, et. al., (1991), las principales características de la TRI como una alternativa a la teoría clásica de los tests son:
1. Las características de los reactivos no dependen del grupo del cuál fueron obtenidas;
2. Los puntajes que describen la habilidad del examinado no dependen del test en su conjunto;
3. El modelo se expresa al nivel del reactivo más que al nivel del test;
4. El modelo no requiere de pruebas paralelas para determinar el índice de confiabilidad; y
5. Provee una medida de la precisión de cada índice de habilidad.

Algúnas otras ventajas de la TRI explican su popularidad, siendo la más importante para fines prácticos, que los examinados no necesitan contestar el mismo conjunto de ítems a fín de ser comparados con una misma escala (Ozen & Reise, 1994)

Los dos principios basicos que de acuerdo con Hambleton, et. al., (1991), sustentan a la TRI, son:

"(1) La ejecución de un examinado en una prueba pueden ser predichos por un conjunto de rasgos, rasgos latentes y habilidades; y (2) la relación entre las respuestas de los examinados a los reactivos y el conjunto de rasgos que subyacen a la respuesta ante el reactivo, pueden describirse por una función monotónicamente incrementada llamada función característica del reactivo o curva característica del ítem (CCI). Esta función especifica que a medida que el nivel del razgo incrementa, también incrementa la probabilidad de una respuesta correcta ante ese reactivo." (p.7)

De acuerdo a los modelos matemáticos utilizados por la TRI, la probabilidad de que un examinado responda correctamente ante un ítem dado, depende de la habilidad del examinado y de las características del reactivo. Los modelos TRI incluyen supuestos acerca de los datos a los que se puede aplicar el modelo, aún cuando la viabilidad de los supuestos no puede determinarse directamente. Evidencias adicionales deben ser reunidas y evaluadas. El ajuste global del modelo a los datos de la prueba pueden por supuesto, ser también evaluados.

Son supuestos de la TRI:

1. Sólo puede medirse una habilidad por el reactivo que forma parte del examen; este es el supuesto de la unidimensionalidad; y,

2. La función característica del reactivo refleja la relación real que hay entre las variables no observables (habilidades) y las variables observables (las respuestas a los reactivos; Hambleton, et. al., 1991)

Si se construye una prueba a partir de la TRI, la dificultad de los reactivos y la habilidad del examinado se miden en la misma escala, haciendo posible seleccionar reactivos que son más útiles en ciertos puntos de la escala de habilidades. Por ejemplo, si se desea determinar el punto de inflexión que separa a profesionales certificados de los profesionales no certificados, la TRI permite seleccionar reactivos para producir una prueba que tenga el nivel deseado de precisión para medir cualquier nivel de habilidad (Hambleton, et. al., 1991)

Para construir una prueba de acuerdo a los principios de la TRI, es necesario construir un banco de reactivos con parámetros estimados para cada ítem, de acuerdo al modelo seleccionado. El procedimiento recomendado por Lord (1977) consiste de los siguientes cuatro pasos:

"1. Decidir acerca de la forma deseada de la función de información de la prueba o curva de información deseada (target information curve).
2. Seleccionar los reactivos del banco cuya curva de información deseada cae bajo el área de la curva de información de la prueba, de tal manera que saturen el área bajo la curva de la función deseada de la prueba.
3. Conforme se adicionan reactivos a la prueba, se recalcula la curva de información de la prueba con los reactivos seleccionados hasta ese momento.
4. Continuar la selección de los reactivos hasta que la función de información de la prueba se aproxime a la función de información deseada con un grado satisfactorio." (p. 23)

Sin embargo, la TRI no se encuentra libre de problemas y su aplicación contiene ciertos puntos riesgosos debido a que el uso de criterios estadísticos para la selección de los reactivos no asegura una prueba con contenidos completamente válidos. Deficiencias en los procedimientos de selección de los contenidos pueden generar una prueba con un bajo nivel de validez de contenido (Hambleton, et. al., 1991).

Otro problema de la TRI es que cuando se utilizan funciones de información de los reactivos durante el desarrollo de una prueba, es probable que los valores sean sobrevalorados y por lo tanto, la función de información podría sesgarse. Una prueba construída con ítems de valores elevados puede ser que no corresponda a los de la prueba esperada. Como consecuencia, la función de información de la prueba será sobrevalorada y por lo tanto, habrá que añadir varios reactivos adicionales para compensar esta sobrevaloración. Otra solución podría ser emplear muestras más grandes, de forma que se realice una estimación más adecuada de los parámetros de los reactivos (Hambleton, et. al., 1991)

En resúmen, la TRI es una teoría dirigida a establecer situaciones que permiten predecir el comportamiento del examinado ante ítems particulares de un test, o ante test completos, con base en un rasgo o patrón de comportamiento. Los dos postulados básicos son: que la ejecución del examinado ante el test es parte de una sóla habilidad o rasgo y que la relación entre estos dos se manifiesta conforme a una función monotónicamente incrementada llamada función característica del ítem (o función de la respuesta). La TRI es consistente con la teoría de las habilidades latentes que postula que los individuos varían en el rasgo o habilidad que mide el test y que éstos se distribuyen en un contínuo que va de bajo a alto. La probabilidad de responder un ítem correctamente varía con la habilidad y es baja si el nivel de habilidad es baja y alta para niveles altos de habilidad. Esto se visualiza mediante la curva característica de ítem, la cual es diferente para cada reactivo y para el test en su conjunto. Los modelos de respuesta por ítem tienen múltiples aplicaciones en pruebas de amplia aplicación en los Estados Unidos de Norteamérica como son el Scolastic Assessment Test (SAT) y el General Educational Development (GED). Muchas empresas e instituciones utilizan los modelos de respuesta por ítem en el desarrollo de sus tests, tales como Educational Testing Service (ETS), The Psychological Corporation, CTB/McGraw-Hill y otros importantes desarrolladores de pruebas.


El Desarrollo de la Tecnología de Computadoras.

Varios eventos relacionados con la tecnología computacional han sido significativos para permitir el desarrollo masivo de los sistemas adaptativos de evaluación que pertecencen a la categoría de exámenes hechos a la medida en virtud de que se adaptan a la capacidad de cada examinado. El primero de ellos es indudablemente el desarrollo que a partir de 1970 han tenido las computadoras personales, permitiendo cada vez más una alta velocidad de proceso y una capacidad de almacenamiento muy por encima de lo que hubiera podido pensar en ese año.

Otro evento significativo es la fabricación de software cada vez más potente cuyo inicio se marcó indudablemente, por una parte, con el desarrollo del sistema operativo MS-DOS (2), y por otra, por el sistema D-Base II (3), ambos para computadoras personales. Antes de estos dos desarrollos, tanto los sistemas operativos como las bases de datos operaban sólo en computadoras de las llamadas mainframes y requerían de una capacidad de memoria y dispositivos de almacenamiento muy superiores a lo que las computadoras de aquellos tiempos podían razonablemente manejar. La principal ventaja que se obtuvo con el desarrollo de los modernos sistemas operativos fue la interactividad entre el usuario y la computadora, mientras que con las bases de datos, fue la posibilidad de almacenar y recuperar grandes cantidades de información por medio de procedimientos bastante simples. Ambos elementos con la capacidad para almacenarse en pequeñas computadoras que se encuentran al alcance de cualquier usuario individual.

Recientemente, las bases de datos creadas con una filosofía orientada a objetos facilita el desarrollo de sistemas inteligentes de evaluación que no sólo permiten almacenar y recuperar información de una manera flexible, sino que además, pueden programarse fácilmente de manera que pueden tomar decisiones en base a las respuestas de los usuarios y tomar la forma de sistemas inteligentes o sistemas expertos.

Esto se debe a que la filosofía orientada a objetos permite replicar en el ambiente simbólico del lenguaje de la computadora, las relaciones que se observan en los objetos en el ambiente natural de trabajo de una manera más fiel de lo que sucedía con los sistemas anteriores de programación. De hecho, crear un sistema de cómputo implica crear en la computadora, una imagen de una parte del ambiente real al que ese sistema pretende aplicarse. Lo que sucede con los lenguajes orientados a objetos es que es posible crear en la computadora, entidades simbólicas a las que se les asignan propiedades semejantes a las observadas en la realidad. Y también es posible hacer que esas entidades u objetos se comuniquen entre sí conforme a las propiedades o reglas de interacción que han sido definidas. Así, algúnas funciones humanas como el razonamiento deductivo observado en el silogismo y algunas otras operaciones lógicas, pueden reproducirse en el ambiente simbólico de la computadora.

En el caso de los sistemas adaptativos de evaluación, se han identificado las funciones que una base de datos debe poseer para permitir una óptima utilización del sistema. En este caso, la base de datos se conforma en una buena parte por una base de reactivos, cada uno de los cuales es una entidad o registro que posee ciertos atributos. Los parámetros estadísticos básicos del reactivo son los atributos del registro y cada vez que el reactivo es extraído de la base de reactivos y contestado por un examinado, se actualizan estos parámetros.

Los bancos de reactivos fueron explorados por primera vez a fines de los sesenta y principios de los setenta en la Gran Bretaña, pero por lo general, terminaron en fracasos debido a las enormes cantidades de papel y recursos administrativos y de organización que se requerían (Hambleton, 1986). La segunda generación surgió a mediados de los ochenta cuando las computadoras fueron capaces de almacenar, recuperar y evaluar los reactivos de una prueba.

Con un banco de reactivos adecuadamente desarrollado y los reactivos convenientemente valorados, la construcción de las pruebas se convierte en el siguiente paso inevitable. De acuerdo con Hambleton (1986), las características deseables de un banco de reactivos computarizados son las siguientes:

1. Debe proporcionar mecanismos que permitan el fácil acceso a los reactivos así como a la información estadística sobre su uso, representatividad y dificultad asociada con ellos.

2. Debe contener un conjunto de objetivos a los que sirve cada reactivo, así como un esquema adecuado para clasificar esos objetivos.

3. Debe contener algorítmos rápidos de búsqueda y recuperación de los reactivos que se usarán para aplicar las pruebas.

4. Debe poseer algorítmos automatizados para configurar los exámenes.

5. Debe disponer de mecanismos interactivos de presentación de los reactivos.

6. Debe contar con rutinas adecuadas para realizar el análisis de los reactivos y el almacenamiento de los datos asociados con los ítems del examen.

Los bancos de reactivos se hacen más refinados a medida que los exámenes van siendo aplicados y conforme las estadísticas de los reactivos se van acumulando al evaluarse los reactivos. Esta propiedad de retroalimentación es una característica muy poderosa de los bancos de reactivos (Linden, 1986), puesto que cada vez que ese reactivo es administrado, se actualizan los atributos correspondientes de ese registro en la base. Así, los ítems que no identifican la habilidad que con ellos se pretende medir, se modifican o se desechan definitivamente.


Los Sistemas Adaptativos de Evaluación

Las pruebas adaptativas se aplicaron por primera vez a la medición de diferencias individuales por Binet y Simon (DuBois, 1970) en lo que más tarde vendría a ser conocido como las pruebas de inteligencia de Binet. En general, durante el proceso de administración de la prueba, los tests adaptativos involucran la selección de un conjunto de items para cada examinado, que miden de una mejor manera algúna característica psicológica de la persona.

Binet operacionalizó el proceso adaptativo con un examinador experto. En el test de Binet, el examinador hacía primero una estimación del nivel de habilidad de un individuo para determinar un nivel de edad con el cual comenzar el test. Cada pregunta se calificaba a medida que era contestada y el examinador decidía si el siguiente bloque de preguntas deberían ser más fáciles o más difíciles. Este proceso se repetía hasta que se obtenía un efecto de tope y el nivel basal se había establecido. Esos dos niveles, la edad mental en la cual el examinado contesta todos los reactivos incorrectamente y todos los ítems correctamente, definen el rango de medición adecuada para ese individuo. Los reactivos por debajo del nivel basal son demasiado fáciles para el examinado y, por lo tanto, no se administran. Los ítems por arriba del efecto de tope son demasiado difíciles para el examinado y por lo tanto, tampoco se administran. Ninguno de esos dos conjuntos de reactivos proporcionan información valiosa respecto de ese individuo y en realidad, son los ítems que se encuentran entre el nivel basal y el nivel de tope, los que proporcionan información útil acerca del individuo en cuestión.

Los exámenes adaptativos computarizados son una forma especial de los "tests a la medida" que involucran la selección de reactivos mientras el test está siendo administrado, y los reactivos administrados a cada individuo se escogen de acuerdo al nivel de dificultad que requiere el examinado (Weiss, 1983).

La aplicación de un exámen adaptativo se inicia con la aplicación de un reactivo determinado por el examinador y los siguientes reactivos se determinan a partir de las respuestas del examinado a los reactivos anteriores. Los tests adaptativos no son como los tradicionales que aplicaban un conjunto fijo de reactivos a un grupo de examinados, sino más bien, son exámenes individualizados para cada examinado. Los reactivos que se aplican a cada examinado se seleccionan del banco de reactivos dependiendo de la precisión con que respondió a las preguntas anteriores (ERIC, 1983). Cada reactivo de la base de ítems está asociado con un nivel de dificultad, y por lo tanto, mientras el examinado responde correctamente, los siguientes reactivos que se presentan son de una dificultad mayor. Por el contrario, si responde en forma incorrecta, los siguientes reactivos son de menor dificultad.

Entre las ventajas que presenta el uso de exámenes adaptativos está el que los resultados pueden proporcionarse inmediatamente después del exámen y que no hay problemas de seguridad de los exámenes dado que cada exámen es diferente. También está el hecho de que la estandarización de las condiciones de aplicación del exámen mejoran debido, principalmente, a la aplicación computarizada. Entre las ventajas económicas está el que no se necesita de personal especializado para la aplicación de las pruebas (Martois, 1983)

Entre las limitaciones para el uso de los exámenes adaptativos está el que se requiere de una gran capacidad de almacenamiento en grandes bancos de reactivos a fín de asegurar buenos resultados. Los resultados de los exámenes adaptativos dependen, además, de la precisión con que han sido evaluados los reactivos que los conforman (ERIC, 1983). Es también importante contar con una base de reactivos suficientemente grande y correctamente cotejados con la distribución de las habilidades que están siendo evaluadas (Green, Bock, Linn, Lord y Reckase, 1985). Por lo tanto, se requiere de una base de reactivos considerablemente grande y adecuadamente dimensionada respecto de un nivel amplio del rasgo que está siendo medido.

Una limitación importante del uso de los tests adaptativos computarizados (TAC), se relaciona con el supuesto de la unidimensionalidad. Las pruebas adaptativas que se sustentan en la TRI requieren que se mida un sólo rasgo y que la cuantificación se dé en torno a una sóla dimensión, de lo contrario, la aplicación podría ser cuestionable (Laurier, 1990).

Otra limitación radica en lo que en las pruebas de lápiz y papel se denomina "omisión" y que se refiere al hecho de que la pregunta no es contestada. En el caso de los TAC, la prueba no puede continuar mientras no se seleccione una opción. Por lo tanto, no hay nada previsto para las no respuestas (Wainer, 1993). Tampoco hay posibilidades de cambiar una respuesta una vez que ésta se ha contestado, pues de inmediato aparece otro reactivo en la pantalla.


Conclusiones

La Teoría Clásica de los Tests (CTT) ha mostrado diferentes grados de sofisticación que han ido desde una fáse práctica, caracterizada por la elaboración de ítems y tests sin otro fín que obtener relaciones consistentes entre las partes y los tests en su conjunto; hasta la fase, conocida como estructural, en la cual la elaboración de tests se da a partir de los resultados de la investigación empirica y conceptual obtenida de los diferentes campos de la psicología, propiciando el desarrollo de test con un sustento teórico y experimental más sólido.

Han existido sin embargo, problemas conceptuales de la TCT que limitaban su aplicación a condiciones específicas, tales como la dependencia que hay entre cada ítem particular y la prueba de que forma parte, así como la que existe entre cada ítem y la población empleada para normalizar la prueba. Estas limitaciones entre otras, dieron lugar a la formulación de la Teoría de Respuestas por Items (TRI), cuyos procedimientos psicométricos y conceptualizaciónes teóricas permitieron superar estos problemas.

Debido a que en un exámen adaptativo cada examinado responde a un conjunto de reactivos particular que es diferente al que responden los otros examinados, un modelo que permite determinar los parámetros estadísticos de cada ítem en forma independiente del test del que forma parte resulta ser el medio más adecuado de análisis, y ésto es lo que se obtiene mediante el uso de la TRI. Por esta razón, ambos modelos conceptuales son complementarios.

Por otra parte, aunque el concepto de tests adaptativos no es nuevo, sus posibilidades de implementación se han visto renovadas a raíz del desarrollo de la tecnología computarizada que se populariza durante los 80's. Esta es otra razón importante por la cuál es de esperarse que los tests adaptativos computarizados tengan ahora un desarrollo sin precedentes y se conviertan en la forma rutinaria de evaluación a partir de los 90's.

Finalmente, el uso generalizado de los tests adaptativos en educación debe verse acompañado del desarrollo de sistemas computarizados que no sólo permitan su aplicación, sino también, contengan algoritmos de calificación y actualización de los estadísticos básicos de los reactivos conforme a los últimos desarrollos en la teoría de los tests y específicamente, de la teoría de respuestas por ítem.

Referencias.

Anastasi, A. (1970). On the formation of psychological traits. American Psychologist, 25, 899-910.

Cattell, R. B. (1986,a). Scales and the Meaning of Standardized Scores. In R. B. Cattell, and R. C. Johnson, (Eds). Functional Psychological Testing: Principles and Instruments. New York: Brunner/Mazel, Publishers.

Cattell, R. B. (1986b). Structural Tests and Functional Diagnoses. In R. B. Cattell, and R. C. Johnson, (Eds). Functional Psychological Testing: Principles and Instruments. New York: Brunner/Mazel, Publishers.

Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometryca, 16, 297-334.

ERIC Clearinghouse on Tests, Measurement, and Evaluation. (1983). Computerized adaptive testing: ERIC Digest. Princeton, N.J.: ERIC Document Reproduction Service.

DuBois, P. H. (1970). A history of psychological testing. Boston: Allyn and Bacon.

Eysenck, H. J. (1959). Intelligence assessment: A theoretical and experimental approach. British Journal of Educational Psychology, 37, 81-98.

Green, B. R., Bock, R. D., Linn, R. L., Lord, F. M. y Reckase, M. D. (1985). A plan for scaling the computerized adaptive Armed Services Vocational Aptitude Battery (ASVAB). San Diego, CA: Navy Personnel Research and Development Center, Manpower and Personnel Laboratory.

Guilford, J. P. The structure of the intellect. Psychological Bulletin, (1956), 53, 267-293.

Hambleton, R. K., & Swaminathan, H. (1985). Item response theory: Principles and applications. Boston, MA: Kluwer-Nijhoff Publishing.

Hambleton, R. K. (1986). The changing conception of measurement: A commentary. Applied Psychological Measurement, 10 (4), 415-421.

Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of Item Response Theory. (Vol-2). Newbury Park, CA: Sage.

Hambleton, R. K. (1993). Principles and selected applications of Item Response Theory. In Linn, R. L. (Ed.) Educational Measurement. Phoenix, AZ: Oryx.

Horn, J. L. (1967). Intelligence: Why it grows, why it declines. Trans-Action, November, 23-31.

Kapan, R. M. & Saccuzzo, D. P. Psychological testing: Principles, applications and issues. Pacific Grove, CA: Brooks-Cole.

Kuder, G. F. & Richardson, M. W. (1937). The theory of the estimation of reliability. Psychometryca, 2, 151-160.

Laurier, M. (1990, April). What we can do with computerized adapting testing... and what we cannot do. Paper presented at the Annual Meeting of the Regional Language Center Seminar, Singapore.

Linder, van der, W. J. (1986). The changing conception of measurement in education and psychology. Applied Psychological Measurement, 10, 325-332.

Lord, F. M. (1977). Practical applications of item characteristic curve theory. Journal of Educational Measurement, 14, 117-138.

Lord, F. M. (1980). Application of Item Response Theory to practical testing problems. Hillsdale, N.J: Lawrence Erlbaum Associates.

Marx, M. H. (1953). The General Nature of Theory Construction. In M. H. Marx (Ed.) Theories in Contemporary Psychology. New York: MacMillan, 1963.

Martois, J. S. (1983). What is computer adaptive testing? Unpublished manuscript.

Ozen, D. J., & Reise, S. P. (1994). Personality assessment. In L. W. Porter & M. R. Rosenzweig, Annual Review of Psychology. Palo Alto: Annual Reviews.

Spearman, C. E. (1904). The proof and measurement of association between two things. American Journal of Psychology, 15, 201,-293.

Spearman, C. E. (1927). The abilities of man. New York: Macmillan.

Thurstone, L. L. (1938). Primary mental abilities. Psychometric Monographs, 1.

Tryon, R. C. (1935). A theory of psychological components -an alternative to "mathematical factors." Psychological Review, 42, 425-454.

Wainer, H. (1993). Some practical considerations when converting a linearly administered test to an adaptive format. Educational Measurement: Issues and practice, 12 (1), 15-20.

Weiss, D. J. (1983). Introduction: Latent trait theory. In D. J. Weiss (Ed.) New Horizons in testing: Latent trait theory and computer adaptive testing (pp. 1-8). New York: Academic Press.

Weiss, D. J. and Vale, C. D. (1987). Computerized Adaptive Testing for Measuring Abilities and other Psychological Variables. In Butcher, J. N. (Ed). Computerized Psychological Assessment. New York: Basic Books.)


Pies de Página.

(1) Este trabajo fue desarrollado gracias al financimiento otorgado por el Programa Interinstitucional de Investigaciones sobre Educación Superior (PIIES) a la Universidad Autónoma de Baja California.

(2) MS-DOS es una marca registrada y patentada por Microsoft Corporation, Inc.

(3) DBase-II es una marca registrada y patentada por Ashton Tate, Inc.