Inteligencia artificial y psicología genética de la lectura

INTELIGENCIA ARTIFICIAL Y PSICOLOGÍA GENÉTICA DE LA LECTURA

Jorge Vaca Uribe^*

El objetivo del presente ensayo es exponer muy brevemente algunos de los desarrollos y algunas de las discusiones en Inteligencia Artifical directamente vinculados con el procesamiento artificial del lenguaje natural y, más específicamente, con el intento de su comprensión a través del análisis de algunas correspondencias desde la perspectiva computacional y la psicológica.

The goal of this document is to briefly expose discussions and developppments about Artificial Intelligence directly attached to the artificial process of natural language, more specificly it has the intention of understand it through the analysis of similarities between psicological and computerised perspectives.

La inteligencia artificial (IA) es una ciencia dedicada al intento de lograr que una computadora se comporte como un humano. La pretensión, para algunos, no es sólo que se logre este intento, sino que sea como un humano o que haga las cosas como un humano. Al respecto existen visiones opuestas, como en cualquier disciplina científica: mientras algunos especialistas sostienen que eso jamás será posible, otros argumentan que no sólo será posible sino que ya estamos en camino de lograrlo (al respecto véanse los artículos de Roger Schank -visión pesimista- y David G. Stork -visión optimista- en el libro HAL’s Legacy: Computer as Dream and Reality).
La IA tiene un gran impacto en las que suelen llamarse ciencias cognitivas, y este es de tal naturaleza que cuando uno abre un libro de psicología cognitiva encuentra términos o palabras que vienen directamente del lenguaje computacional: procesamiento, programa, buffer, input, output, parsing, etc.; inversamente, cuando uno abre un libro dedicado a la IA, encuentra términos de la psicología: comprensión, procedimiento, etcétera.
El objetivo del presente ensayo es exponer muy brevemente algunos de los desarrollos y algunas de las discusiones en IA directamente vinculados con el procesamiento artificial del lenguaje natural y, más específicamente, con el intento de su comprensión a través del análisis de algunas correspondencias desde la perspectiva computacional y la psicológica. Deseamos llegar a subrayar el siguiente hecho:
el estudio de la lectura desde una perspectiva psicogenética ha revelado ciertos fenómenos de procesamiento en lectores no-expertos que son análogos a algunos modelos de trabajo desarrollados en IA (particularmente, los modelos bigram), lo que puede ser interpretado desde la perspectiva de la epistemología genética como teniendo fundamento en los procesos de equilibración de estructuras cognitivas descritos por Piaget.
Estamos perfectamente conscientes de que en este trabajo sólo podemos permitirnos especular sobre las correspondencias mencionadas. Sin embargo, lo haremos con la intención de encontrar una veta rica en hipótesis para futuras investigaciones.
En adelante, pues, al hablar de los desarrollos en IA nos referiremos sólo a aquellos vinculados con el procesamiento del lenguaje y, más específicamente, a los que tienen que ver con la interpretación del lenguaje, dejando fuera los relacionados con su producción.
Las perspectivas que compararemos tienen objetivos diferentes. La de vertiente psicológica pretende explicar los procesos, su objetivo, por tanto, es científico (de análisis), al margen de los desarrollos aplicados derivados de las investigaciones. El enfoque computacional no pretende explicar sino resolver un problema técnico: cómo hacer que la máquina realice los procesos, partiendo, por decirlo así, de cero. Se trata, pues, de un objetivo tecnológico (al margen de las analogías que se pueden establecer entre los modelos psicológicos y los modelos programados en computadora), en un caso de síntesis.
La comparación de ambas perspectivas será realizada en dos niveles diferentes: en una visión panorámica se mencionarán los tópicos y problemas que son comunes a ambas disciplinas científicas y, en sus términos específicos, intentaremos exponer primero y luego comparar dos problemas puntuales: el uso del cálculo de probabilidades en los modelos bigrams y lo que hemos llamado los agrupamientos biléxicos. E n un segundo nivel especularemos acerca de la relación entre la aproximación psicogenética de la lectura (que intentamos desarrollar) y las técnicas que buscan eficiencia en el análisis computarizado de oraciones para eliminar la ambigüedad léxica de los términos encontrados.

1. La IA como fantasía, posibilidad y realidad en progreso

La imagen que da una visión aproximada de la fantasía humana de crear máquinas que se comporten intelectualmente como el ser humano está plasmada en uno de los personajes centrales de la novela (luego hecha película) de ciencia ficción titulada 2001 Odisea del espacio: Hal, la computadora que auxilia a la tripulación para llevar a cabo la misión encomendada. Hal representa el ideal al cual se tiende en diferentes áreas de la IA: es capaz de ver, es decir, de reconocer imágenes, de interpretar y producir lenguaje perfectamente coherente, de ser un buen jugador de ajedrez, de tomar decisiones con base en los objetivos de la misión (por lo tanto, "entiende" los objetivos y puede priorizar las decisiones, etc.) y de aprender. Cada una de esas capacidades con las que ha sido dotado son en realidad líneas de trabajo intenso en IA. Hal ya cuenta con todas en su estado ideal de desarrollo.
Hal es ficción, pero siempre que el ser humano ha calificado algo como ficcional, después de algún tiempo ha debido ver que se convierte en realidad: antes era una ficción humana volar, llegar a la luna, estar comunicado mundialmente a costos relativamente bajos (la telefonía celular o internet), etc. Al respecto, y para dejar la ficción de lado, creo que cualquier juicio que imponga límites infranqueables a los posibles avances en IA corre el riesgo de verlos franqueados con el tiempo. El desarrollo del software se mueve a una velocidad similar a la del hardware: la ley de Moore establece que "el número de elementos en circuitos integrados avanzados se duplica cada año" (Kuck, D. J., en Stork, 1997: 37). Esto significa que los chips, siendo del mismo tamaño de un año al otro, tienen el doble de capacidad (de proceso o de almacenamiento) y que, a su vez, al menos cada año se está duplicando el potencial de las computadoras. Si hoy una computadora comercial tiene 16 kbytes de memoria RAM y tenemos discos de 2 gigabytes de capacidad, en el año 2008 las computadoras comunes y corrientes podrían tener, de acuerdo con la ley de Moore, 13,384 kbytes de memoria RAM y quizá discos duros de 2048 gigabytes. Simplemente eso, con independencia de los cambios en arquitectura que puedan tener las computadoras, significa un incremento enorme en la capacidad de almacenamiento y manejo de información. Si, además, consideramos que el software también evoluciona a un ritmo sorprendente, resulta temerario hacer cualquier afirmación acerca de los límites que tenga el manejo computarizado de la información, aunque ya se ha establecido uno de velocidad.

2. Comparación panorámica

2.1 Líneas de desarrollo en IA

La IA mantiene vigorosas líneas de desarrollo que necesariamente deben de ser trabajadas por separado: todas las sorprendentes habilidades de Hal son en realidad una fantasía basada en líneas de desarrollo que por el momento se mantienen separadas. Hay programas capaces de jugar bien al ajedrez, pero son diferentes a los que reconocen caracteres de la escritura y, a su vez, a los que hacen resúmenes de artículos periodísticos. Por el momento son programas muy especializados y en evolución constante.

2.1.1 El reconocimiento del texto escrito: Optic Character Recognizer (OCRs)
Existen programas comerciales que reconocen muy eficientemente los caracteres de la escritura. Significa que uno puede ya escandir una página de escritura y obtener un archivo en código ASCII. La captura de información escrita para su posterior utilización mediante el teclado es una operación que en muy poco tiempo será obsoleta, tratándose de volúmenes importantes de información. Esta es una aplicación de la IA, pues supone un reconocimiento visual de patrones y su interpretación. De hecho, los OCRs incluyen módulos de aprendizaje capaces de "adaptarse" y "aprender" en caso de enfrentarse a diferentes tipografías no incluidas en el programa.

2.1.2 El reconocimiento y la producción artificial del lenguaje natural
Otra importante línea de trabajo consiste en desarrollar la capacidad de reconocer el lenguaje humano. Si bien actualmente las aplicaciones son limitadas a ciertos campos o a ciertos modelos (los expondremos con mayor detenimiento más adelante), los alcances actuales son ya sorprendentes: programas comerciales que reconocen un vocabulario de 20 000 palabras (aunque dichas en forma aislada) no importando quién las diga (si un hombre o una mujer, por ejemplo), o bien sistemas capaces de reconocer menos palabras pero dichas "normalmente" en el contexto de una frase o de un pequeño texto oral. De hecho, comienzan ya los programas que permiten "dictarle a la computadora" un texto en lugar de teclearlo.
La contraparte de estos programas son aquellos que producen lenguaje, es decir, palabras o grupos de palabras comprensibles por los seres humanos.
En estos campos aún hay que elegir entre muchas opciones "desintegradas" hasta el momento. Pero ya se trabaja en su integración.
La línea que más nos interesa es la de la comprensión del lenguaje. Para dar una idea de los alcances (por cierto no muy recientes) del desarrollo de esta línea, transcribiremos un pequeño fragmento que ilustra un diálogo (escrito) entre un usuario y una computadora:

SHRDLU, juego de la inventividad del hombre

Un día, Eta Oin vaga por el laboratorio de IA del Instituto Tecnológico de Massachusetts, donde se topa con el joven y brillante programa de computadora llamado SHRDLU. Ocurre que SHRDLU, precisamente, se está muriendo por encontrar a alguien que someta a prueba al recién adiestrado ser humano "Dr. Tony Earrwig". SHRDLU explica que el tal Earrwig es perfectamente inteligente para desenvolverse en el limitado ámbito del análisis de una conversación relativa a un "mundo de juguete", el cual contiene bloques de diversas formas, tamaños y colores, ubicados sobre una mesa, y que pueden ser recogidos y desplazados. Eta Oin, fascinada, comienza a teclear SHRDLU con entusiasmo. Y Earrwig se apoya en la espalda de aquella y comienza a brindar algo así como comentarios circunstanciales, tal como se esperaba de él.

1. Eta Oin: tome un bloque rojo grande
SHRDLU : bien
Dr Tony Earrwig: SHRDLU responde "Bien" cuando ejecuta una orden. Para tomar el bloque rojo tiene que dejarlo en libertad mediante el hallazgo de un espacio para el verde y el desplazamiento de este último.
2. Eta Oin: agarre la pirámide
SHRDLU: no sé de qué pirámide me habla
Dr. Tony Earrwig: hay tres pirámides a la vista, y SHRDLU sabe que las expresiones con "la" están destinadas a hacer referencia a un objeto específico que el hablante tiene en mente.
3. Eta Oin: busque un bloque más voluminoso que el que está sosteniendo y póngalo en la caja
Dr. Tony Earrwig: SHRDLU debe resolver qué se quiere decir con "el que" y con "lo", además de utilizar la deducción para decidir cuál bloque está sosteniendo.
SHRDLU: supongo que, al decir "lo" alude usted al bloque que es mayor que el que estoy sosteniendo
Dr. Tony Earrwig: hay dos referentes posibles para "lo": el bloque elegido y "el que usted está sosteniendo". SHRDLU tiene libertad heurística para optar por uno de ambos.
SHRDLU: bien
Dr. Tony Earrwig: la mano de SHRDLU tiene que apoyar el bloque rojo para recoger el azul más voluminoso.
4. Eta Oin: ¿qué contiene la caja?
SHRDLU: la pirámide azul y el bloque azul
5. Eta Oin: ¿dónde está apoyada la pirámide?
Dr. Tony Earrwig: anteriormente, SHRDLU respondió ante la mención de "la pirámide" diciendo "no sé de qué pirámide me habla". Ahora él da por supuesto que usted habla precisamente de la mencionada.
SHRDLU: en la caja (Hofstater, 1979 : 692-693).

Otros importantes desarrollos han sido realizados al crear programas capaces de hacer resúmenes de artículos periodísticos:

FRUMP: un programa que hace resúmenes de artículos periodísticos

Escogí el programa FRUMP como una ilustración de un programa de IA que comprende textos... El objetivo de FRUMP es producir breves resúmenes de historias de periódicos, ni más ni menos. El programa "entiende" una historia cuando manipula sus puntos principales para hacer el resumen, un objetivo muy restringido y a la vez muy ambicioso. Sus ejecuciones son impresionantes: FRUMP resume en forma correcta aproximadamente 10% de los cables de la agencia UPI, y hay una posibilidad considerable de mejorarlo simplemente implementándole más estructuras de conocimiento para que trabaje con ellas.

¿Cómo es posible esto? Antes que nada, desconociendo la relevancia de la literatura en comprensión de oraciones. Inclusive, FRUMP hace su trabajo de maneras exactamente opuestas a la del modelo psicolingüístico que he discutido [se refiere el autor a su propio modelo, expuesto en ese mismo artículo]. Los textos son procesados casi completamente de arriba hacia abajo (top-down); no hay compresión sin conocimiento -no solamente conocimiento sintáctico y semántico como el de las estrategias de análisis gramatical en psicolingüística-, sino una buena dosis de conocimiento del mundo. Este conocimiento viene en la forma de "guiones difusos" (fuzzy scrips) -scripts como los de Schank y Abelson, pero "difusos" porque contienen menos detalles (afirmaciones posibilísticas).
El sistema mismo consiste en dos módulos principales: un Predictor y un Substanciador (Sunstantiator). El Predictor le dice al Substanciador cuáles hechos buscar en el texto. El Substanciador trata de encontrarlos y envía sus resultados al Predictor. El análisis del texto es entonces manejado por lo que el predictor anticipa más que por el texto mismo. El Predictor puede preguntar por un guión específico o, a un nivel más bajo de análisis, por una conceptualización específica o por un elemento que juegue un papel en una conceptualización; o puede simplemente especificar algunas restricciones sobre un guión o una conceptualización... El substanciador tiene las siguientes maneras de confirmar o no al Predictor: busca en el texto mismo para ver cuándo la pieza requerida de información puede ser encontrada. Si no, ve más bien si esa pieza de información puede ser generada como una inferencia, usando su conocimiento del diccionario (en la forma de una representación conceptual dependiente -Conceptual Dependency Representation- o a través de su conocimiento del mundo -World Knowledge- en la forma de un guión). La sintaxis juega un papel mínimo en todo esto. Es usada solamente como un indicio acerca de dónde, en el texto, cierta variable de relleno puede ser encontrada. Por ejemplo, si se pregunta por el sujeto de un verbo, busca hacia atrás del verbo un nombre no precedido por una preposición; en forma similar, si hay una pregunta acerca del objeto de un verbo, busca hacia adelante pero no hay análisis (parsing) del texto entero en constituyentes. Todo lo que FRUMP quiere es un buen resumen de los puntos principales. Todo lo demás es desechado.
Todas estas operaciones proceden de arriba a abajo (top-down). El único momento en el que FRUMP estudia el texto de abajo a arriba (bottom-up) es al comienzo, cuando decide cuál guión usar.
Una noticia de diciembre de 1978 de la UPI fue resumida de la siguiente manera:
"OCURRIÓ UN ACCIDENTE DE UN VEHÍCULO EN COLORADO. UN AVIÓN CHOCÓ. UNA PERSONA MURIO"
FRUMP realmente funciona, y esto es inusual para un programa de IA como lo es para una teoría lingüística o para un modelo psicológico. Está lejos de ser perfecto. Podría funcionar mejor si le diéramos más guiones (hasta ahora tiene 48); obviamente no todas las historias de periódico son suficientemente estilizadas para ser manejadas mediante esta aproximación. Incluso cuando FRUMP resume una historia correctamente, puede "salirse de foco" (miss the point) como de hecho sucedió con la historia del choque del avión citada anteriormente... la noticia no era que una persona había muerto sino que ¡21 habían sobrevivido! (Kintsch, W., 1984: 116-117).

Esta larga cita nos deja ver un poco más en detalle cómo los problemas y las aproximaciones son compartidos por ambas disciplinas.
Para darnos una idea de los temas tratados en los libros de la perspectiva informática sobre la comprensión del lenguaje natural, podemos explorar un índice cualquiera. Allen (1995) nos presenta tres secciones en su libro. La primera, dedicada al procesamiento sintáctico, nos introduce a los conceptos de gramáticas y análisis gramatical automático, así como al problema de la resolución de ambigüedades lingüísticas por diferentes métodos (deterministas o probabilísticos). La segunda, interpretación semántica, trata de la formalización de la semántica en modelos lógicos, los vínculos entre la sintaxis y la semántica, la resolución de ambigüedades, de estrategias diversas para la interpretación semántica y del problema de la extensión (scoping) y la interpretación de frases nominales. La tercera y última parte estudia el contexto y el conocimiento del mundo, desarrollando los problemas de la representación del conocimiento en la computadora, el contexto local del discurso y la referencia, el uso del conocimiento del mundo, la estructura del discurso, entre otros aspectos.
Cada uno de estos grandes temas está tratado en su libro con cierto detalle, exponiendo los modelos informáticos actualmente disponibles y ejemplificando los programas específicos que los utilizan.

2.1.3 La lectura desde el punto de vista psicolingüístico
Desde la perspectiva psicológica los temas de trabajo son muy similares. Observando el índice del libro Strategies of Discourse Comprehension, de Walter Kintsch y Teun A. Van Dijk, que aunque publicado en 1983 sigue siendo un libro de referencia para la realización de investigaciones más específicas, observamos los siguientes tópicos generales: procesos perceptuales, identificación de letras y palabras, análisis sintáctico-semántico, ambigüedad, unidades semánticas (proposiciones), coherencia, estructuras de conocimiento, inferencias, macroestructuras, etc. A un nivel más general, el libro estudia la noción de estrategia en la comprensión del lenguaje y del discurso para entonces estudiar la utilización, por parte del lector, de diferentes recursos proposicionales, de coherencia local, esquemáticos y para el uso de conocimiento.
Es, pues, evidente que ambas aproximaciones, la computacional y la psicológica, se enfrentan a los mismos problemas: deben ser capaces de explicar (o realizar) la identificación de letras (o fonemas) y palabras (escuchadas o leídas); deben resolver (o explicar) el problema del análisis (o parsing) gramatical y semántico (qué palabras van junto con cuáles, cómo se estructuran las palabras en constituyentes), el establecimiento de la referencia, la construcción de la coherencia textual; asimismo, deben de alguna manera responder (o explicar) al problema de cómo se estructura el conocimiento involucrado en el procesamiento (sea éste específicamente lingüístico o sea el conocimiento general del mundo). Al respecto, el modelo de Kintsch y Van Dijk trabaja asumiendo un esquema de la memoria a largo plazo que no es otra cosa que observar cómo el ser humano organiza su conocimiento y cómo lo recupera cuando es requerido.
Si profundizáramos un poco más en la correspondencia de alguno de los tópicos encontraríamos que siguen apareciendo similitudes en cuanto a la forma de tratamiento de los diferentes problemas involucrados. Por ejemplo, en la tercera parte del libro de Allen (contexto y conocimiento del mundo) se estudia la representación de información estereotipada, utilizando la noción de marco (frame) y la de guión (script) tanto como en el modelo de Kinsch y Van Dijk se discute el problema de la organización del conocimiento: "...asumiremos que hay varias formas de organización -del conocimiento- pero que estas formas son más flexibles que los marcos o los guiones. Para nuestros propósitos, entonces, pondremos especial atención a las estrategias de uso del conocimiento" (p.13).
Otros problemas comunes de estas perspectivas son los referentes a la distinción entre las modalidades oral y escrita que se procesan. Mientras que la perspectiva computacional parece mantener más claramente la distinción entre texto oral e impreso, la psicológica tiende a atribuir los mismos procesos a ambas modalidades. Si bien podemos admitir que a partir de cierto nivel de procesamiento (una vez reconocida una frase, por ejemplo) los procesos (humanos o artificiales) pueden ser comunes, en el nivel más superficial (el reconocimiento de caracteres o fonemas, palabras, y en el nivel mismo del análisis gramatical) éstos son diferentes, ya que las modalidades lingüísticas son distintas: la lengua oral y la lengua escrita son sistemas lingüísticos complementarios pero que difieren en muchos aspectos específicos (véase Catach, 1988).

3. Comparación específica

3.1 Resolución de ambigüedades: modelos estadísticos. La rotulación de las partes del discurso
Si la problemática que enfrentamos es la comprensión del lenguaje y el lenguaje es lineal (sea en su modalidad oral o escrita), debemos suponer que una operación básica necesaria para dicha comprensión es la organización de esa información lineal. Para realizar esto se deben poder definir una o varias unidades de información así como las relaciones que éstas guardan entre sí. El análisis (u organización) de la información (lineal) es lo que se llama análisis (parsing) del input lingüístico. Las unidades varían desde categorías lingüísticas mínimas del nivel fonológico (fonemas) hasta estructuras mucho más amplias, como cláusulas, oraciones o hasta textos completos.
Este proceso supone de entrada el reconocimiento de las unidades que secuencialmente "van siendo procesadas". Situándonos en el nivel de la escritura, es muy frecuente, en todas las lenguas, que una misma palabra pueda tener varios significados o incluso que pueda jugar diversas funciones gramaticales: "flies", en inglés, puede ser "moscas" o bien "vuela" (para la tercera persona del verbo to fly). En francés oral /vwa/ puede ser "ver", "vía" o "voz". En español escrito y hablado llama (o /yáma/) puede significar, con categoría nombre, "fuego" y "una clase particular de animal originario del Perú" y, con categoría de verbo, refiere a la tercera persona del verbo llamar. Entonces, una de las tareas que debe resolver un analizador gramatical es asignar una categoría gramatical a las palabras encontradas. La organización de la información lingüística depende de estas asignaciones, entre otras.
Existen muchos algoritmos (métodos) posibles para eliminar las alternativas de interpretación de diferentes palabras en un contexto determinado. Expondremos solamente un método probabilístico. Para captar su "lógica" debemos conocer ciertas nociones elementales de teoría de la probabilidad.
Las técnicas en IA basadas en la teoría de las probabilidades comienzan a ser desarrolladas por dos razones fundamentales. En primer lugar porque empiezan a estar a disposición de los programas grandes bases de datos lingüísticos (como el Penn Treebank, que incluye anotaciones sintácticas para cada palabra). Esto permite el cálculo de probabilidades de aparición de ciertas palabras, en ciertos contextos, con base en grandes montos de información. Es sabido que este cálculo es más confiable mientras mayor es la muestra a partir de la cual se calculan dichas probabilidades. No es lo mismo calcular las probabilidades de que haya choques de autos en una esquina determinada, con base en la observación de una semana, que hacerlo con base en la observación de 10 años. En segundo lugar, los métodos probabilísticos se utilizan porque resulta prácticamente imposible realizar un análisis de todas las opciones posibles. En lo que al lenguaje se refiere, el análisis de todas las opciones combinatorias posibles de un problema determinado resulta enorme, y sobre todo ocioso y tardado, ya que se deben generar opciones ilegales o absurdas. ¿Cómo optimizar, pues, la toma de decisiones en los análisis lingüísticos hechos por computadora?
En el anexo 1 se resume el desarrollo del algoritmo llamado "Viterbi", creado para calcular la probabilidad condicional de que una palabra funcione con una determinada categoría gramatical, utilizando la suposición de Markov, es decir, suponiendo que la probabilidad de la categoría depende sólo de la categoría gramatical de la palabra anterior: ¿qué probabilidad hay de que flies funcione como nombre si le antecede un artículo? Este es un modelo bigram, ya que utiliza la información acerca de dos y sólo dos categorías para calcular las probabilidades. Para observar un desarrollo completo de este algoritmo véase Allen (1995).
Lo que nos llama poderosamente la atención es, por un lado, la complejidad del problema planteado en términos del cálculo de probabilidades aplicado a grandes series de datos lingüísticos reales y, por el otro, la técnica desarrollada con base en el modelo bigram, que considera el mínimo contexto posible, es decir, la categoría sintáctica de la palabra anterior. Deseamos también subrayar el hecho mismo de usar una técnica probabilística. No se llega a una solución determinista, completamente segura del problema, sino a una más o menos probable. Se pierde precisión pero se gana facilidad y rapidez en la obtención del resultado.
En la sección siguiente veremos que estas características también son planteadas por los modelos psicológicos de la lectura y que hay evidencia de que el niño, en un momento determinado de su evolución en lectura, parece avanzar procesando pares de palabras a la vez.

3.2 Los modelos psicológicos de la evolución de la lectura y el procesamiento biléxico
Existen muchos modelos de la lectura y su evolución desarrollados desde la psicología. Algunos abordan sólo ciertas operaciones importantes como, por ejemplo, la identificación de letras o palabras. Otros, en cambio, no aíslan (por principio) esta operación, y proponen que la unidad mínima de procesamiento sobre la cual debemos trabajar es el texto.
Hay también diferencias con relación a la profundidad con la que se estudia el procesamiento del nivel "superficial" del texto respecto del nivel "profundo" (semántico) del mismo.
El modelo estratégico de la comprensión del discurso elaborado por Kintsch y Van Dijk en 1983, como habíamos ya comentado, sigue siendo referencia obligada en los estudios sobre la lectura. Su propósito es estudiar con profundidad tres aspectos claves de la misma: el procesamiento de textos completos, el procesamiento de su nivel semántico y las estrategias usadas por los lectores para llegar a su comprensión.

3.2.1 El procesamiento del texto como unidad de estudio
Con relación a su primera característica diremos simplemente que el texto se propone como la unidad mínima sobre la cual se puede estudiar el procesamiento humano. La lingüística textual es la que sirve de referencia a esta propuesta, elaborada principalmente por Van Dijk en la década anterior, la cual ha tenido una gran influencia tanto en lingüística como en psicología y en IA.
Para Kintsch y Van Dijk el estudio aislado de aspectos específicos de la lectura resulta artificial. Haciendo una revisión de las teorías de reconocimiento de palabras comentan:

La breve revisión que hacemos seguramente no hace justicia a la complejidad y riqueza de la literatura sobre reconocimiento de palabras, pero quizás es suficiente indicar a) el asunto es verdaderamente complejo y b) hay razones para el aparente caos. El estado de cosas es un reto para los teóricos... Las teorías del reconocimiento de palabras, comenzando con el modelo pandemonium de Selfridge y Neisser (1960) y el modelo logogen de Morton, han sido refinadas sucesivamente, hasta las más recientes generaciones de modelos... Antes de dejar el reconocimiento de palabras, se necesita hacer algunas observaciones generales con relación al estatus de la investigación en esta área. Primero notamos que hemos obtenido mucha información útil acerca del reconocimiento de palabras de estudios muy artificiales de laboratorio, usando tareas muy diferentes a la "lectura real" (1983: 25-26).

3.2.2 El procesamiento del nivel semántico

La teoría propone que un input verbal es decodificado en una lista de proposiciones atómicas que son organizadas en unidades más largas sobre la base de alguna estructura de conocimiento para formar una base de texto coherente. De esta base de texto una macroestructura es construida, la cual representa la información más esencial de la base del texto. No sólo el conocimiento del lector, sino también sus creencias y sus objetivos juegan un papel importante en este proceso. En paralelo con esta base de texto jerárquica, un modelo de situación es elaborado, que integra el conocimiento del mundo del lector con la información derivada del texto que está siendo procesado. Entonces el producto final de la compresión es un registro de procesamiento multinivel, que incluye trazos de memoria del input lingüístico actual, del significado del texto tanto a nivel global como local y del efecto que éste tuvo en el conocimiento del mundo que el lector tiene. Las estrategias de procesamiento en línea que produce esta estructura son la preocupación primordial de este libro (Kintch y Van Dijk, 1983: X).

Sin embargo, los autores mismos enumeran tres de las más importantes limitaciones de su modelo, una de las cuales es relativa al "análisis lingüístico: nosotros no modelaremos completamente los procesos mediante los cuales el input es analizado (o sintetizado) y semánticamente interpretado. Principalmente, limitamos el modelo al procesamiento de información semántica (p.8).

Es importante aclarar que otra de las limitaciones reconocidas por los autores es no haber estudiado el aprendizaje de la lectura en niños, sino haber trabajado sólo con lectores expertos.

3.2.3 La noción de estrategia
Un capítulo completo es dedicado al estudio del concepto de estrategia. En términos generales ésta es conceptualizada de la siguiente manera:

El procesamiento estratégico contrasta con el procesamiento gobernado por reglas, algorítmico. Un ejemplo de este último es una gramática generativa que produce una descripción estructural de una oración por reglas de análisis sintáctico. Este proceso puede ser complejo, largo y tedioso, pero garantiza el éxito con tal que las reglas sean correctas y bien aplicadas. En un procesamiento estratégico no está garantizado el éxito ni llegar a una única representación del texto. Las estrategias aplicadas son como hipótesis de trabajo efectivas acerca de la estructura correcta y el significado de un fragmento de texto, y esto puede ser refutado por procesamientos posteriores. El análisis estratégico depende también no sólo de las características del texto sino de las características del usuario del lenguaje como sus objetivos de lectura o su conocimiento del mundo (p. 11).

Si bien ya en este punto podríamos comenzar a hacer interesantes comparaciones entre la perspectiva computacional de procesamiento de texto y la perspectiva psicológica, por ejemplo en el sentido de comparar un algorritmo basado en reglas, y su costo de procesamiento en línea, con el procedimiento probabilístico o estratégico que no garantiza éxito pero que es eficaz en línea, con base en la consideración de suposiciones independientes, como el uso del contexto o el uso del conocimiento propio del lector, quisiéramos llevar a un nivel más específico de detalle tal comparación.

En contraste con el modelo de Kintsch y Van Dijk, tuvimos la oportunidad de realizar un estudio longitudinal centrado en investigar el procesamiento "superficial" de textos por parte de los niños. Este consistió en el muestreo periódico de la manera en que dos pequeños grupos de niños podían leer textos (Vaca, 1997). Cada 6 meses, aproximadamente, grabábamos la lectura en voz alta de un fragmento de texto. Hicimos un seguimiento de la lectura desde el final de preescolar (5-6 años) hasta el quinto grado de primaria -en algunos casos-. Luego, transcribimos la manera en la que los niños leyeron los textos, conservando todos los detalles de la lectura que nos parecían interesantes y reveladores de los procesos psicológicos involucrados en el procesamiento: pausas, errores, correcciones, retrocesos, repeticiones, preguntas, etc. Analizamos entonces los diferentes fenómenos retenidos en las transcripciones bajo tres grande rubros: los agrupamientos de elementos gráficos que parecían ser procesados de manera simultánea; los errores de todo tipo, significativos o no, corregidos o no, y por último, los otros fenómenos mencionados, tales como las repeticiones, los retrocesos, etc.
Es importante subrayar que nuestra investigación adoptó la perspectiva psicogenética, es decir, aquella que intenta entender el progreso en el procesamiento de texto escrito mediante el método genético, tratando de analizar los modos más y más elementales de procesamiento. De manera similar a como Piaget estudió la formación de las nociones y de las operaciones mediante el estudio de su formación en el niño, planteando como suposición teórica fundamental el hecho de que existe un orden secuencial fijo y necesario en el proceso de formación (o construcción) de las nociones y de las operaciones, nosotros proponemos como hipótesis la existencia de un orden fijo y necesario en la aparición de procedimientos cada vez más elaborados de procesamiento textual en el niño. De este modo, al analizar la dimensión y las características de los "fragmentos de texto" que parecen ser procesados simultáneamente por parte de los niños en diferentes edades, llegamos a distinguir, en términos generales, cuatro clases de fragmentos bien diferenciados: los grupos de elementos gráficos que son menores a una palabra (sílabas o fragmentos de sílabas), la palabra, los grupos de dos palabras y los grupos de más de dos palabras.
Los datos muestran cómo, a menor edad del niño (5-6 años), la mayoría de los agrupamientos que éste forma al (y para) leer un texto son subléxicos y tienden a corresponder a elementos silábicos del mismo; traslapada con los agrupamientos subléxicos comienza a aparecer la lectura "palabra a palabra", que se va haciendo claramente predominante en la lectura infantil conforme se acumula la experiencia del niño con textos. Además de que evidentemente cambia la unidad de procesamiento de la sílaba a la palabra, el progreso parece consistir en poder procesar un monto mayor de información al mismo tiempo. Este aumento en el monto de información procesado simultáneamente lo hemos interpretado como vinculado a un cambio en el procedimiento de procesamiento, que consiste en ampliar las clases de información con base en las cuales se procesa el texto. Es decir, que mientras en los momentos iniciales de la lectura infantil el niño está centrado en la alfabeticidad del sistema y en el descubrimiento del principio alfabético de escritura, como "llave maestra" que le permite abrir todas las puertas, en momentos más evolucionados de la lectura (a los cuales el niño tiende) él se descentra del principio alfabético y comienza a considerar o, más bien dicho, vuelve a considerar otras clases de información que había utilizado predominantemente tiempo atrás: el contexto del texto (el icónico o el temático). Asimismo, comienza a considerar otras clases de información que le son ahora accesibles gracias a la progresión de su conocimiento de otros aspectos no alfabéticos del sistema: los espacios en blanco, ciertos rasgos ortográficos, etcétera.
La coordinación de diferentes clases de información para identificar los elementos presentes en el texto lleva al niño a intentar el procesamiento de montos mayores de información, puesto que en este momento de la evolución su lectura resulta, y él lo sabe, aún muy poco fluida. Así, efectúa el procesamiento simultáneo de más de una palabra a la vez y justamente intenta con dos: es claro en nuestros datos cómo el niño, antes de leer cláusulas completas sin segmentación entre palabras ni segmentaciones internas a las palabras, ensaya un sistema de dos en dos. Este tipo de agrupaciones le da una cadencia muy especial a su lectura. Presentamos un fragmento de nuestros datos experimentales:

Mara (8;3), 2° grado:
cuando llegamos-al muelle mi papá me dijo-
<sube al barco>-pero antes-pásame- ese tubo*-

ese tubo grueso--que está-tirado--

/el tubo/--que hacer-
él tuvo que hacer-algunas-reparaciones-
mientras yo-limpiaba- la cubierta-

la cubierta-

de pronto--anunció-
todo listo marinero-los m-

motores-en marcha-a pescar

Los bloques en letra negrita representan los agrupamientos biléxicos a los que hemos hecho referencia. En este fragmento de transcripción encontramos siete.

Después de un corto periodo el niño pasa a hacer agrupaciones de un mayor número de palabras, con lo que su lectura se va haciendo más y más fluida.
Para efectos del presente ensayo deseamos subrayar que por haber encontrado estos agrupamientos biléxicos el núcleo central de nuestra argumentación radica en las semejanzas posibles entre los modelos bigram antes expuestos y dichos agrupamientos, aunque no exclusivamente. El uso de la información previa inmediata leída por el niño (y el adulto) es evidente. A la manera del algoritmo Viterbi los niños van avanzando por ciclos en su procesamiento, tomando en cuenta lo ya leído y utilizando esta información para "probabilizar" o "anticipar" las palabras que vendrán. El análisis de los desaciertos de la lectura, en particular de las sustituciones de una palabra por otra, muestra que no es para nada azarosa la categoría sintáctica de la palabra, efectivamente escrita en el texto, y aquella que la sustituye. En otros términos, cuando el niño cambia una palabra por otra, pongamos por caso un verbo, lo más probable es que en su lugar lea otro verbo, lo que muchas veces guarda una correspondencia sintáctica con lo que viene leyendo. Este dato es conocido desde hace mucho. Paul A. Kolers, en su artículo "Experiments in Reading", publicado en la revista Scientific Américan en 1972, comenta en una de sus tablas lo siguiente:

Los errores de lectura son tabulados en términos de las partes del discurso que fueron sustituidas por palabras erróneas. Si un nombre fue leído equivocadamente, 76% de las veces es otro nombre el que fue leído en su lugar, 3% fue un verbo, etc. La diagonal de tabla muestra que usualmente la parte del discurso sustituta fue la misma que aquella sustituida. Algunas sustituciones nunca se dieron (p.90).

Nosotros pudimos corroborar hace algunos años este mismo fenómeno en español. He aquí la tabla correspondiente:

Igualdad y diferencia entre las categorías gramaticales sustituta y sustituida

Sustituciones entre:                                               Grado escolar                                  Total

2º 3º 4º 5º

Idéntica categoría
gramatical                                                              61 66 77 41                                      245

Distinta categoría
gramatical                                                              17 19 16 8                                          60

Total                                                                        78 85 93 49                                      305

FUENTE: Vaca, 1986: 45.

Otro caso claro en el que el niño utiliza algo así como una estimación probabilística intuitiva, derivada de su conocimiento estadístico del lenguaje, es, en español, la atribución del esquema acentual a una palabra desconocida. Cuando los niños encuentran palabras no conocidas durante la lectura de un texto tienden a atribuirle preferencialmente el esquema acentual grave, debido a que es el más frecuente en español. Por ejemplo, leen /icáro/ ahí donde deberían leer /ícaro/ (véase Vaca, 1997: 138).
Aceptando por el momento como válido este planteamiento de la evolución de la lectura podemos preguntarnos: ¿es una mera casualidad que en la perspectiva informática se haya desarrollado un procedimiento basado en pares de palabras para estimar la probabilidad de generación de secuencias gramaticales específicas y que el niño, en su intento de procesamiento en línea del texto escrito, llegue a adoptar un procedimiento semejante? o ¿esa "coincidencia" en los procedimientos es una respuesta en cierto sentido necesaria al contexto que envuelve al niño y al desarrollador de IA? En otros términos: ¿es la psicología genética de la lectura el campo experimental de la epistemología genética de IA en lo que al procesamiento del lenguaje se refiere? ¿son los actuales desarrollos de IA equivalentes (isomórficos, análogos) a los estadios más iniciales del procesamiento del lenguaje en el niño?
Un concepto clave para responder afirmativamente a esas interrogantes (con todas las precauciones intermedias y aclaraciones que deberíamos hacer si este trabajo fuera una tesis y no un ensayo) sería el referente a la toma de decisiones (identificación de palabras, pongamos por caso) con base en la consideración simultanea (por tanto, coordinada) de clases de información diferentes.
Hemos visto que el simple hecho de asignar artificialmente una categoría gramatical a una palabra resulta muy complicado. Si se quiere tomar una decisión segura, algorítmica, se sacrifica la rapidez o la eficiencia del proceso y se requieren montos enormes de información almacenada en grandes bases de datos que sean también ágilmente accesibles, además de algoritmos capaces de consultar dichas bases de datos y de coordinarlos, para llegar a tomar la decisión "flies está funcionando aquí como un verbo". Puesto que en el estado actual del desarrollo de la IA no existen esos eficientes algoritmos (o bien no existen las heurísticas capaces de hacerlo), ni esas grandes bases de datos, ni tampoco máquinas suficientemente grandes y rápidas (aún) para almacenar y manejar eficientemente las bases de datos lingüísticas y las representaciones de conocimiento necesarias (si es que están ya diseñadas) para ejecutar esas tareas, los modelos que actualmente se pueden desarrollar son probabilísticos, riesgosos en cierto sentido, no seguros, no deterministas, y deben trabajar con el mínimo de información contextual.
Este panorama es análogo al que podríamos imaginar del niño en evolución: el niño, si bien es un hablante experto, no es un escritor experto y su conocimiento acerca del funcionamiento de la variante escrita de su lenguaje es aún incipiente. Él tiene que realizar, "on line", toda una serie de operaciones de decisión y tiene límites en cuanto a los montos de información que puede manejar a un tiempo.
Uno de los descubrimientos más sorprendentes de la psicología cognitiva del presente siglo, desde nuestro punto de vista, es el de la construcción de las conservaciones en el niño. Pongamos por caso la conservación de cantidades continuas, en el clásico experimento de Piaget y Szeminska: se iguala la cantidad de agua contenida en dos vasos iguales en su forma; luego, se transvasa el contenido de uno de ellos a un vaso flaco y alto. El niño, en un primer momento, afirma que hay más agua en el vaso flaco y alto que en el vaso de referencia, porque en aquel "llega más alto el agua". Tiempo después, el mismo niño encontrará extraña la pregunta y responderá que hay la misma cantidad de agua en ambos vasos porque ésta no se ha quitado ni agregado.
Evidentemente, a edades diferentes el niño "ve" lo mismo, procesa la misma información, pero la organiza de manera diferente: mientras que la respuesta de conservación es posible gracias a la coordinación compensatoria de la información "más alto pero más delgado" y "más bajo pero más gordo" = la misma cantidad de agua, el niño que no establece la conservación queda centrado en una sola de las dimensiones: "más alto" = más agua.
Son, pues, dos los factores trascendentes: tener las herramientas lógicas que permitan las operaciones sobre la información y la organicen (los agrupamientos lógicos característicos de la reversibilidad operatoria) y la posibilidad de tomar en cuenta toda la información disponible simultáneamente en forma coordinada.
El niño, al leer, tiene una "base limitada de conocimiento -del sistema de escritura, del lenguaje y del mundo-" y un herramentaje "lógico" que no está aún completamente desarrollado (o, en términos más generales, una forma de pensamiento que no está cabalmente desarrollada). En estas condiciones, debe ser capaz de generar procedimientos que le permitan dar solución a los problemas planteados por su entorno, como el de leer un texto cuando tiene 7 años. El desarrollo de esos procedimientos le permitirán realizar la tarea, si bien no con un grado máximo de eficiencia -como un adulto-. La lectura palabra por palabra, o la lectura por pares de palabras, es un procedimiento "óptimo" respecto del estado en que se encuentra el sistema de conocimiento y de pensamiento del niño, tanto como el modelo bigram (o el algoritmo Viterbi) para el cálculo de probabilidades de secuencias de categorías gramaticales de palabras es un procedimiento "óptimo" respecto del estado actual del desarrollo del procesamiento artificial del lenguaje, dadas las múltiples limitaciones de hardware y software existentes en el momento de su desarrollo. El factor común es el número 2: dos elementos a un tiempo, suficientemente informativos pero manejables por un sistema limitado, como el cerebro humano o la más grande de las computadoras actuales.

Anexo 1: el algoritmo Viterbi

Formalmente, la probabilidad puede ser definida en términos de variables aleatorias que pueden variar entre un rango predefinido (pero finito) de valores. Tomemos el ejemplo típico de los volados. La variable aleatoria "Volado" representa el resultado de que una moneda arrojada puede variar entre dos posibles valores: águila (á) o sol (s). Un posible evento es que la moneda caiga águila, Volado=á; el otro es que caiga sol, Volado=s. Ningún otro valor para volado es posible.
Una función probabilística (PROB), asigna una probabilidad a cada posible valor de una variable aleatoria. Cada función probabilística debe tener las siguientes propiedades, donde e₁, ... e_n tiene los posibles distintos valores E:

PROB (e_i) > = 0, para todo i

PROB (e_i) < = 1, para todo i

SUM_i=1,n PROB (e_i) = 1

En lenguaje natural, trabajando con la variable "Volado", sería:

La probabilidad de que caiga águila (e₁) es de .5, es decir, mayor o igual a 0

La probabilidad de que caiga sol (e₂) es de .5, es decir, menor o igual a 1

La sumatoria de las probabilidades de todos los valores posibles de la variable debe ser igual a 1, como de hecho lo es en el ejemplo: .5 + .5 = 1.

Allen nos propone considerar un ejemplo trivial. Supongamos que Harry es un caballo que ha corrido en 100 carreras, de las cuales ha ganado 20. La probabilidad de que Harry gane una carrera es PROB(Carrera=Ganar)=20/100=.2 y la probabilidad de que pierda es: PROB(Carrera=Perder)=80/100=.8. Estos valores satisfacen las tres propiedades de una función probabilística.

Para que un evento se dé pueden intervenir muchas variables. Supongamos otra variable con relación a la de "Carrera" de Harry, la de "Clima", cuyos valores puedan ser Soleado (s) y Lluvioso (ll). Digamos que de las 100 carreras que Harry corrió en 30 de ellas estaba lloviendo y que ganó 15. Intuitivamente podríamos decir que si Harry está corriendo y está lloviendo tiene un .5 de probabilidad de ganar, ya que 15 (carreras ganadas mientras llueve)/30 (veces que llovía)=.5. Esta intuición es capturada por el concepto de probabilidad condicional, y se escribe PROB (ganar | lluvia), que es usualmente descrita como la probabilidad de que se dé el evento Ganar dado el evento Lluvia. La probabilidad condicional está definida por la fórmula:
PROB (e | e’) = PROB (e & e’) / PROB (e’)
donde PROB (e & e’) es la probabilidad de que los dos eventos e y e’ ocurran simultáneamente. Es decir:

La probabilidad de que se den los dos eventos simultáneamente es PROB (Ganar & Lluvia) = PROB (.15)

Entonces, PROB (e | e’) = .15 / .30 = .5

lo que coincide con nuestra intuición de que Harry tiene un .5 de probabilidad de ganar la carrera si está lloviendo.

Consideremos ahora la aplicación de estos elementos mínimos de teoría de la probabilidad a los problemas del procesamiento artificial del lenguaje. Dada una oración con palabras ambiguas, determinar la más probable categoría léxica de cada una de ellas. Digamos que se necesita identificar la categoría sintáctica correcta de palabras que pueden ser o bien nombres o bien verbos. Esto puede ser formalizado utilizando una variable aleatoria: "Categoría", que varía entre dos posibles valores correspondientes a partes del discurso, Nombre o Verbo, y otra, "Palabra", que varía entre todas las posibles palabras. Consideremos como ejemplo cuando Palabra = flies. El problema puede ser planteado como calcular si la probabilidad de que:
PROB (Categoría=Nombre | Palabra=flies) = PROB (Nombre | flies)
es mayor a
PROB (Categoría=Verbo | Palabra=flies) = PROB (Verbo | flies)

¿Cómo podemos calcular esas probabilidades? Si contamos con las bases de datos lingüísticos antes mencionadas podemos hacerlo. Digamos que contamos con una base de datos de oraciones simples que contiene 1 273 000 palabras y que encontramos 1000 veces la palabra flies, 400 de las cuales corresponden al sentido Nombre y 600 al sentido Verbo. Entonces:
PROB (flies) = 1000 / 1 273 000 = .0008
PROB (flies & Nombre) = 400 / 1 273 000 = .0003
PROB (flies & Verbo) = 600 / 1 273 000 = .0005

Por lo tanto, nuestra mejor apuesta es a que cada uso de flies es como Verbo. Dada la definición de probabilidad condicional, PROB (e | e’) = PROB (e & e’) / PROB (e’), podemos calcular la probabilidad de que flies sea verbo usando la fórmula:
PROB (Verbo | flies) = .0005 / .0008=.625
Usando este método, un algoritmo que asigne la categoría Verbo a la palabra flies estará correcto 60% de las veces. Evidentemente se trata de una estrategia pobre, ¡pero mejor que decir siempre que la palabra flies es un Nombre! Para obtener un método mejor se debe considerar más el contexto así como la oración en la que flies aparece.
La rotulación de las partes del discurso implica la selección de la secuencia más probable de categorías sintácticas para las palabras en una oración. El algoritmo más simple para definir la categoría sintáctica de una palabra es calcular directamente la probabilidad de las tablas de frecuencia. Sorprendentemente, mediante esta técnica se obtiene éxito 90% de las veces, debido principalmente al hecho de que la mitad de las palabras no son ambiguas, es decir, porque no pueden adoptar más de una categoría gramatical. Esta medida es un punto de referencia. Si otra técnica no la supera, quiere decir que no funciona muy bien.
El método general para mejorar la confiabilidad es usar algo del contexto local de la oración en el cual la palabra aparece. Anteriormente vimos que la elección del sentido Verbo de la palabra flies era la mejor elección y podía ser correcta 60% de las veces. Si, por otro lado, esa palabra es precedida por la palabra the, es mucho más probable que sea un Nombre. La técnica que a continuación expondremos explota esta información.
Consideremos el problema en forma totalmente general. Sea w₁, ..., w_T una secuencia de palabras. Queremos encontrar la secuencia de categorías léxicas C_1, ...C_T, que maximiza:
1. PROB(C₁, ..., C_T | w₁, ..., w_T)
Desgraciadamente, serían necesarios muchos más datos para generar estimaciones razonables de esas secuencias, por lo que los métodos directos no pueden ser aplicados. Hay, sin embargo, técnicas de aproximación que producen buenos resultados. Para desarrollarlos se debe replantear el problema usando la regla de Bayes, que dice que esta probabilidad condicional es igual a:
2. (PROB (C₁, ... C_T) *PROB (w₁, ..., w_T | C₁, ..., C_T)) / PROB (w₁, ..., w_T)
Sea SC la secuencia de categorías sintácticas C₁, ... C_T
Sea SW la secuencia de palabras específicas w₁, ..., w_T
Entonces:
PROB (SC | SW) = (PROB (SC)*PROB (SW | SC)) / PROB (SW)

Como antes, desde que nuestro interés es encontrar la SC que da el máximo valor, el común denominador en todos estos casos no afecta la respuesta. Así, el problema se reduce a encontrar la secuencia de categorías que maximiza la fórmula:

PROB (SC)*PROB (SW | SC)

Este sigue siendo un método poco efectivo para calcular correctamente las probabilidades pues requiere muchísimos datos. Pero éstas pueden ser aproximadas por otras que son más simples de recolectar haciendo algunas suposiciones independientes. Incluso cuando estas suposiciones no son realmente válidas, la estimación parece trabajar razonablemente bien en la práctica. Cada una de las dos expresiones en la fórmula 3 será aproximada. La primera, la probabilidad de la secuencia de categorías, puede ser aproximada por una serie de probabilidades basadas en un número limitado de categorías previas. La suposición más común usa o bien una o bien dos categorías previas. El modelo bigram se enfoca a pares de categorías (o palabras) y usa la probabilidad condicional de que la categoría C_i seguirá a la categoría C_i-1, escrito PROB (c_i | C_i-1). El modelo trigram usa la probabilidad condicional de una categoría (o palabra) dadas las dos categorías precedentes (o palabras), es decir, PROB (C_i | C_i-2 C_i-1). Estos modelos son llamados n-gram, en los cuales n representa el número de palabras usado en el patrón. En adelante, consideraremos el modelo bigram por simplicidad.

Usando bigrams, la siguiente aproximación puede ser usada:
PROB (C₁, ... C_T) = P_i=1,t PROB (C_i | C_i-1)

Para dar cuenta del inicio de la oración se crea una pseudocategoría Æ en la posición 0 con el valor de C₀. Entonces el primer bigram para una oración que comienza con un ART podría ser PROB (ART | Æ ). Dado lo anterior, la aproximación de la probabilidad de la secuencia ART N V N usando bigrams podría ser:
PROB (ART N V N) = PROB (ART | Æ ) * PROB (N | ART) * PROB (V | N) * PROB (N | V).
la segunda probabilidad en la fórmula 3: PROB (w₁, ... w_T | C₁, ... C_T) puede ser aproximada asumiendo que una palabra aparece en una categoría independiente de las palabras en la precedente o en la subsecuente categoría. Es aproximada al producto de la probabilidad de que cada palabra ocurra en la parte del discurso indicada, esto es, por:
PROB (w₁, ... w_T | C₁, ..., C_T) = P_i=1,T PROB (w_i | C_i).
La ventaja de esta nueva fórmula es que las probabilidades implicadas pueden ser fácilmente estimadas de un corpus de texto etiquetadas con partes del discurso. En particular, dada una base de datos de texto, las probabilidades bigram pueden ser estimadas contando el número de veces que cada par de categorías ocurre comparado con la frecuencia individual de la categoría. La probabilidad de que a un verbo le preceda un nombre puede estimarse como sigue:
PROB (C_i=V | C_i-1=N) = [Frec (N en la posición i-1 y V en la posición i] / Frec (N en la posición i-1)
La siguiente ilustración da algunas secuencias bigram computadas de un corpus generado artificialmente de oraciones simples. El corpus consiste en 300 oraciones y tiene sólo palabras de cuatro categorías: N, V, ART y P. En contraste, un conjunto típico de etiquetas usado en el Penn Treebank contiene cerca de 40 etiquetas. El corpus artificial contiene 1998 palabras: 833 nombres, 300 verbos, 558 artículos y 307 preposiciones. Cada bigram es estimada usando la fórmula anterior:

Probabilidades bigram del corpus generado

Categoría          Frecuencia          Par          Frec. i,i+1          Bigram          Estimación

Æ                      300                      Æ, ART         213          PROB (ART | Æ)      .71
                Æ                      300                      Æ, N             87          PROB (N | Æ)          .29
        ART                     558              ART, N           558          PROB (N | ART)     1
        N                        833              N, V               358          PROB (V | N)          .43
        N                        833              N, N              108           PROB (N | N)          .13
        N                        833              N, P              366           PROB (P | N)           .44
        V                        300              V, N                75          PROB (N | V)           .35
        V                      300              V, ART              194          PROB (ART | V)       .65
        P                      307              P, ART              226          PROB (ART | P)        .74
        P                      307              P, N                  81          PROB (N 1 P)             .26

La probabilidad de generación léxica, PROB (w_i | C_i), puede ser estimada simplemente contando el número de ocurrencias de cada palabra por categoría. La tabla siguiente da algunos conteos para palabras individuales de los que la probabilidad de generación léxica estimada en la tabla fueron computados. Dicha probabilidad es la de que una categoría sea realizada por una palabra específica y no la de que una palabra caiga en una categoría específica. Por ejemplo PROB (the | ART) es estimada por la Frec (# de veces que the es un ART) / Frec (# de veces que un ART ocurre). O sea:
PROB (the | ART) = 300 / 558 = .53
La otra probabilidad, PROB (ART | the), debería dar un valor muy diferente:
(300/303 = .99)

Resumen de algunas frecuencias en el corpus

                N                  V                  ART                  P                  TOTAL

flies         21                  23                  0                      0                  44
fruit         49                   5                  1                      0                  55
like          10                  30                  0                      21                 61
a             1                     0                  201                  0                  202
the          1                      0                 300                  2                  303
flower     53                    15                  0                    0                  68
flowers    42                    16                  0                    0                  58
birds       64                      1                  0                    0                  65
others     592                  210                56                  284              1142
TOTAL     833                  300              558                  307              1998

Las probabilidades de generación léxica

	SHRDLU, juego de la inventividad del hombre

	FRUMP: un programa que hace resúmenes de artículos periodísticos

PROB (the | ART) .54 PROB(a | ART) .360

PROB (flies | N) .025 PROB (a | N) .001

PROB(flies | V) .076 PROB (flower | N) .063

PROB (like | V) .1 PROB (flower | V) .05

PROB (like | P) .068 PROB (birds | N) .076

PROB (like | N) .012

Dadas todas estas estimaciones de probabilidad, ¿cómo se puede encontrar la secuencia de categorías que tiene la máxima probabilidad de generar una oración específica? Por el método de la fuerza bruta podrían ser generadas todas las posibles secuencias de la oración y entonces estimar la probabilidad de cada una, recogiendo la mejor. El problema con esto es que hay un número exponencial de secuencias -dadas N categorías y T palabras, hay N^T posibles secuencias. Afortunadamente, se puede hacer mejor debido a las suposiciones independientes que fueron hechas acerca de los datos.
Desde que estamos tratando sólo con probabilidades bigram, la probabilidad de que la i-ésima palabra sea de la categoría C_i depende sólo de la categoría de la (i-1)-ésima palabra, C_i-1. Entonces el proceso puede ser modelado por una forma especial de máquina de probabilidad de estado finito, como se muestra en la figura siguiente. Cada nodo representa una posible categoría léxica y las probabilidades de transición indican la probabilidad de una categoría siguiendo a otra.

Una Cadena de Markov

Con una red como esta se puede computar la probabilidad de cada secuencia de categorías simplemente encontrando la ruta a través de la red indicada por la secuencia y multiplicando las probabilidades de transición. Por ejemplo, la secuencia ART N V N podría tener la probabilidad .71*1*.43*.35 = .107. Esta representación es sólo precisa, por supuesto, si la probabilidad de una categoría depende sólo de la categoría anterior. En teoría de la probabilidad esto es llamado la suposición Markov, y las redes como la de la figura anterior es llamada Cadena de Markov.
La representación en red puede ser ahora extendida para incluir también la probabilidad de generación léxica. En particular, aceptemos que cada nodo tenga una probabilidad de salida, que da la probabilidad de cada salida posible que pudiera corresponder al nodo. Por ejemplo, el nodo N podría ser asociado con una tabla de probabilidades que indicara, para cada palabra, qué tan probablemente esa palabra sería seleccionada si lo hiciéramos aleatoriamente. Las probabilidades de salida son exactamente las probabilidades de generación léxica mostradas anteriormente. Una red que incluye las probabilidades de salida en cada nodo es llamada Hidden Markov Model (HMM). La palabra hidden en el nombre indica que para una secuencia específica de palabras no es claro en qué estado está el modelo de Markov. Por ejemplo, la palabra flies puede ser generada del estado N (nombre) con una probabilidad de .025 o puede ser generada del estado V (verbo) con una probabilidad de .076. Debido a esta ambigüedad, no es trivial computar la probabilidad de una secuencia de palabras de la red. Sin embargo, si se tiene una secuencia particular, la probabilidad de que genere una salida particular es fácilmente computada multiplicando las probabilidades de salida de la secuencia. Por ejemplo, la probabilidad de que la secuencia N V ART N genere la salida Flies like a flower es computada de la siguiente manera: la probabilidad de la secuencia N V ART N, dado el modelo de Markov anterior es .29*.43*.65*1=.081 La probabilidad de que la salida sea Flies like a flower para esta secuencia es computada a partir de las probabilidades de salida dadas anteriormente:
PROB (flies | N)*PROB (like | V)*PROB (a | ART)*PROB (flower | N)
= .025*.1*.36*.063
= 5.4 * 10^-5
Multiplicando las dos probabilidades anteriores obtenemos la probabilidad de que el HMM pueda generar la oración, 4.37*10^-6. Más generalmente, la fórmula para computar la probabilidad de una oración w₁, ..., w_T dada una secuencia C₁, ..., C_T es:
P_i=1,T PROB (C_i| C_i-1) * PROB (w_i | C_i)
Ahora podemos resumir la discusión de cómo encontrar la secuencia más probable de categorías de una secuencia de palabras. La clave es que, dada la suposición Markov, no se tienen que enumerar todas las posibles secuencias. De hecho, las secuencias que terminan en la misma categoría pueden ser colapsadas juntas desde que la siguiente categoría sólo depende de la categoría previa en la secuencia. Entonces, si se avanza sobre la secuencia más probable encontrada para cada posible categoría terminal, se pueden ignorar todas las otras secuencias menos probables. Por ejemplo, considérese el problema de encontrar las categorías más probables para la oración Flies like a flower con las probabilidades de generación léxica y las de bigram discutidas más arriba. Dado que hay cuatro posibles categorías, hay 4⁴=256 diferentes secuencias de longitud 4. El algoritmo de la fuerza bruta tendría que generar las 256 secuencias y comparar sus probabilidades para encontrar la más probable. Explotando la suposición de Markov, sin embargo, este conjunto de secuencias puede ser colapsado en una representación que considere sólo las cuatro posibilidades para cada palabra. Para encontrar la secuencia más probable se barren hacia adelante las palabras una a la vez, encontrando la secuencia más probable para cada categoría terminal. En otras palabras, primero se encuentran las cuatro mejores secuencias para las dos palabras flies like: el mejor final de like como V, el mejor como N, el mejor como P y el mejor como ART. Después se usa esta información para encontrar las cuatro mejores secuencias para las tres palabras flies like a, cada una terminando en una categoría diferente. Este procedimiento es repetido hasta agotar las palabras. Este algoritmo es usualmente llamado Algoritmo Viterbi. Para un problema que implica T palabras y N categorías léxicas, está garantizado encontrar la secuencia más probable usando k*T*N² pasos, para una constante k, ¡significativamente mejor que el N^T requeridos por la búsqueda de la fuerza bruta!
Hasta aquí la exposición del modelo probabilístico desarrollado en IA para resolver el problema de definir, eficientemente, la identificación de la categoría sintáctica más probable de las palabras de una oración.

REFERENCIAS BIBLIOGRÁFICAS

ALLEN, James (1995) Natural Language Understanding, Redwood, Benjamin/Cumings.
BEVER, G. T., John M. CARROLL, Lance A. MILLER (Eds.) (1984) Talking Minds: The Study of Language in the Cognitive Sciences, Cambridge, M.I.T. Press.
HAUGELAND, J. (1997) Mind Design II: Philosophy, Psychology, Artifitial Intelligence, Cambridge, M.I.T. Press.
HOFSTADTER, D.R. (1979) Göedel, Escher, Bach: An Eternal Golden Braid, New York, Basic Books.
VAN DIJK, T. A. y KINTSCH, WALTER, (1983) Strategies of Discours Comprehension, Orlando, Academic Press.
KOLERS, P. A. (1972) "Experiments in Reading", Scientific American, vol. 227, núm. 1, July.
STORK, D.G (Ed.) (1997) HAL’s Legacy: 2001’s Computer as Dream and Reality, Cambridge, M.I.T. Press.
VACA, Jorge. (1986) "Sobre el proceso y el aprendizaje de la lectura: un punto de vista psicolingüístico", Colección Pedagógica Universitaria 13, enero-junio, pp. 35-70.
VACA, Jorge (1997) El niño y la escritura, Xalapa, Universidad Veracruzana (Colecc. Textos Universitarios).

Jorge Enrique Vaca Uribe

Regresar