martes, 25 de mayo de 2010

REDES NEURONALES (Continuación)

La polémica suscitada entre científicos favorables y contrarios al conexionismo fue
aumentando en la segunda mitad de los 50 conforme el trabajo de Rosenblatt fue
adquiriendo notoriedad. Rosenblatt, un psicólogo de la Universidad de Cornell (Ithaca,
Nueva York), fue la figura central del conexionismo de los años cincuenta y sesenta. El
Perceptrón, una máquina conexionista diseñada y estudiada teóricamente por
Rosenblatt, construida por un grupo de ingenieros del Laboratorio de Aeronáutica de
Cornell (CAL, Ithaca, Nueva York) y financiada por la Oficina de Investigación Naval
del Ejército de los Estados Unidos (ONR, Office of Naval Research), fue una de las
contribuciones científicas y tecnológicas más importantes de la primera fase del
conexionismo.
Otra importante contribución científica es la aportada por Widrow y Hoff en 1960.
Estos autores propusieron un nuevo tipo de unidad de procesamiento, con estructura
similar a la del Perceptrón pero con un mecanismo de aprendizaje diferente que permitía
también la entrada de información de tipo continuo: la neurona ADALINE (ADAptative
LINear Elements) (Widrow y Hoff, 1960). La innovación de esta tipología de neurona
se halla en su mecanismo de aprendizaje denominado regla delta o regla de Widrow-
Hoff, que introduce el concepto de reducción del gradiente del error. La deducción de la
regla delta se puede expresar de la siguiente forma: teniendo en cuenta que (el error
que comete la red para un determinado patrón p), es función de todos los pesos de la
red, el gradiente de es un vector igual a la derivada parcial de respecto a cada
uno de los pesos. El gradiente toma la dirección del incremento más rápido en ; la
dirección opuesta toma el decremento más rápido en el error. Por tanto, el error puede
reducirse iterativamente ajustando cada peso en la dirección
Como veremos más adelante, la regla delta basada en la reducción del
gradiente del error es la precursora del algoritmo backpropagation aplicado a redes de
múltiples estratos.
Sin embargo, los primeros sistemas conexionistas tenían importantes limitaciones
técnicas. Una de las más importantes es que una neurona tipo Perceptrón solamente
permite discriminar entre dos clases linealmente separables, es decir, cuyas regiones de
decisión pueden ser separadas mediante una única recta o hiperplano (dependiendo del
número de entradas). Otra importante limitación era la carencia de técnicas para la
modificación de conexiones en sistemas de múltiples estratos. Este problema se puede
ilustrar con las conocidas funciones OR y OR-Exclusiva (XOR). En el caso de la
función OR, un Perceptrón de una sola capa de conexiones modificables permite
solucionar esta función debido a que el problema es linealmente separable (ver figura 3
izquierda). En cambio, en el caso de la función OR-Exclusiva, un Perceptrón de este
tipo no permite solucionar esta función debido a que no existe ninguna recta que separe
los patrones de una clase de los de la otra. Para ello es necesario que se introduzca una
capa intermedia compuesta por dos neuronas que determinen dos rectas en el plano (ver
figura 3 derecha).
Figura 3. Perceptrones solucionando la función OR y la función XOR.
Los primeros investigadores conexionistas eran conscientes de que la falta de un
algoritmo para la modificación de conexiones en sistemas de múltiples estratos limitaba
considerablemente la capacidad de clasificación de objetos de los sistemas
conexionistas, y de que un sistema de múltiples estratos era capaz de realizar cualquier
clasificación.
Estos investigadores se enfrentaban también a importantes problemas tecnológicos. Una
de las limitaciones más claras de los ordenadores conexionistas de este primer período
era su tamaño. El Perceptrón construido por los ingenieros colaboradores de Rosenblatt
en CAL, que tenía tan sólo 512 conexiones modificables, ocupaba todo un pabellón de
dicho centro. La razón de esto es que cada conexión era implantada utilizando un
potenciómetro con motor de considerable tamaño. Implantar un Perceptrón con decenas
de miles de conexiones modificables con esta tecnología era impracticable. Aunque los
investigadores conexionistas intentaron otras alternativas, la tecnología “neuronal”
estaba en claro declive que coincidía con el ocaso de los ordenadores analógicos y con
el despegue de la tecnología de computación digital secuencial de tipo Von Neumann.
Los avances en la tecnología Von Neumann benefició al paradigma de IA que desde un
principio se basó en dicha tecnología: el paradigma simbólico. Por otro lado, la falta de
afinidad entre el ordenador digital y el conexionismo, y la reducida potencia de los
ordenadores digitales de aquella época hicieron que apenas se considerara la posibilidad
de simular RNA en dichos ordenadores.
El declive del primer conexionismo sobrevino cuando Marvin Minsky y Seymour
Papert, dos investigadores líderes de la IA simbólica del prestigioso Instituto de
Tecnología de Massachusetts (MIT), publican en 1969 el libro Perceptrons (Minsky y
Papert, 1969) donde se realizaba una contundente crítica a los modelos de Perceptrón
propuestos por Rosenblatt. Las aportaciones principales del estudio de Minsky y Papert
pueden agruparse en dos bloques. Por un lado, Minsky y Papert realizaron un estudio,
muy elaborado desde un punto de vista matemático, de algunos de los problemas que
presentaban las redes de único estrato. En concreto demostraron que el Perceptrón de
una capa, actualmente denominado Perceptrón simple, era incapaz de diferenciar entre
entradas en distintas partes de la pantalla (triángulo a la derecha, triángulo a la
izquierda), ni entre figuras en distintas posiciones de rotación. Tampoco era capaz de
computar con efectividad funciones matemáticas como la paridad (dada una cantidad de
puntos activos en la retina, reconocer si es un número par o impar), la función

topológica de la conectividad (reconocer una figura como una totalidad separada del
fondo) y en general funciones no lineales como la mencionada función OR-Exclusiva.
Por otro lado, el segundo conjunto de resultados del estudio de Minsky y Papert es el
referido a las RNA de múltiples estratos. En este caso dedicaron mucho menos espacio
a este problema en su libro, concluyendo que “el estudio de las versiones de múltiples
estratos es estéril” (Minsky y Papert, 1969, p. 232) alegando que sería muy improbable
obtener una regla de aprendizaje aplicada a este tipo de arquitecturas.
Según Olazarán (1993), la polémica suscitada en torno a los primeros modelos de red
neuronal entre simbolismo y conexionismo hay que situarla en un contexto social, en el
que ambos grupos competían por erigirse como paradigma dominante en el campo de la
IA, y también por conseguir el apoyo económico de agencias militares como ONR y,
sobretodo, DARPA (Defense Advanced Research Projects Agency, la Agencia de
Proyectos de Investigación Avanzados del Ministerio de Defensa de los Estados
Unidos). Los investigadores de IA simbólica vieron al conexionismo como una
amenaza directa para sus intereses, y se opusieron a que las agencias militares apoyaran
económicamente proyectos de envergadura en RNA.
La polémica de los años setenta entre el simbolismo y el conexionismo terminó con la
aceptación por la gran mayoría de los científicos de la IA, del paradigma simbólico
como línea de investigación más viable. La credibilidad que la élite de IA simbólica
(Herbert Simon, Allen Newell, Marvin Minsky y John McCarthy) consiguió tanto
dentro de la comunidad científica (estos investigadores dominaron la disciplina) como
fuera de ella (apoyo económico de DARPA) es un indicativo de la posición favorable en
la que estos investigadores quedaron cuando la polémica sobre el Perceptrón se dio por
terminada. Ante la situación de crisis, algunos de los principales grupos de RNA
abandonaron su investigación. El grupo de Widrow comenzó a aplicar sus técnicas y
sistemas de RNA a la ingeniería de las telecomunicaciones, y el grupo de Rosen
comenzó un proyecto para la construcción de un robot móvil dentro del paradigma
simbólico de IA. Rosenblatt y algunos otros investigadores, en cambio, continuaron con
sus investigaciones en RNA. De hecho, la mayoría de los actuales líderes en el campo
de las RNA comenzaron a publicar sus trabajos durante la década de los 70. Este es el
caso de investigadores como James Anderson, Teuvo Kohonen, Christoph Von Der
Malsburg, Kunihiko Fukushima, Stephen Grossberg y Gail Carpenter que pasamos a
comentar brevemente.
26
Anderson desarrolló un asociador lineal de patrones que posteriormente perfeccionó en
el modelo BSB (Brain-State-in-a-Box) (Anderson, Silverstein, Ritz y Jones, 1977).
Simultáneamente, en Finlandia, Kohonen desarrolló un modelo similar al de Anderson
(Kohonen, 1977); años más tarde, crearía un modelo topográfico con aprendizaje
autoorganizado en el que las unidades se distribuyen según el tipo de entrada al que
responden (Kohonen, 1982). Este modelo topográfico, comúnmente denominado mapa
autoorganizado de Kohonen, es una de las redes neuronales más ampliamente utilizadas
en la actualidad.
En Alemania, Von Der Malsburg (1973) desarrolló un detallado modelo de la
emergencia en la corteza visual primaria de columnas de neuronas que responden a la
orientación de los objetos. En Japón, Fukushima desarrolló el Cognitrón (Fukushima,
1975), un modelo de red neuronal autoorganizada para el reconocimiento de patrones
visuales. Posteriormente, presentó la red Neocognitrón (Fukushima, 1980, 1988;
Fukushima, Miyake e Ito, 1983) que permitía superar las limitaciones del primitivo
Cognitrón.
Por su parte, Grossberg ha sido uno de los autores más prolíficos en este campo.
Klimasauskas (1989) lista 146 publicaciones en las que interviene Grossberg entre 1967
y 1988. Estudió los mecanismos de la percepción y la memoria. Grossberg realizó en
1967 una red, Avalancha, que consistía en elementos discretos con actividad que varía
con el tiempo que satisface ecuaciones diferenciales continuas, para resolver actividades
tales como reconocimiento continuo del habla y aprendizaje del movimiento de los
brazos de un robot (Grossberg, 1982). Sin embargo, la contribución más importante de
Grossberg es la Teoría de Resonancia Adaptativa (ART), desarrollada en colaboración
con Carpenter (Carpenter y Grossberg, 1985, 1987a, 1987b, 1990). La ART se aplica a
modelos con aprendizaje competitivo (denominados ART para la versión no
supervisada y ARTMAP para la versión supervisada) en los cuales cuando se presenta
cierta información de entrada sólo una de las neuronas de salida de la red se activa
alcanzando su valor de respuesta máximo después de competir con las demás neuronas.
En la década de los años 80 coincidieron una serie de acontecimientos que jugaron un
papel relevante en la reemergencia del conexionismo. En esos momentos, la IA
simbólica se encontraba en una fase de comercialización tras el anuncio del Programa
de la Quinta Generación de Ordenadores por parte del gobierno japonés y el desarrollo
de los sistemas expertos. No obstante, a pesar del éxito de estos sistemas en ciertas áreas
de aplicación, un número creciente de investigadores comenzaba a ser consciente de las
limitaciones de los sistemas simbólicos ante ciertas tareas --denominadas del mundo
real--, como el reconocimiento de objetos, el reconocimiento de lenguaje hablado y el
razonamiento de sentido común. Conforme avanzaba la década de los ochenta, estas
limitaciones condujeron a investigadores procedentes de diversas áreas a realizar
aportaciones alternativas a las propuestas por la IA simbólica.
En este sentido, uno de los casos más paradigmáticos es el del físico John Hopfield,
considerado como uno de los impulsores más importantes del nuevo conexionismo.
Hopfield publicó en 1982 un importante artículo en la Academia Nacional de las
Ciencias (Hopfield, 1982). Este escrito claro y conciso tuvo un importante impacto en el
campo por varias razones. En primer lugar, Hopfield era un conocido físico con
conexiones institucionales importantes. Su interés y trabajo en redes neuronales
legitimó el campo para la comunidad científica. En segundo lugar, impulsó la
implementación de los modelos de red mediante dispositivos electrónicos utilizando
tecnología VLSI (Muy Alta Escala de Integración). En tercer lugar, Hopfield sugirió
una estrecha relación entre los sistemas físicos y las redes neuronales. El concepto clave
de las redes propuestas por Hopfield es que considera la fase de ajuste de las conexiones
como una búsqueda de valores mínimos en unos paisajes de energía. Según esta idea,
cada combinación de pesos de las conexiones de la red tiene asociada una energía, que
resulta de evaluar las restricciones determinadas por los datos de entrada y el resultado
producido por la red. El intercambio de información entre unidades se mantiene hasta
que la entrada y la salida de cada unidad sean iguales, es decir, en términos de Hopfield
se ha llegado a un estado de equilibrio energético. A diferencia de las redes Perceptrón
y ADALINE, las redes utilizadas por Hopfield poseen una arquitectura monocapa cuyas
conexiones son modificadas a partir de un algoritmo de aprendizaje basado en la regla
de Hebb. Las redes de Hopfield han sido empleadas como memorias autoasociativas,
principalmente para el reconocimiento de patrones.
El modelo de Hopfield fue posteriormente desarrollado por Hinton y Sejnowski, dos de
los más importantes miembros del grupo de investigación PDP (Parallel Distributed
Processing) (Universidad de San Diego, California), en su sistema denominado
“máquina de Boltzmann” (Ackley, Hinton y Sejnowski, 1985). El algoritmo para la
modificación de conexiones del sistema de múltiples estratos de Hinton y Sejnowski fue
28
una de las aportaciones más importantes de la primera fase de la reemergencia del
conexionismo de los 80. Era la primera vez que un algoritmo de este tipo encontraba
una aceptación considerable en la comunidad científica.
Sin embargo, la contribución más importante en la reemergencia del conexionismo en
los años ochenta fue la técnica backpropagation desarrollada por Rumelhart, Hinton y
Williams, representantes del grupo PDP. Realmente, esta técnica fue desarrollada
inicialmente por Paul Werbos (1974) a mediados de los 70, y después
independientemente redescubierta por varios grupos de investigadores (Le Cun, 1985;
Parker, 1985; Rumelhart, Hinton y Williams, 1986). Es, por tanto, un caso de
“descubrimiento múltiple”. Sin embargo, en general se reconoce que fue la versión del
grupo PDP la que desató el interés en RNA a mediados de los ochenta y consiguió
finalmente forzar la revisión del consenso contrario al conexionismo.
El algoritmo backpropagation también recibe el nombre de regla delta generalizada o
método de gradiente decreciente, debido a que supone una extensión de la regla
propuesta por Widrow y Hoff en 1960 (regla delta) a redes con capas intermedias (ver
figura 4). Este tipo de arquitectura recibe el nombre genérico de Perceptrón Multicapa o
MLP (Multilayer Perceptron). Rosenblatt ya tuvo la idea de utilizar una técnica de este
tipo a principios de los sesenta (Rosenblatt, 1962), aunque no pudo desarrollarla de un
modo satisfactorio.
Como se comentó anteriormente, la falta de un algoritmo para la modificación de
conexiones en sistemas de múltiples estratos limitaba considerablemente la capacidad
de clasificación de objetos en los sistemas conexionistas de los años 60. En este sentido,
el problema principal de la modificación de los valores de las conexiones en una red
MLP es hallar el error cometido por las unidades de las capas intermedias. El error
cometido por las unidades de salida es inmediatamente visible: es la diferencia entre la
salida producida por dichas unidades y la salida que se desea que produzcan. El objetivo
del algoritmo backpropagation es propagar los errores cometidos por las unidades de
salida hacia atrás, ya que, en un sistema de este tipo, el error cometido por una unidad
intermedia depende del error cometido por las unidades de salida a las que dicha unidad
intermedia está conectada. Tras conocerse el error cometido por las unidades
intermedias, pueden entonces modificarse las conexiones entre unidades de entrada y
unidades intermedias. De forma similar a la regla delta, la base matemática del
algoritmo backpropagation es la técnica de gradiente decreciente, basada en modificar
los pesos en la dirección opuesta al gradiente, esto es
Una novedad muy importante en el sistema de Rumelhart y sus colegas fue la
introducción de funciones de activación continuas en todas las unidades de
procesamiento en lugar de la clásica función “escalón” del Perceptrón simple de
Rosenblatt. De hecho, el algoritmo backpropagation exige la utilización de funciones de
activación continuas para poder realizar el cálculo de la derivada parcial del error con
respecto a los pesos del modelo.
El proceso de acumulación de resultados e investigaciones y de esfuerzo organizacional
por parte del grupo PDP, comenzó a hacer peligrar el consenso anticonexionista con el
que terminó la polémica del Perceptrón. Los dos volúmenes PDP, considerados como la
“biblia” del conexionismo, son el mayor exponente de este esfuerzo (Rumelhart,
McClelland y el grupo de investigación PDP, 1986; McClelland, Rumelhart y el grupo
de investigación PDP, 1986). El debate sobre el conexionismo se estaba reabriendo, y
ésto hizo reaccionar de nuevo a los investigadores críticos con el conexionismo. La
reacción fue encabezada, una vez más, por Minsky y Papert que, en el epílogo a la
nueva edición de su libro Perceptrons (Minsky y Papert, 1988), criticaron
contundentemente las afirmaciones de Rumelhart y sus colegas acerca de los sistemas

de múltiples estratos con el algoritmo backpropagation. Minsky y Papert no fueron los
únicos en criticar al nuevo conexionismo con vehemencia. Otros científicos líderes en
sus áreas de investigación, tales como Poggio (visión), Hillis (ordenadores paralelos) y
Fodor y Pylyshyn (ciencia cognitiva), también realizaron críticas radicales al
conexionismo (Olazarán, 1991). Sin embargo, esta vez la polémica no acabó con el
abandono del conexionismo como ocurriera en la década de los 60.
En el artículo de Horgan (1994) se trata la persona de Marvin Minsky, comentándose
algunas de sus opiniones actuales, como, por ejemplo, cómo poco a poco se ha ido
apartando de la IA simbólica y su aprobación al actual desarrollo de las RNA.
Gracias al esfuerzo de movilización y acumulación científica y organizacional que el
grupo de investigación PDP realizó a lo largo de la década de los ochenta, el
conexionismo ha logrado en la actualidad diferenciarse como una especialidad científica
aceptada, dentro del marco general de la IA. Este proceso ha culminado con el
surgimiento, crecimiento e institucionalización de una comunidad científica
diferenciada con su correspondiente sistema de comunicación y control especializado
(publicaciones científicas, congresos, cursos de postgrado, institutos de investigación,
programas y becas en las agencias que financian la investigación científica, etc.).

No hay comentarios:

Publicar un comentario