universidad francisco de paula santander ocaña

martes, 25 de mayo de 2010

UTILIZACION DE MODELOS NEURONALES EN AREAS DE INFORMACION FINANCIERA.

En noviembre de 1993, por iniciativa de la London Business School, se celebró en Londres la primera reunión internacional sobre aplicaciones de redes neuronales al tratamiento de la información financiera (First International Workshop on Neural Networks in the Capital Markets). Recientemente en congresos internacionales de áreas empresariales comienzan de forma esporádica a surgir aplicaciones desarrolladas con estos modelos. Son todavía muy pocos los artículos que se encuentran publicados en revistas internacionales, aunque Financial Analysts Journal o The Journal of Banking and Finance, están empezando a recoger artículos sobre aplicaciones de redes neuronales, alguno de ellos firmado por investigadores tan renombrados como E.I. Altman, véase Altman, Marco y Varetto (1994).

Los principales trabajos desarrollados con información financiera se agrupan en dos temas: análisis del fracaso empresarial y predicción en los mercados financieros. Ambos tipos de trabajos responden a dos de las principales tareas en las que se están aplicando las redes neuronales: clasificación y predicción, que como hemos visto anteriormente, son un caso particular de los problemas de generalización.

En la mayoría de estos trabajos se obtienen resultados excelentes con las redes neuronales. Pero hay que ser prudentes. Muchos de los trabajos descritos no comparan las redes neuronales con modelos estadísticos o sistemas expertos. Cuando lo hacen, en ocasiones no hay muestra y test, y al utilizar perceptrón multicapa, dada la excelente capacidad para representar todo tipo de funciones de este modelo, se obtienen resultados extraordinarios, sin que haya garantías de que al realizar un test los resultados fueran igualmente buenos.

Incluso cuando se posee muestra y test es posible que la selección del modelo estadístico no sea la más apropiada, ya que muchos modelos estadísticos parten de hipótesis y no son idóneos para todos los tipos de trabajo. No hay garantías de que se esté utilizando el mejor de los modelos estadísticos, como tampoco las hay de que se esté seleccionando la configuración de la red neuronal más apropiada en cuanto a número de neuronas en la capa oculta, funciones de transferencia, etc. Finalmente, tampoco hay garantías de que sólo se estén publicando los éxitos con redes neuronales y no los fracasos.

En Hawley, Johnson y Raina (1990), Medsker, Turban y Trippi (1992), Back y Sere (1993) y Cheng y Pike (1994) se describen las áreas de trabajo potenciales en Contabilidad y se hacen revisiones empíricas de los principales trabajos, clasificándose según diferentes criterios. Los libros "Neural Networks in Finance and Investing" de Trippi y Turban (1992) y "Neural Networks in the Capital Markets" de Refenes (1995) recogen una amplia selección de trabajos, algunos ya publicados con anterioridad en revistas o presentados en congresos y otros reimpresos.

En la revisión empírica que hacemos a continuación, hemos seleccionado aquellos trabajos que desde nuestro punto de vista tienen más interés, bien por su carácter de pioneros, bien por comparar con gran número de técnicas o por su calidad.

a) Estudios de Clasificación.

En los problemas de clasificación se trata de asignar a cada caso su clase correspondiente, a partir de un conjunto de ejemplos: abarca problemas como el estudio del fracaso empresarial, la concesión de préstamos, la calificación de obligaciones, etc.

* El fracaso empresarial.

Los estudios de predicción de crisis empresariales son ya clásicos en la investigación empírica. En general se trata de seleccionar un conjunto de variables, generalmente ratios financieros y utilizar un modelo matemático que discrimine o detecte los rasgos que caracterizan a las empresas que tienen éxito de las que fracasan. Son muchos los modelos estadísticos propuestos y dadas las propiedades de los sistemas neuronales de actuar como clasificadores de información y reconocimiento de patrones, tempranamente se aplicaron a esta importante materia de investigación.

El trabajo de Bell, Ribar y Verchio (1990) es un estudio pionero en la aplicación de redes neuronales al fracaso empresarial. En este trabajo se compara el perceptrón multicapa con el análisis lógit, tomando una amplia muestra de mil ocho bancos, de los que ciento dos eran quebrados. Otra muestra de mil cincuenta y nueve bancos sirve para el test, siendo ciento treinta y uno los bancos quebrados. Los resultados son muy similares, con una pequeña ventaja a favor del neuronal en la clasificación de empresas que se encuentran en la zona de indeterminación.

Odom y Sharda (1992) realizan otro estudio sobre predicción de quiebras concretamente analizando cinco ratios de ciento veintinueve empresas estadounidenses, extrayendo la información del Moody's Industrial Manual correspondiente a 1975-1982. Rahimian, Singh, Thammachote y Virmani (1992) también aplican diferentes modelos neuronales a estos mismos datos. En ambos estudios se comparan los resultados obtenidos con análisis discriminante, perceptrón simple, perceptrón multicapa y la red neuronal athena. Athena es un modelo neuronal descrito en Koutsougeras y Papachristou (1988), que utiliza entrenamiento supervisado y se basa en una medida de entropía. Los resultados son favorables a los modelos neuronales frente al análisis discriminante.

La principal novedad del trabajo de De Miguel, Revilla, Rodríguez y Cano (1993) es que aplican una red neuronal compleja, la Fuzzy ARTMAP, modelo de red neuronal supervisada que consta de dos módulos ART con aprendizaje no supervisado, descrita en Carpenter, Grossberg, Marzukon, Reynolds y Rossen (1992). Comparan esta red con cuatro modelos estadísticos para predecir el fracaso empresarial, aplicándolos a la bien conocida crisis del sector bancario español de los años ochenta. Toman los datos del trabajo previo de uno de los autores, Rodríguez (1989), que utilizaba análisis lógit. Los resultados son favorables al modelo neuronal.

Altman, Marco y Varetto (1994) aplican análisis discriminante, lógit y perceptrón multicapa en una aplicación real para la Centrale dei Bilanci italiana. Los resultados no son concluyentes, ya que encuentran que las ventajas e inconvenientes de este modelo neuronal frente a los estadísticos se encuentran equilibradas e invitan a la realización de nuevos estudios empíricos.

Martín y Serrano (1994 y 1995) proponen un modelo híbrido que combina el modelo neuronal de mapas autoorganizados de Kohonen con otros modelos estadísticos y neuronales que obtienen una puntuación o Z score. Una vez creado el mapa autoorganizado se superpone la puntuación obtenida por la empresa, según el análisis discriminante o el perceptrón multicapa. El modelo, más allá del tradicional análisis Z, proporciona información sobre las características financieras más destacadas de la empresa analizada así como el tipo de empresa a la que se asemeja.

* Evaluación del comportamiento de las acciones en el mercado de valores.

En este tipo de estudios también se utilizan como variables los ratios financieros y se trata de evaluar a las empresas. Sin embargo la clasificación no es la anterior en empresas quebradas y solventes, sino que es el mercado de valores quien proporciona la variable independiente, teniendo en cuenta el comportamiento positivo o negativo de las rentabilidades obtenidas por las acciones.

Yoon y Swales (1991) y Yoon, Swales y Margavio (1993) tratan de discriminar a las empresas en dos grupos, según sus acciones hayan tenido o no un buen comportamiento en los mercados financieros. Los datos incluyen información contable cuantitativa y cualitativa, pues examinan la carta que el presidente de la compañía envía a los accionistas. Comparan los resultados del análisis discriminante con los del perceptrón multicapa. El perceptrón sin capa oculta obtenía un 65% de acierto, resultado similar al del análisis discriminante. Al añadir una capa oculta, mejoran los resultados situándose al 76%. El añadir otra capa oculta no mejora significativamente la eficacia del modelo.

Aaltonen y Östermark (1993) comparan los tres modelos estadísticos más utilizados en la predicción del fracaso empresarial: análisis discriminante, lógit y particiones recursivas con el perceptrón multicapa. En este estudio la variable dependiente, es decir el calificar a la empresa positiva o negativamente, se deriva de los mercados financieros, según el valor estimado de la beta. La beta de un valor es una medida del riesgo sistemático, es decir atribuible al movimiento del mercado en su conjunto y se calcula mediante regresiones que relacionan los movimientos del título con los del índice general de precios del mercado. Las empresas son agrupadas a priori como de alto o bajo riesgo dependiendo de si el valor de su beta está por encima o por debajo de la media de la beta calculada para todas las empresas y todos los años. En los resultados se produce un empate, ya que todos los modelos fallan en el test en las mismas tres observaciones.

* Concesión de préstamos

Metodológicamente son muy similares los trabajos de concesión de préstamos a los de predicción de la quiebra. El conceder o no un préstamo es también una decisión no estructurada y la diferencia radica en que la información disponible no se extrae de bases de datos comerciales o de los registros sino que es información que suministra el propio banco o entidad financiera que encarga el estudio. En este caso la información no se compone exclusivamente de ratios financieros, sino que también hay otro tipo de datos, como por ejemplo quién es el director de la compañía, si es un cliente nuevo, etc.

Marose (1990) describe una aplicación híbrida del Chase Manhattan Bank para la concesión de préstamos. Es un sistema mixto que incorpora herramientas estadísticas y un perceptrón multicapa. El Chase Manhattan Bank concede préstamos nuevos cada año por valor de trescientos millones de dólares e hizo una apuesta muy fuerte en el desarrollo de un modelo informatizado basado en el reconocimiento de patrones para las decisiones de concesión de préstamos. El programa se encuentra en un ordenador central al que los usuarios pueden acceder desde ordenadores compatibles, vía modem. Lógicamente algunos procedimientos se encuentran patentados por lo que es difícil conocer todos los módulos que integran el sistema. PCLM, que son las siglas de Public Company Loan Model proporciona extensos informes, gráficos, puntos fuertes y débiles de la compañía, así como una clasificación de las empresas en buenas, malas y críticas.

Un trabajo más modesto, pero que muestra que con programas comerciales también se pueden desarrollar aplicaciones híbridas complejas, es el de Barker (1990), que desarrolla en su artículo una red experta para la concesión de préstamos. Su modelo incorpora una concha de sistema experto, Knowledge Pro, un simulador de red neuronal, NeuroShell y el gestor de bases de datos dBase III+. Los tres programas comparten ficheros, de forma que al introducir los datos de la empresa el sistema experto analiza los ratios financieros y la red neuronal realiza los correspondientes cálculos.

Deng (1993) propone un modelo mixto que integra un módulo de sistema experto que extrae de forma automática las reglas a partir de una base de datos y un perceptrón multicapa que interacciona con el anterior. Las variables de que parte son cuantitativas y cualitativas: algunas se extraen del balance y cuenta de resultados y el resto informan de la gerencia y las relaciones pasadas del cliente con el banco. Finalmente agrupa las empresas en tres categorías: bajo riesgo, moderado y alto. Los resultados son buenos pero no los compara con los obtenidos por otros modelos.

* Calificación de obligaciones

La calificación de obligaciones, bonos municipales, etc, es también un problema de clasificación. Las empresas e instituciones públicas emiten instrumentos financieros como bonos u obligaciones en busca de dinero para financiar sus inversiones. Pero, lógicamente, hay un riesgo de que las empresas no devuelvan este dinero y resulta interesante obtener ratings o calificaciones de estos bonos. Existen agencias que se dedican a ello, siendo las más famosas Standard and Poor's (S&P) y Moody's. Estas agencias examinan todo tipo de aspectos de las empresas: la situación financiera, la información contable, mantienen entrevistas con la gerencia, etc, y califican las emisiones con unos baremos, usualmente combinaciones de letras y números. Por ejemplo, Aaa, significa en la terminología de la agencia Moody's, que la capacidad para devolver el principal y pagar los intereses es muy elevada. Para una descripción detallada de las agencias de calificación véase por ejemplo Charlton y Prescott (1993). A pesar de que, como es sabido, las agencias se sirven de información cuantitativa y cualitativa para emitir sus valoraciones, la investigación académica ha tratado de averiguar si exclusivamente con información publicada se pueden obtener buenas aproximaciones de las calificaciones que otorgan las agencias. Horrigan (1966) utiliza seis ratios financieros y clasifica correctamente el 58% de los casos.

Uno de los trabajos pioneros en la calificación de obligaciones con redes neuronales es el de Dutta y Shekhar (1988) y Dutta, Shekhar y Wong (1994), quienes aplican perceptrón multicapa y regresión lineal, comparando los resultados con los obtenidos por la agencia Standard & Poors. Utilizan información de cuarenta y siete compañías, reservando diecisiete para el test. Los resultados son claramente favorables al modelo neuronal, ya que en el test, clasifican correctamente hasta un 88,3% de los bonos, frente a un 64,7% de la regresión lineal. Su estudio muestra las limitaciones de los modelos lineales en este tipo de trabajo. Utans y Moody (1991) hacen un trabajo similar al de Dutta y Shekhar sobre calificación de obligaciones.

Surkan y Singleton (1990) estudian también la calificación de obligaciones con perceptrón multicapa. La información está tomada de un estudio previo que aplica análisis discriminante a los bonos de dieciocho compañías telefónicas estadounidenses. En total son ciento veintiséis los casos y siete las variables, todas ellas extraidas de los estados financieros de las empresas. La agencia que elabora sus ratings es Moody's. En este trabajo estudian el efecto de introducir nuevas capas ocultas en el modelo, probando diferentes configuraciones. Aunque los mejores resultados los obtienen con un modelo con veinte neuronas en la capa oculta, el modelo que tenía sólo cinco obtiene resultados muy similares, con lo que los autores concluyen en que el problema tiene una dimensionalidad interna de cinco o inferior. De la comparación con el análisis discriminante los resultados son muy superiores en la red neuronal, ya que en la red se obtienen clasificaciones correctas que varían entre el 45 y el 90%, mientras que en discriminante el rango de acierto fluctúa entre el 38 y 47%.

* Otras trabajos de clasificación.

Una aplicación relacionada con la auditoría es la de Hansen, Mc Donald y Stice (1992). El objetivo del estudio es tratar de predecir la opinión del auditor. Emplean doce variables que en anteriores estudios como el de Mutchler (1985) se habían revelado útiles para ese fin. Su estudio compara el perceptrón multicapa con el algoritmo de ramificación ID3 y análisis lógit. El modelo neuronal y el lógit obtienen resultados muy similares, incluso mejores en el lógit. Otra aplicación relacionada con la auditoría es la de Coakley y Brown (1993), quienes aplican el perceptrón multicapa en el procedimiento analítico del trabajo del auditor, en sustitución de otros modelos estadísticos.

Otro tipo de trabajos estudian la discrecionalidad de la gerencia para la toma de decisiones. Concretamente, el trabajo de Liang, Chandler, Han y Roan (1992) encuadrado en los trabajos de elección contable estudia el método elgido para contabilizar las existencias: FIFO o LIFO. Hay varias teorías que tratan de justificar el que una empresa elija uno u otro método, descritas en Lee y Hsieh (1985). Entre otras, el ahorro de impuestos, el impacto sobre los mercados de capitales, el presentar mayores o menores beneficios, jugando con el margen que ofrece la flexibilidad de las normas contables. Como problema típico de clasificación, ha sido abordado con numerosos modelos multivariantes. En el trabajo citado se utiliza perceptrón multicapa, comparando los resultados con ID3 y próbit. El modelo neuronal clasifica mejor los datos, sobretodo al introducir variables nominales, como el sector al que pertenece la empresa.

b) Estudios de Predicción.

La predicción ha sido una de las aplicaciones que más pronto despertaron el interés de los estudiosos de las redes neuronales. En este tema los resultados no son concluyentes por dos razones: cuando las predicciones las hacen científicos que provienen del campo de las redes neuronales descuidan muchos aspectos estadísticos y viceversa. Además, bajo el epígrafe predicción se engloban estudios muy diferentes: no todas las curvas son iguales en cuanto a forma y tamaño, presencia o no de efectos estacionales, de no linealidad, predicción a corto o largo plazo, etc. Chatfield (1994) comenta que las redes neuronales se están comportando bien en predicción a largo plazo con componentes no lineales, en cambio, no están claras las mejorías observadas en series cortas y estacionales, como son típicas en las predicciones de ventas. Lo cierto es que este autor, como la mayoría, recomienda no hacer caso de las exageraciones e invita a realizar trabajos serios que indiquen en qué tipos de estudios y bajo qué condiciones las redes neuronales son más apropiadas.

* Análisis Técnico.

El análisis técnico pretende predecir las cotizaciones a partir de la evolución histórica de precios y volúmenes de negociación. El primer artículo sobre redes neuronales que manejan información financiera fue realizado por White (1988), quien estudió la predicción de los precios de las acciones con un modelo de red neuronal. El modelo predecía mejor que el modelo de series temporales que utilizaba, un modelo lineal autorregresivo. El perceptrón multicapa es utilizado como análisis técnico, sin incluir variables fundamentales.

Posteriormente la predicción de la cotización de las acciones, del tipo de cambio y de otras variables económicas ha sido uno de los temas más atractivos para los investigadores, pudiendo referenciar gran cantidad de trabajos. Así, Kimoto, Asakawa, Yoda y Takeoka (1990), Kamijo y Tanigawa (1990), Ormerod y Walker (1990), Varfis y Versino (1990), Bergerson y Wunsch (1991), Sharda y Patil (1992), Refenes (1992), Hoptroff (1993) y un largo etcétera.

* Análisis Fundamental.

El análisis fundamental trata de valorar los factores económicos más importantes del entorno y contempla la evolución económico-financiera de las empresas. Wong, Wang, Goh y Quek (1992) diseñan una red neuronal borrosa que combina diferentes herramientas de Inteligencia Artificial para obtener una cartera óptima de acciones. Concretamente su modelo es una red neuronal fuzzy. Consta de tres módulos: el primero contiene treinta y dos reglas del tipo si-entonces proporcionadas por especialistas humanos, el segundo un procesador de reglas fuzzy y el tercero un perceptrón multicapa. El modelo utiliza información del mercado de valores, así como ratios financieros. En el artículo se realiza un test con ochocientas empresas, con el objetivo de predecir las rentabilidades de las acciones, obteniendo resultados satisfactorios.

Refenes, Azema-Barac y Treleaven (1993) describen un modelo de construcción de carteras eficientes y colocación de activos en siete mercados financieros. Hay una serie de reglas establecidas que restringen las cantidades máximas a repartir en cada mercado. La red neuronal utiliza información de los mercados financieros, tipos de interés, precio del petróleo, del oro y una serie de parámetros que no dice el artículo por estar registrados. Los resultados, comparados con otras carteras son muy satisfactorios.

AREAS DE APLICACION DE LOS SISTEMAS.

Las redes neuronales tratan de resolver de forma eficiente problemas que pueden encuadrarse dentro de tres amplios grupos: optimización, reconocimiento y generalización. Estos tres tipos engloban un elevado número de situaciones, lo que hace que el campo de aplicación de las redes neuronales en la gestión empresarial sea muy amplio.

En los problemas de optimización, se trata de determinar una solución que sea óptima. Generalmente se aplican redes neuronales realimentadas, como el modelo de Hopfield citado. En la gestión empresarial, son decisiones de optimización encontrar los niveles de tesorería, de existencias, de producción, construcción de carteras óptimas, etc.

En los problemas de reconocimiento, se entrena una red neuronal con inputs como sonidos, números, letras y se procede a la fase de test presentando esos mismos patrones con ruido. Este es uno de los campos más fructíferos en el desarrollo de redes neuronales y casi todos los modelos: perceptrón, redes de Hopfield, mapas de Kohonen, etc, han sido aplicados con mayor o menor éxito.

En los problemas de generalización, la red neuronal se entrena con unos inputs y el test se realiza con otros casos diferentes. Problemas típicos de generalización son los de clasificación y predicción.

Las redes neuronales son modelos matemáticos especializados que pueden aplicarse en dominios muy concretos. Las redes neuronales están mostrando su utilidad en muchos problemas reales. Los estudios empíricos muestran la eficiencia de las redes neuronales con datos basados en lógica difusa, patrones o rasgos ocultos para la mayoría de las técnicas incluida la capacidad humana, datos que exhiben no linealidad e información en la que se ha detectado caos, Masters (1993, pag 7).

La elección entre los diferentes sistemas de ayuda a la toma de decisiones depende del tipo de tarea a realizar, véase Laudon y Laudon (1988, pag 132). También el nivel al que se toman las decisiones afecta la elección del tipo de sistema más apropiado. Simon (1960) clasificó las decisiones en estructuradas y no estructuradas: las decisiones estructuradas son repetitivas, rutinarias y existe un procedimiento definido para abordarlas, por el contrario, en las decisiones no estructuradas el decisor debe proporcionar juicios y aportar su propia evaluación.

Más recientemente Gorry y Scott-Morton (1971) han propuesto un esquema que relaciona el tipo de decisión (estructurada, semiestructurada y no estructurada) y el nivel organizacional (control operativo, de gestión y estratégico) con la herramienta a utilizar. Lógicamente en el nivel operativo dominan las decisiones estructuradas, en el nivel de gestión las semiestructuradas y en el estratégico las no estructuradas, formando una diagonal. En la figura siguiente hemos actualizado este esquema incorporando las últimas tecnologías de la información, e incluso anticipando lo que puede ser un futuro próximo.

Fig 2. Las herramientas a utilizar según el tipo de decisión y el nivel organizativo.

(Elaboración propia a partir de Gorry y Scott-Morton (1971))

Se puede apreciar sobre la fig. 2 que en el nivel operativo y toma de decisiones estructurada dominan los sistemas informatizados convencionales como los programas de contabilidad financiera y de costes, los de elaboración de nóminas, y en general aquellas tareas mecánicas. Son los llamados Sistemas de Proceso de Transacciones (TPS) basados en programación algorítmica convencional.

El nivel operativo con decisiones semiestructuradas todavía está dominado por los programas convencionales, en lo que habría que incluir programas de control de tesorería, control de existencias y también las hojas de cálculo y sistemas gestores de bases de datos. Conforme las decisiones son menos estructuradas, empiezan a ser aplicables sistemas expertos y sistemas de ayuda a la toma de decisiones. Así, para la gestión financiera más básica, en la que además de realizar cálculos mecánicos: tipos de interés efectivo, cuotas de amortización de préstamos, etc, también hay que tomar decisiones que manejan información incompleta o precisan incorporar el conocimiento de un especialista humano. Finalmente, para el nivel de toma de decisiones menos estructuradas pueden incorporarse modelos neuronales: por ejemplo, asesorando en la concesión de las tarjetas de crédito de unos grandes almacenes o a qué clientes se les envía catálogos por correo.

Conforme el nivel organizativo avanza en el eje de las abcisas, las decisiones se hacen más complejas. Si las decisiones son estructuradas, como en el análisis de presupuestos y control, contabilidad analítica, análisis contable, etc, dominan los programas convencionales, quizá incorporando algún módulo experto. Este tipo de programas se denominan Sistemas de Gestión de Información o Management Information Systems (MIS). A medida que las decisiones son menos estructuradas se hacen más necesarios los sistemas expertos. En temas puntuales como la elaboración de presupuestos, la predicción de variables financieras como el beneficio, el cash-flow, podrían incorporarse modelos neuronales.

En el nivel estratégico son barridos los programas convencionales manteniéndose únicamente las hojas de cálculo, por su capacidad de simulación. Los llamados Executive Information Systems (EIS), o Sistemas Informativos para Ejecutivos dominan las decisiones menos estructuradas, con tareas como la planificación estratégica y de contabilidad directiva. Westland (1992) ha propuesto un modelo de red neuronal autoorganizada en estos sistemas informativos, que filtra la información relevante para cada ejecutivo ya que la sobrecarga informativa es uno de los principales problemas de estos sistemas al estar basados en correo electrónico. Finalmente, determinados modelos de redes neuronales podrían aplicarse en problemas de optimización.

En este esquema descrito, hemos situado el análisis de la información financiera en las decisiones semiestructuradas, en las que no hay una teoría general que pueda ser aplicada paso a paso, pero tampoco el análisis contable encaja en las decisiones completamente intuitivas o no estructuradas.

Los sistemas neuronales presentan ciertos inconvenientes. Uno importante es que habitualmente realizan un complejo procesamiento que supone millones de operaciones, por lo que no es posible seguir paso a paso el razonamiento que les ha llevado a extraer sus conclusiones. Sin embargo, en redes pequeñas, mediante simulación o por el estudio de los pesos sinápticos sí es posible saber, al menos, qué variables de las introducidas han sido relevantes para tomar la decisión. Falta todavía mucho por estudiar en el modo de operación de las redes neuronales.

Otro problema es que al ser una herramienta novedosa y en pleno desarrollo, no se trata de una disciplina con un cuerpo formal, coherente y establecido, por lo que el investigador se encuentra con muchos problemas a los que todavía no se ha encontrado solución

REDES NEURONALES (Continuación)

La polémica suscitada entre científicos favorables y contrarios al conexionismo fue
aumentando en la segunda mitad de los 50 conforme el trabajo de Rosenblatt fue
adquiriendo notoriedad. Rosenblatt, un psicólogo de la Universidad de Cornell (Ithaca,
Nueva York), fue la figura central del conexionismo de los años cincuenta y sesenta. El
Perceptrón, una máquina conexionista diseñada y estudiada teóricamente por
Rosenblatt, construida por un grupo de ingenieros del Laboratorio de Aeronáutica de
Cornell (CAL, Ithaca, Nueva York) y financiada por la Oficina de Investigación Naval
del Ejército de los Estados Unidos (ONR, Office of Naval Research), fue una de las
contribuciones científicas y tecnológicas más importantes de la primera fase del
conexionismo.
Otra importante contribución científica es la aportada por Widrow y Hoff en 1960.
Estos autores propusieron un nuevo tipo de unidad de procesamiento, con estructura
similar a la del Perceptrón pero con un mecanismo de aprendizaje diferente que permitía
también la entrada de información de tipo continuo: la neurona ADALINE (ADAptative
LINear Elements) (Widrow y Hoff, 1960). La innovación de esta tipología de neurona
se halla en su mecanismo de aprendizaje denominado regla delta o regla de Widrow-
Hoff, que introduce el concepto de reducción del gradiente del error. La deducción de la
regla delta se puede expresar de la siguiente forma: teniendo en cuenta que (el error
que comete la red para un determinado patrón p), es función de todos los pesos de la
red, el gradiente de es un vector igual a la derivada parcial de respecto a cada
uno de los pesos. El gradiente toma la dirección del incremento más rápido en ; la
dirección opuesta toma el decremento más rápido en el error. Por tanto, el error puede
reducirse iterativamente ajustando cada peso en la dirección
Como veremos más adelante, la regla delta basada en la reducción del
gradiente del error es la precursora del algoritmo backpropagation aplicado a redes de
múltiples estratos.
Sin embargo, los primeros sistemas conexionistas tenían importantes limitaciones
técnicas. Una de las más importantes es que una neurona tipo Perceptrón solamente
permite discriminar entre dos clases linealmente separables, es decir, cuyas regiones de
decisión pueden ser separadas mediante una única recta o hiperplano (dependiendo del
número de entradas). Otra importante limitación era la carencia de técnicas para la
modificación de conexiones en sistemas de múltiples estratos. Este problema se puede
ilustrar con las conocidas funciones OR y OR-Exclusiva (XOR). En el caso de la
función OR, un Perceptrón de una sola capa de conexiones modificables permite
solucionar esta función debido a que el problema es linealmente separable (ver figura 3
izquierda). En cambio, en el caso de la función OR-Exclusiva, un Perceptrón de este
tipo no permite solucionar esta función debido a que no existe ninguna recta que separe
los patrones de una clase de los de la otra. Para ello es necesario que se introduzca una
capa intermedia compuesta por dos neuronas que determinen dos rectas en el plano (ver
figura 3 derecha).
Figura 3. Perceptrones solucionando la función OR y la función XOR.
Los primeros investigadores conexionistas eran conscientes de que la falta de un
algoritmo para la modificación de conexiones en sistemas de múltiples estratos limitaba
considerablemente la capacidad de clasificación de objetos de los sistemas
conexionistas, y de que un sistema de múltiples estratos era capaz de realizar cualquier
clasificación.
Estos investigadores se enfrentaban también a importantes problemas tecnológicos. Una
de las limitaciones más claras de los ordenadores conexionistas de este primer período
era su tamaño. El Perceptrón construido por los ingenieros colaboradores de Rosenblatt
en CAL, que tenía tan sólo 512 conexiones modificables, ocupaba todo un pabellón de
dicho centro. La razón de esto es que cada conexión era implantada utilizando un
potenciómetro con motor de considerable tamaño. Implantar un Perceptrón con decenas
de miles de conexiones modificables con esta tecnología era impracticable. Aunque los
investigadores conexionistas intentaron otras alternativas, la tecnología “neuronal”
estaba en claro declive que coincidía con el ocaso de los ordenadores analógicos y con
el despegue de la tecnología de computación digital secuencial de tipo Von Neumann.
Los avances en la tecnología Von Neumann benefició al paradigma de IA que desde un
principio se basó en dicha tecnología: el paradigma simbólico. Por otro lado, la falta de
afinidad entre el ordenador digital y el conexionismo, y la reducida potencia de los
ordenadores digitales de aquella época hicieron que apenas se considerara la posibilidad
de simular RNA en dichos ordenadores.
El declive del primer conexionismo sobrevino cuando Marvin Minsky y Seymour
Papert, dos investigadores líderes de la IA simbólica del prestigioso Instituto de
Tecnología de Massachusetts (MIT), publican en 1969 el libro Perceptrons (Minsky y
Papert, 1969) donde se realizaba una contundente crítica a los modelos de Perceptrón
propuestos por Rosenblatt. Las aportaciones principales del estudio de Minsky y Papert
pueden agruparse en dos bloques. Por un lado, Minsky y Papert realizaron un estudio,
muy elaborado desde un punto de vista matemático, de algunos de los problemas que
presentaban las redes de único estrato. En concreto demostraron que el Perceptrón de
una capa, actualmente denominado Perceptrón simple, era incapaz de diferenciar entre
entradas en distintas partes de la pantalla (triángulo a la derecha, triángulo a la
izquierda), ni entre figuras en distintas posiciones de rotación. Tampoco era capaz de
computar con efectividad funciones matemáticas como la paridad (dada una cantidad de
puntos activos en la retina, reconocer si es un número par o impar), la función

topológica de la conectividad (reconocer una figura como una totalidad separada del
fondo) y en general funciones no lineales como la mencionada función OR-Exclusiva.
Por otro lado, el segundo conjunto de resultados del estudio de Minsky y Papert es el
referido a las RNA de múltiples estratos. En este caso dedicaron mucho menos espacio
a este problema en su libro, concluyendo que “el estudio de las versiones de múltiples
estratos es estéril” (Minsky y Papert, 1969, p. 232) alegando que sería muy improbable
obtener una regla de aprendizaje aplicada a este tipo de arquitecturas.
Según Olazarán (1993), la polémica suscitada en torno a los primeros modelos de red
neuronal entre simbolismo y conexionismo hay que situarla en un contexto social, en el
que ambos grupos competían por erigirse como paradigma dominante en el campo de la
IA, y también por conseguir el apoyo económico de agencias militares como ONR y,
sobretodo, DARPA (Defense Advanced Research Projects Agency, la Agencia de
Proyectos de Investigación Avanzados del Ministerio de Defensa de los Estados
Unidos). Los investigadores de IA simbólica vieron al conexionismo como una
amenaza directa para sus intereses, y se opusieron a que las agencias militares apoyaran
económicamente proyectos de envergadura en RNA.
La polémica de los años setenta entre el simbolismo y el conexionismo terminó con la
aceptación por la gran mayoría de los científicos de la IA, del paradigma simbólico
como línea de investigación más viable. La credibilidad que la élite de IA simbólica
(Herbert Simon, Allen Newell, Marvin Minsky y John McCarthy) consiguió tanto
dentro de la comunidad científica (estos investigadores dominaron la disciplina) como
fuera de ella (apoyo económico de DARPA) es un indicativo de la posición favorable en
la que estos investigadores quedaron cuando la polémica sobre el Perceptrón se dio por
terminada. Ante la situación de crisis, algunos de los principales grupos de RNA
abandonaron su investigación. El grupo de Widrow comenzó a aplicar sus técnicas y
sistemas de RNA a la ingeniería de las telecomunicaciones, y el grupo de Rosen
comenzó un proyecto para la construcción de un robot móvil dentro del paradigma
simbólico de IA. Rosenblatt y algunos otros investigadores, en cambio, continuaron con
sus investigaciones en RNA. De hecho, la mayoría de los actuales líderes en el campo
de las RNA comenzaron a publicar sus trabajos durante la década de los 70. Este es el
caso de investigadores como James Anderson, Teuvo Kohonen, Christoph Von Der
Malsburg, Kunihiko Fukushima, Stephen Grossberg y Gail Carpenter que pasamos a
comentar brevemente.
26
Anderson desarrolló un asociador lineal de patrones que posteriormente perfeccionó en
el modelo BSB (Brain-State-in-a-Box) (Anderson, Silverstein, Ritz y Jones, 1977).
Simultáneamente, en Finlandia, Kohonen desarrolló un modelo similar al de Anderson
(Kohonen, 1977); años más tarde, crearía un modelo topográfico con aprendizaje
autoorganizado en el que las unidades se distribuyen según el tipo de entrada al que
responden (Kohonen, 1982). Este modelo topográfico, comúnmente denominado mapa
autoorganizado de Kohonen, es una de las redes neuronales más ampliamente utilizadas
en la actualidad.
En Alemania, Von Der Malsburg (1973) desarrolló un detallado modelo de la
emergencia en la corteza visual primaria de columnas de neuronas que responden a la
orientación de los objetos. En Japón, Fukushima desarrolló el Cognitrón (Fukushima,
1975), un modelo de red neuronal autoorganizada para el reconocimiento de patrones
visuales. Posteriormente, presentó la red Neocognitrón (Fukushima, 1980, 1988;
Fukushima, Miyake e Ito, 1983) que permitía superar las limitaciones del primitivo
Cognitrón.
Por su parte, Grossberg ha sido uno de los autores más prolíficos en este campo.
Klimasauskas (1989) lista 146 publicaciones en las que interviene Grossberg entre 1967
y 1988. Estudió los mecanismos de la percepción y la memoria. Grossberg realizó en
1967 una red, Avalancha, que consistía en elementos discretos con actividad que varía
con el tiempo que satisface ecuaciones diferenciales continuas, para resolver actividades
tales como reconocimiento continuo del habla y aprendizaje del movimiento de los
brazos de un robot (Grossberg, 1982). Sin embargo, la contribución más importante de
Grossberg es la Teoría de Resonancia Adaptativa (ART), desarrollada en colaboración
con Carpenter (Carpenter y Grossberg, 1985, 1987a, 1987b, 1990). La ART se aplica a
modelos con aprendizaje competitivo (denominados ART para la versión no
supervisada y ARTMAP para la versión supervisada) en los cuales cuando se presenta
cierta información de entrada sólo una de las neuronas de salida de la red se activa
alcanzando su valor de respuesta máximo después de competir con las demás neuronas.
En la década de los años 80 coincidieron una serie de acontecimientos que jugaron un
papel relevante en la reemergencia del conexionismo. En esos momentos, la IA
simbólica se encontraba en una fase de comercialización tras el anuncio del Programa
de la Quinta Generación de Ordenadores por parte del gobierno japonés y el desarrollo
de los sistemas expertos. No obstante, a pesar del éxito de estos sistemas en ciertas áreas
de aplicación, un número creciente de investigadores comenzaba a ser consciente de las
limitaciones de los sistemas simbólicos ante ciertas tareas --denominadas del mundo
real--, como el reconocimiento de objetos, el reconocimiento de lenguaje hablado y el
razonamiento de sentido común. Conforme avanzaba la década de los ochenta, estas
limitaciones condujeron a investigadores procedentes de diversas áreas a realizar
aportaciones alternativas a las propuestas por la IA simbólica.
En este sentido, uno de los casos más paradigmáticos es el del físico John Hopfield,
considerado como uno de los impulsores más importantes del nuevo conexionismo.
Hopfield publicó en 1982 un importante artículo en la Academia Nacional de las
Ciencias (Hopfield, 1982). Este escrito claro y conciso tuvo un importante impacto en el
campo por varias razones. En primer lugar, Hopfield era un conocido físico con
conexiones institucionales importantes. Su interés y trabajo en redes neuronales
legitimó el campo para la comunidad científica. En segundo lugar, impulsó la
implementación de los modelos de red mediante dispositivos electrónicos utilizando
tecnología VLSI (Muy Alta Escala de Integración). En tercer lugar, Hopfield sugirió
una estrecha relación entre los sistemas físicos y las redes neuronales. El concepto clave
de las redes propuestas por Hopfield es que considera la fase de ajuste de las conexiones
como una búsqueda de valores mínimos en unos paisajes de energía. Según esta idea,
cada combinación de pesos de las conexiones de la red tiene asociada una energía, que
resulta de evaluar las restricciones determinadas por los datos de entrada y el resultado
producido por la red. El intercambio de información entre unidades se mantiene hasta
que la entrada y la salida de cada unidad sean iguales, es decir, en términos de Hopfield
se ha llegado a un estado de equilibrio energético. A diferencia de las redes Perceptrón
y ADALINE, las redes utilizadas por Hopfield poseen una arquitectura monocapa cuyas
conexiones son modificadas a partir de un algoritmo de aprendizaje basado en la regla
de Hebb. Las redes de Hopfield han sido empleadas como memorias autoasociativas,
principalmente para el reconocimiento de patrones.
El modelo de Hopfield fue posteriormente desarrollado por Hinton y Sejnowski, dos de
los más importantes miembros del grupo de investigación PDP (Parallel Distributed
Processing) (Universidad de San Diego, California), en su sistema denominado
“máquina de Boltzmann” (Ackley, Hinton y Sejnowski, 1985). El algoritmo para la
modificación de conexiones del sistema de múltiples estratos de Hinton y Sejnowski fue
28
una de las aportaciones más importantes de la primera fase de la reemergencia del
conexionismo de los 80. Era la primera vez que un algoritmo de este tipo encontraba
una aceptación considerable en la comunidad científica.
Sin embargo, la contribución más importante en la reemergencia del conexionismo en
los años ochenta fue la técnica backpropagation desarrollada por Rumelhart, Hinton y
Williams, representantes del grupo PDP. Realmente, esta técnica fue desarrollada
inicialmente por Paul Werbos (1974) a mediados de los 70, y después
independientemente redescubierta por varios grupos de investigadores (Le Cun, 1985;
Parker, 1985; Rumelhart, Hinton y Williams, 1986). Es, por tanto, un caso de
“descubrimiento múltiple”. Sin embargo, en general se reconoce que fue la versión del
grupo PDP la que desató el interés en RNA a mediados de los ochenta y consiguió
finalmente forzar la revisión del consenso contrario al conexionismo.
El algoritmo backpropagation también recibe el nombre de regla delta generalizada o
método de gradiente decreciente, debido a que supone una extensión de la regla
propuesta por Widrow y Hoff en 1960 (regla delta) a redes con capas intermedias (ver
figura 4). Este tipo de arquitectura recibe el nombre genérico de Perceptrón Multicapa o
MLP (Multilayer Perceptron). Rosenblatt ya tuvo la idea de utilizar una técnica de este
tipo a principios de los sesenta (Rosenblatt, 1962), aunque no pudo desarrollarla de un
modo satisfactorio.
Como se comentó anteriormente, la falta de un algoritmo para la modificación de
conexiones en sistemas de múltiples estratos limitaba considerablemente la capacidad
de clasificación de objetos en los sistemas conexionistas de los años 60. En este sentido,
el problema principal de la modificación de los valores de las conexiones en una red
MLP es hallar el error cometido por las unidades de las capas intermedias. El error
cometido por las unidades de salida es inmediatamente visible: es la diferencia entre la
salida producida por dichas unidades y la salida que se desea que produzcan. El objetivo
del algoritmo backpropagation es propagar los errores cometidos por las unidades de
salida hacia atrás, ya que, en un sistema de este tipo, el error cometido por una unidad
intermedia depende del error cometido por las unidades de salida a las que dicha unidad
intermedia está conectada. Tras conocerse el error cometido por las unidades
intermedias, pueden entonces modificarse las conexiones entre unidades de entrada y
unidades intermedias. De forma similar a la regla delta, la base matemática del
algoritmo backpropagation es la técnica de gradiente decreciente, basada en modificar
los pesos en la dirección opuesta al gradiente, esto es
Una novedad muy importante en el sistema de Rumelhart y sus colegas fue la
introducción de funciones de activación continuas en todas las unidades de
procesamiento en lugar de la clásica función “escalón” del Perceptrón simple de
Rosenblatt. De hecho, el algoritmo backpropagation exige la utilización de funciones de
activación continuas para poder realizar el cálculo de la derivada parcial del error con
respecto a los pesos del modelo.
El proceso de acumulación de resultados e investigaciones y de esfuerzo organizacional
por parte del grupo PDP, comenzó a hacer peligrar el consenso anticonexionista con el
que terminó la polémica del Perceptrón. Los dos volúmenes PDP, considerados como la
“biblia” del conexionismo, son el mayor exponente de este esfuerzo (Rumelhart,
McClelland y el grupo de investigación PDP, 1986; McClelland, Rumelhart y el grupo
de investigación PDP, 1986). El debate sobre el conexionismo se estaba reabriendo, y
ésto hizo reaccionar de nuevo a los investigadores críticos con el conexionismo. La
reacción fue encabezada, una vez más, por Minsky y Papert que, en el epílogo a la
nueva edición de su libro Perceptrons (Minsky y Papert, 1988), criticaron
contundentemente las afirmaciones de Rumelhart y sus colegas acerca de los sistemas

de múltiples estratos con el algoritmo backpropagation. Minsky y Papert no fueron los
únicos en criticar al nuevo conexionismo con vehemencia. Otros científicos líderes en
sus áreas de investigación, tales como Poggio (visión), Hillis (ordenadores paralelos) y
Fodor y Pylyshyn (ciencia cognitiva), también realizaron críticas radicales al
conexionismo (Olazarán, 1991). Sin embargo, esta vez la polémica no acabó con el
abandono del conexionismo como ocurriera en la década de los 60.
En el artículo de Horgan (1994) se trata la persona de Marvin Minsky, comentándose
algunas de sus opiniones actuales, como, por ejemplo, cómo poco a poco se ha ido
apartando de la IA simbólica y su aprobación al actual desarrollo de las RNA.
Gracias al esfuerzo de movilización y acumulación científica y organizacional que el
grupo de investigación PDP realizó a lo largo de la década de los ochenta, el
conexionismo ha logrado en la actualidad diferenciarse como una especialidad científica
aceptada, dentro del marco general de la IA. Este proceso ha culminado con el
surgimiento, crecimiento e institucionalización de una comunidad científica
diferenciada con su correspondiente sistema de comunicación y control especializado
(publicaciones científicas, congresos, cursos de postgrado, institutos de investigación,
programas y becas en las agencias que financian la investigación científica, etc.).

INTELIGENCIA ARTIFICIAL

APLICACIONES DE LA INTELIGENCIA ARTIFICIAL
Aplicaciones :

• Lingüística computacional

• Minería de datos (Data Mining)
• Industriales.
• Médicas
• Mundos virtuales
• Procesamiento de lenguaje natural
(Natural Language Processing)
• Robótica
• Sistemas de apoyo a la decisión
• Videojuegos
• Prototipos informáticos
• Análisis de sistemas dinámicos.
• Smart process management

APLICACIONES DE LA INTELIGENCIA ARTIFICIAL Y LAS TÉCNICAS QUE USAN
Dentro del enfoque de la ingeniería de la Inteligencia Artificial, se clasifican las técnicas que pueden ser usadas como herramientas para solucionar problemas en las siguientes categorías:

1. Técnicas básicas, así llamadas por encontrarse a la base de diversas aplicaciones de IA. Entre otras se encuentran Búsqueda Heurística de Soluciones, Representación del Conocimiento, Deducción Automática, Programación Simbólica (LISP) y Redes Neuronales. Estas técnicas son las bases de las aplicaciones. En su mayoría, no necesita conocerla el usuario final, sino los profesionales que se dedican a su aplicación y la generación de aplicaciones comerciales.
2. Tecnologías, o combinaciones de varias técnicas básicas, orientadas a resolver familias de problemas. Las tecnologías son más especializadas que las técnicas básicas y están más cerca de las aplicaciones finales. Se pueden mencionar a la Robótica y Visión, Lenguaje Natural, Sistemas Expertos
3. Clases o tipos de aplicaciones: Diagnóstico, Predicción (sistemas de autocontrol de reactores atómicos), Secuenciamiento de operaciones ("Scheduling"), Diseño, Interpretación de datos. Todas ellas son familias de problemas tipo. Por ejemplo, el diagnóstico se refiere a encontrar las causas de fallas, ya sea que se trate de fallas en una línea de producción o de enfermedades en una persona.
4. Campos de aplicación: Ingeniería, Medicina, Sistemas de Manufactura, Administración, Apoyo a la Toma de Decisiones Gerenciales, etc. Todas caen dentro de las áreas de los sistemas computacionales, pero que se consideran como clientes de la Inteligencia Artificial.

APLICACIÓN DE LA INTELIGENCIA ARTIFICIAL EN LOS SISTEMAS PRODUCTIVOSLa incorporación de agentes de decisión inteligente, redes neuronales, sistemas expertos, algoritmos genéticos y autómatas programables para optimización de sistemas de producciones una tendencia activa en el ambiente industrial de países con alto desarrollo tecnológico y con una gran inversión en investigación y desarrollo. Dichos componentes de la Inteligencia Artificial tienen como función principal controlar de manera independiente, y en coordinación con otros agentes, componentes industriales tales como celdas de manufactura o ensamblaje, y operaciones de mantenimiento, entre otras.

Existe una tendencia creciente a la implementación de sistemas de manufactura/ensamblaje más autónomos e inteligentes, debido a las exigencias del mercado por obtener productos con niveles muy altos de calidad; lo cual con operaciones manuales se hace complicada y hace que los países subdesarrollados como el nuestro no alcance niveles competitivos a nivel mundial. Al diseñar un sistema de producción integrado por computadora se debe dar importancia a la supervisión, planificación, secuenciación cooperación y ejecución de las tareas de operación en centros de trabajo, agregado al control de los niveles de inventario y características de calidad y confiabilidad del sistema. Los factores mencionados determinan la estructura del sistema y su coordinación representa una de las funciones más importantes en el manejo y control de la producción.

Muy frecuentemente, la razón para construir un modelo de simulación es para encontrar respuestas a interrogantes tales como ¿Cuáles son los parámetros óptimos para maximizar o minimizar cierta función objetivo? En los últimos años se han producido grandes avances en el campo de la optimización de sistemas de producción. Sin embargo, el progreso en el desarrollo de herramientas de análisis para resultados de modelos de simulación ha sido muy lento. Existe una gran cantidad de técnicas tradicionales de optimización que sólo individuos con gran conocimiento estadístico y de conceptos de simulación han logrado aportes significativos en el área.

Debido al auge de los algoritmos de búsqueda meta-heurísticos, se ha abierto un nuevo campo en el área de optimización con simulación. Nuevos paquetes de software, tales como OptQuest (Optimal Technologies), SIMRUNNER (Promodel Corporation) y Evolver (Palisade Software), han salido al mercado brindando soluciones amigables de optimización de sistemas que no requieren control interno sobre el modelo construido, sino sobre los resultados que dicho modelo arroja bajo diferentes condiciones. Además, nuevas técnicas de inteligencia artificial aplicadas a problemas de optimización estocástica, han demostrado su eficiencia y capacidad de cómputo y aproximación.

El Aprendizaje Reforzado (Reinforcement Learning) es un conjunto de técnicas diseñadas para dar solución a problemas cuya base son los procesos de decisión markovianos. Los procesos markovianos son procesos estocásticos de decisión que se basan en el concepto de que la acción a tomar en un estado determinado, en un instante determinado, depende sólo del estado en que se encuentre el sistema al momento de tomar la decisión.Una de las áreas que puede tener mayor incidencia directa en los procesos productivos de la industria nivel mundial, es el diseño de sistemas de soporte para la toma de decisiones basados en la optimización de los parámetros de operación del sistema. Para tal efecto, el uso de técnicas inteligentes paramétericas y no paramétricas para el análisis de datos es de gran interés . embargo, a juicio de los autores en la mayoría de las arquitecturas propuestas hasta el momento para manufactura integrada por computadora, carecen de un factor de integración fundamental. La comunicación entre los diversos niveles jerárquicos de una planta de producción es muy poca, ya que cada departamento se limita a realizar su función sin buscar una integración de toda la planta productiva a excepciones de empresas como ABB con su software Baan, etc.

APLICACIONES DE LA INTELIGENCIA ARTIFICIAL EN LA SOLUCION DE PROBLEMAS ESPECIFICOS DE PRODUCCIONO operación automática de control de calidad usando un sistema de visión por computador (Royman López Beltrán, Edgar Sotter Solano, Eduardo Zurek Varela. Laboratorio de Robótica y Producción Automática. Universidad del Norte)Todo proceso industrial es evaluado por la calidad de su producto final, esto hace de la etapa de control de calidad una fase crucial del proceso. Los mecanismos utilizados para establecer la calidad de un producto varían dependiendo de los parámetros que tengan relevancia en el mismo. Cuando el parámetro relevante es la geometríao forma del objeto fabricado se suele dejar a la vista del operario que lleve a cabo tal función tanto de inspección como de verificación para el control de calidad, sin embargo pueden existir errores en la geometríade un objeto que escapen de la vista de un operario y que luego impidan el buen funcionamiento de dicho objeto. En un caso como éste, surge como una buena alternativa el utilizar un sistema de visión artificial capaz de detectar aquellos errores que un operario pudiera pasar por alto. El sistema de visión artificial Robot Visión PRO, es capaz de ejecutar de manera totalmente automática las labores de identificación de objetos y de control de calidad de los mismos.El sistema Robot Visión PRO es un paquete de software de visión que permite la adquisición de imágenes, preprocesamiento y segmentación. Además realiza procesamiento de datos de alto nivel que brinda filtrado de imágenes, elaboración de clustersy patrones, e identificación de objetos. Este sistema cuenta con una videocámara y un monitor encargado de identificar cada una de las piezas salientes del proceso y hacer una comparación con piezas de 100% calidad para luego determinar si el empaque puede salir al mercado o debe desecharse.

Teléfono Móvil, con Inteligencia Artificial: Un nuevo software utiliza inteligencia artificial para que nuestro móvil pueda hacernos recomendaciones en función de nuestros hábitos y estilos de vida. Se llama Magitti, y ha sido desarrollado por investigadores del Palo Alto Research Center (PARC). El sistema recoge toda la información que nuestro terminal tiene sobre nosotros (dónde estamos, gracias al GPS o qué citas tenemos, gracias a nuestra agenda) y la envía un servidor. Según qué hora sea y dónde nos encontremos, la herramienta recoge los datos del servidor y nos hace una propuesta u otra. Su particularidad es que cuanto más interactuamos con él más sabe sobre nosotros y más acierta en sus propuestas

Hace mucho tiempo que los móviles dejaron de ser un dispositivo para realizar llamadas. Hoy, se han convertido en pequeños ordenadores personales que disponen de reproductores de música digital, mapas o navegadores de Internet. Investigadores del Palo Alto Research Center han dado un paso más en el desarrollo de los dispositivos móviles al crear una herramienta informática que los convierte en asistentes personales con criterio suficiente como para recomendarnos cosas concretas de nuestra vida diaria.
Publicado por eimi portillo en 05:57 0 comentarios RED NEURONAL ARTIFICIAL
Red neuronal artificial

Las redes de neuronas artificiales (denominadas habitualmente como RNA o en inglés como: "ANN"1 ) son un paradigma de aprendizaje y procesamiento automático inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida. En inteligencia artificial es frecuente referirse a ellas como redes de neuronas o redes neuronales.

Con las Redes Neuronales se busca la solución de problemas complejos, no como una secuencia de pasos, sino como la evolución de unos sistemas de computación inspirados en el cerebro humano, y dotados por tanto de cierta "inteligencia", los cuales no son sino la combinación de elementos simples de proceso (neuronas - se dará una visión rápida sobre el funcionamiento de las mismas en los seres vivos-) interconectados, que operando de forma paralela en varios estilos que serán analizados detalladamente, consiguen resolver problemas relacionados con el reconocimiento de formas o patrones, predicción, codificación, control y optimización entre otras aplicaciones.

sábado, 22 de mayo de 2010

vision estereo

El t´ermino est´ereo en visi´on se utiliza cuando existe m´as de una vista de
una escena. Est´ereo, del griego ¾¿ ²½²o, significa s´olido, que en este caso se
relaciona con la idea de tridimensionalidad. A trav´es de varias im´agenes de
una escena, tomadas desde distintos puntos de vista, se puede tener la idea
de las caracter´ısticas tridimensionales de la escena en estudio.
En este cap´ıtulo se estudiar´an las relaciones algebraicas y geom´etricas que existen
cuando se ha tomado m´as de una vista de una escena. Se pondr´a ´enfasis
en el an´alisis de dos y tres vas, geometr´ıa bifocal y trifocal respectivamente.
Sin embargo, al final del cap´ıtulo se expondr´a s´olo a manera de introducci´on
la geometr´ıa quadrifocal y de N vistas.
4.1. An´alisis Bifocal
En el an´alisis bifocal se tiene un sistema de visi´on con dos c´amaras, o bien
una sola c´amara que toma dos im´agenes del objeto de estudio en dos tiempos
distintos, suponiendo que en ese tiempo la c´amara o el objeto se han movido.
Para efectos de simplificaci´on de la exposici´on del problema se estudiar´a la
configuraci´on de dos c´amaras que toman al mismo tiempo una imagen del
objeto de estudio. Sin embargo, con la teor´ıa expuesta en este cap´ıtulo se
puede deducir la soluci´on al problema de dos vistas distintas con una sola
camara

La geometr´ıa de dos vistas es conocida como la Geometr´ıa Epipolar. El t´ermino
epipolar viene del griego epi (`²¼¶) que significa sobre, encima, y polos
(¼´o¸o&) cuyo significado es punto de atracci´on o uno de los dos puntos de
una esfera que son intersectados por su eje de rotaci´on. La Geometr´ıa Epipolar
lleva este nombre porque, como se ver´a m´as adelante, a cada una de las
dos im´agenes se le asocia un epipolo.
La geometr´ıa de dos vistas es presentada en la Figura 4.1. Un punto 3D M
es visto en las dos im´agenes como m1 y m2 (ver Figura 4.1a). Como se estudi
´o en el cap´ıtulo anterior, la imagen es definida como la proyecci´on del
espacio 3D en un plano de imagen 2D por medio de un centro ´optico. Los
centros ´opticos en este caso son C1 y C2. A partir de m1 solamente no se
puede saber exactamente la ubicaci´on exacta de M, ya que en el proceso
de proyecci´on se ha perdido la informaci´on de profundidad. Sin embargo, se
puede afirmar que M debe estar en el rayo que nace en el centro ´optico C1
para forma m1, es decir, M pertenece a la recta hm1;C1i. Esta situaci´on es
mostrada en la Figura 4.1b, donde varios puntos (M incluido) pertenecientes
a la recta hm1;C1i pueden ser los que forman el punto m1 en la primera
imagen. Si a partir de m1 se desea conocer la ubicaci´on de m2 es necesario
entonces proyectar en la imagen 2 los posibles puntos que pueden formar
m1 (ver Figura 4.1c). Se observa que m2 es uno de estos puntos proyectados,
sin embargo a partir de m1 solamente no se puede saber la ubicaci´on
exacta de m2, s´olo se puede afirmar que m2 pertenece a la proyecci´on de la
recta hm1;C1i realizada por el segundo centro ´optico C2 en la imagen 2. La
proyecci´on de esta recta, se denomina l´ınea epipolar; la restricci´on epipolar se˜nala que para que m1 y m2 sean puntos correspondientes, el punto m2 debe estar en la l´ınea epipolar de m1. Esto no quiere decir que todos los puntos en la l´ınea epipolar de m1 son correspondientes a m1, ya
que como bien se puede observar de la Figura 4.1 s´olo un punto en la imagen
2 es correspondiente a m1, y en este caso es la proyecci´on de M en la segunda
imagen. La restricci´on epipolar es entonces una condici´on necesaria, mas no
suficiente. A pesar de que no sea una condici´on suficiente, es de gran utilidad
saber que el punto correspondiente a m1 en la segunda imagen est´a sobre
una l´ınea y no est´a ubicado en cualquier parte de la imagen. Esto representa
una reducci´on considerable en la dimensionalidad del problema de b´usqueda
de puntos correspondientes, ya que en vez de buscar en toda la imagen 2 (de
dos dimensiones) se busca s´olo a lo largo de una l´ınea (una dimensi´on). A
manera de ejemplo, si la segunda imagen tiene N £N p´ıxels, la b´usqueda de
correspondencia se realiza s´olo en N p´ıxels de la imagen y no en N2 p´ıxels.
Una segunda representaci´on de la Geometr´ıa Epipolar se aprecia en la Figura
4.2, en la que los planos de imagen est´an entre los centros ´opticos y el
punto 3D M. Al igual que en la representaci´on anterior, las proyecciones de
M son m1 y m2 en la primera y segunda imagen respectivamente. En esta
configuraci´on se observa tambi´en el mismo fen´omeno: a partir de m1 no
se sabe exactamente d´onde est´a ubicado el punto 3D M, s´olo se sabe que
se encuentra en alg´un punto de la recta que pasa por los puntos m1 y C1.
Los posibles puntos correspondientes a m2 en la segunda imagen se obtienen
entonces mediante la proyecci´on de esta recta por el centro ´optico C2 en la
segunda imagen. Esta recta en la imagen 2 es la l´ınea epipolar l2.
epipolos

De manera an´aloga, si se desea buscar los posibles puntos correspondientes
a m2 en la primera imagen se obtiene una recta epipolar l1 definida como la
proyecci´on realizada por C1 de la recta que contiene los puntos C2 y m2 en
el plano de la primera imagen.
A continuaci´on se define el plano epipolar ¼, como el plano que contiene los
puntos C1, C2 y M. Se observa que el plano epipolar contiene tambi´en los
puntos m1 y m2, y sus l´ıneas epipolares l1 y l2, las que se pueden definir
entonces como las intersecciones del plano epipolar con los planos de imagen,
es decir:
l1 = ¼ \ R1
l2 = ¼ \ R2
(4.1)
Si se desea estudiar la Geometr´ıa Epipolar de un nuevo punto 3D M0 (que
no este en el plano ¼), se observa que en este sistema bifocal, en el que la
ubicaci´on de los planos de imagen (R1 y R2) y los centros ´opticos (C1 y C2)
no ha cambiado, existe un nuevo plano epipolar ¼0, como se muestra en la
Figura 4.3. De acuerdo a la definici´on dada, ¼0 contiene los puntos C1, C2 y
M0. Para este nuevo punto M0, existen las proyecciones m01 y m02, definidas
como las proyecciones deM0 en las im´agenes 1 y 2 respectivamente, y tambi´en
existen sus l´ıneas epipolares l01 y l02, definidas como las intersecciones del plano
epipolar ¼0 con los planos de imagen R1 y R2. Se observa que los planos ¼
y ¼0 contienen no s´olo los puntos C1 y C2, sino que todos los puntos que
est´an en la recta hC1;C2i, conocida como la l´ınea base. De esta afirmaci´on se
puede deducir una propiedad muy importante de las l´ıneas epipolares. Como
las l´ıneas epipolares se definen como la intersecci´on de los planos epipolares
con los planos de imagen, se obtiene entonces que todas las l´ıneas epipolares
en una imagen poseen un punto en com´un, conocido como el epipolo, definido
como la intersecci´on de la l´ınea base con su plano de imagen:
e1 = hC1;C2i \ R1
e2 = hC1;C2i \ R2
4.1.1. An´alisis geom´etrico de dos vistas
En el Cap´ıtulo 3 se logr´o establecer una transformaci´on proyectiva de un
punto 3D M a un punto 2D m. Este punto m se defini´o como la proyecci´on
M en el plano de imagen. Dependiendo del sistema de coordenadas en que
est´an representados M y m se obtiene una ecuaci´on como la presentada
en (3.13). En t´erminos generales, se puede afirmar que si la representaci´on
homog´enea de M es M = [X Y Z 1]T y de m es m = [x y 1]T se puede
escribir
¸m = AM (4.3)
donde A, denominada la matriz de proyecci´on general, es en una matriz de
3 £ 4 elementos, encargada de convertir el punto 3D M en la proyecci´on 2D
m1.
Para dos vistas se tiene entonces el punto 3D M que es visto como m1 y m2
en la imagen 1 y 2 respectivamente. Como para cada imagen hay una matriz
de proyecci´on se obtiene el siguiente sistema de ecuaciones
(
¸1m1 = AM
¸2m2 = BM
(4.4)
donde A y B son las matrices de proyecci´on de las im´agenes 1 y 2 respectivamente,
y m1 y m2 son las representaciones homog´eneas de m1 y m2. Las
coordenadas de M en ambas ecuaciones est´an refeidas al mismo sistema de
coordenadas.
A continuaci´on se buscar´a una expresi´on matem´atica para l2, la l´ınea epipolar
de m1 en la segunda imagen a partir de m1, A y B. Como se mencion´o en la
introducci´on anterior, la l´ınea epipolar l2 es la proyecci´on del rayo hC1;m1i en la segunda imagen. Este rayo queda definido por dos puntos en el espacio
3D. El primero de ellos es C1 cuyas representaci´on homog´enea utilizando las
coordenadas en el sistema de coordenadas en que esta dado el punto 3D ser´ıa
1Es necesario observar que en (3.13) la matriz A equivale a KPS0, sin embargo, los
puntos 3D y 2D han sido representados como M0 y w respectivamente.
4. Visi´on Est´ereo 59
C1. Otro punto que est´a presente en el rayo hC1;m1i es M sin embargo sus
coordenadas son desconocidas. Las coordenadas de m1 est´an dadas en un
plano, no en el espacio 3D, sin embargo se puede calcular a partir de m1 un
punto M+ que est´a en el rayo:
M+ = A+m1 (4.5)
donde A+ es la pseudo-inversa de A. La pseudo-inversa de A es una matriz
que cumple con la siguiente propiedad:
AA+ = I (4.6)
donde I es una matriz identidad de 3 £ 3 elementos. Debido a que A es de
3 £ 4 elementos la matriz A+ tiene que ser de 4 £ 3. Una expresi´on para la
pseudo-inversa de A es:
A+ = AT[ATA]¡1: (4.7)
Es f´acil comprobar que se cumple AA+ = I. Para demostrar que el punto
M+ definido en (4.5) pertenece al rayo hC1;m1i es necesario verificar si su
proyecci´on en la imagen 1 coincide con m1. Utilizando la primera ecuaci´on
de (4.4), la proyecci´on de este punto ser´ıa:
AM+ = AA+m1 = Im1 = m1 (4.8)
que como se observa coincide con la representaci´on homog´enea de m1. De esta
manera se conocen dos puntos que pertenecen al rayo hC1;m1i: C1 y M+.
Por definici´on, la proyecci´on de C1 en la segunda imagen es e2, el epipolo
de la imagen 2. La proyecci´on de estos puntos en la segunda imagen ser´ıan
entonces e2 (proyecci´on de C1) y m+
2 (proyecci´on deM+). Una representaci´on
homog´enea de estos puntos se obtienen a partir de la segunda ecuaci´on de
(4.4): (
e2 = BC1
m+2 = BM+ : (4.9)
Si la recta epipolar l2 contiene estos dos puntos, se puede decir entonces que
su representaci´on homog´enea queda definida como:
l2 = e2 £m+2 = BC1 £BM+ = BC1 £ BA+m1 (4.10)
A continuaci´on se utilizar´a el concepto de matriz antisim´etrica para encontrar
una expresi´on m´as simple para l2. Dados dos vectores u y v de tres
60 D.Mery: Visi´on Artificial
elementos cada uno, definiendo el vector w como el producto cruz u £ v, se
puede encontrar una matriz [u]£, de 3 £ 3 elementos, denominada la matriz
antisim´etrica de u tal que:
w = u £ v = [u]£v (4.11)
Es f´acil comprobar que si u = [u1 u2 u3]T la matriz antisim´etrica de u es:
[u]£ =
2
64
0 ¡u3 u2
u3 0 ¡u1
¡u2 u1 0
3
75
(4.12)
Utilizando la matriz antisim´etrica de BC1 se obtiene una nueva expresi´on
para l2:
l2 = [BC1]£BA+m1 (4.13)
Definiendo la matriz F de 3 £ 3 elementos como:
F = [BC1]£BA+ (4.14)
se puede expresar la l´ınea epipolar como
l2 = Fm1 (4.15)
Si m2 pertenece a esta recta entonces mT2l2 = 0, o bien
mT2Fm1 = 0 (4.16)
La matriz F es conocida como la Matriz Fundamental y es de gran importancia
para el an´alisis de dos vistas, ya que F es constante para una geometr´ıa
bifocal dada, no depende de m1, m2 ni M. La ecuaci´on (4.16) es conocida
como la restricci´on epipolar y se˜nala que para que dos puntos m1 y m2 sean
correspondientes, deben satisfacer (4.16).
Cabe mencionar que muchas veces las coordenadas de C1 no se conocen, sin
embargo a partir de la matriz de proyecci´on A es posible encontrar C1. Se
sabe que la proyecci´on de C1 en la imagen 1 no est´a definida, y que este
es el ´unico punto del espacio que no puede ser proyectado en el plano de
imagen 1. Por lo tanto se puede se˜nalar que el centro ´optico debe satisfacer
la siguiente ecuaci´on AC1 = [0 0 0]T, ya que el punto [0 0 0]T al tener su
tercera componente igual a cero no est´a definido en el plano de imagen.
4. Visi´on Est´ereo 61
4.1.2. Propiedades de la Matriz Fundamental
La Matriz Fundamental F tiene las siguientes propiedades
i) Las representaciones homog´eneas de las l´ıneas epipolares l1 y l2 se definen
como:
l2 = Fm1
l1 = FTm2
(4.17)
ii) La restricci´on epipolar es
mT2
Fm1 = 0 (4.18)
iii) La matriz F es homog´enea, ya que kF para k 6= 0 tambi´en puede ser
utilizada en los c´alculos anteriores.
iv) El determinate de F es cero, ya que
jFj = j[e2]£BA+j = j[e2]£j jBA+j = 0 (4.19)
La ´ultima igualdad se obtiene debido a que el determinante de una
matriz antisim´etrica es cero, como se puede deducir de (4.12).
v) Como el determinante de F es cero, y F es homog´enea se dice que F
tiene s´olo siete grados de libertad, esto quiere decir que s´olo siete (de
los nueve) elementos de F son linealmente independientes, los otros dos
pueden ser calculados como funci´on de los otros siete.
vi) La matriz F es constante para una geometr´ıa bifocal dada, no depende
de m1, m2 ni M, s´olo depende de sus matrices de proyecci´on A y B.
vii) Los epipolos y la matriz Fundamental est´an relaciones de la siguiente
manera:
Fe1 = 0 y FTe2 = 0; (4.20)
siendo 0 = [0 0 0]T. Estas ecuaciones sirven para calcular los epipolos,
ya que se puede asumir que como e1 y e2 son representaciones
homog´eneas, su tercera componente es uno. La relaci´on anterior se
puede deducir a partir de la condici´on epipolar: si se tiene un punto
m1 cualquiera en la imagen 1, se sabe que su l´ınea epipolar en
la imagen 2 pasa por el epipolo e2, esto quiere decir que se cumple
62 D.Mery: Visi´on Artificial
eT2
Fm1 = 0. Como esta condici´on se cumple siempre para cualquier
m1 entonces se puede afirmar que eT2
F = [0 0 0], o bien FTe2 = 0. El
mismo razonamiento se puede hacer para el epipolo e1, con lo que se
obtiene Fe1 = 0.
4.1.3. An´alisis algebraico de dos vistas
El problema de correspondencia en dos vistas se puede resolver algebraicamente
utilizando los tensores bifocales [14, 18]. A continuaci´on se presenta
detalladamente el an´alisis algebraico de dos vistas.
Las proyecciones de un punto 3D M en dos planos de imagen, imagen 1 e
imagen 2, m1 y m2 respectivamente, tal como se aprecia en la Figura 4.1,
se pueden calcular por medio de la ecuaci´on general de proyecci´on (4.3) utilizando
la matriz de proyecci´on A para la imagen 1 y la matriz de proyecci´on
B para la segunda:

La ´ultima igualdad se obtiene sabiendo que H es regular, entonces HH¡1
es una matriz identidad de 4 £ 4. Como AH¡1 corresponde a las primeras
4. Visi´on Est´ereo 63
tres filas de este resultado se dice que AH¡1 = [I j 0], donde I es una matriz
identidad de 3 £ 3 y 0 = [0 0 0]T.
Mediante la matriz H se hace una transformaci´on del sistema de coordenadas
en el cual se hab´ıa representado el punto M. Se trata de una transformaci´on
proyectiva 3D no Eucl´ıdea. En este nuevo sistema de coordenadas, las coordenadas
de M ahora son representadas homog´eneamente como ˜M. De esta
manera se obtiene una matriz de proyecci´on normalizada para la primera
imagen del tipo ˜A = [I j 0].
Reformulando (4.22) se puede escribir el sistema de ecuaciones:

donde ˜ai y ˜bi corresponden a la fila i de la matriz ˜A y ˜Brespectivamente,
para i = 1; 2; 3.
Bajo la hip´otesis de que m1 y m2 son puntos correspondientes, es decir que
ambos son proyecciones de un mismo punto 3D, existe entonces un punto
M ´unico. En este caso el sistema de ecuaciones (4.24) tiene una soluci´on
no trivial para v. Por lo tanto se puede afirmar que bajo esta hip´otesis de
correspondencia v 6= 0. Se observa que la matriz G es de 6 £ 6 elementos,
por lo tanto una condici´on necesaria y suficiente para la existencia de una
soluci´on no trivial de v es que el rango de G sea 5, o bien, que el determinate
de G sea igual a cero. Es decir
jGj = 0: (4.25)
El determinante de G se puede obtener por medio de la f´ormula de Laplace
[3], en la que jGj se expande como una sumatoria de los elementos de G
de una fila o columna multiplicados por sus respectivos cofactores, lo cual
resulta muy conveniente en matrices que tienen muchos elementos iguales
a cero. Expandiendo jGj a trav´es de la quinta columna en la que est´an los
64 D.Mery: Visi´on Artificial
elementos x1, y1 y 1 (no hay que olvidar que los vectores fila ˜ai y ˜bi tienen
cuatro elementos) se obtiene:
1.4. Restricci´on bifocal pr´actica
En la pr´actica debido a errores en la medici´on y calibraci´on, dos puntos
correspondientes m1 y m2 satisfacen la condici´on epipolar con una probabilidad
muy baja, ya que m2 no est´a exactamente sobre la l´ınea epipolar l,
2La convenci´on de Einstein para la suma de tensores indica que dos tensores que tienen
el mismo ´ındice deben desglosarse, multiplic´andose y sum´andose de la siguiente manera
®i¯i = ®1¯1 + ::: + ®n¯n, siendo n el n´umero de elementos de cada tensor.
66 D.Mery: Visi´on Artificial
sino que est´a muy cerca. Por esta raz´on es necesario utilizar otro criterio de
correspondencia. En la pr´actica se dice que m1 y m2 pueden ser puntos correspondientes
si la distancia m´ınima de m2 a l es menor que una distancia d0.
Esta distancia se calcula a partir de una l´ınea perpendicular a l que pase por
m2 (ver Ejercicio 4.2). De esta manera, se obtiene que la restricci´on epipolar
pr´actica se expresa como [24]:
d = jmT2
q Fm1j
l2
1 + l2
2
< d0: (4.32) 4.2. An´alisis Trifocal En el caso de tener tres vistas de una misma escena, se estudiar´a si los puntos de proyecci´on m1, m2 y m3 en las im´agenes 1, 2 y 3 respectivamente, son puntos correspondientes, es decir si los tres puntos son proyecciones de un mismo punto 3D M. Bas´andose en la geometr´ıa epipolar, se puede afirmar que si se calcula la l´ınea epipolar de m1 y la l´ınea epipolar de m2 en la tercera imagen, m3 debe estar en la intersecci´on de ambas l´ıneas, ya que si m1 y m3 son correspondientes m3 debe estar en la l´ınea epipolar de m1 en la tercera imagen y Como la misma deducci´on se puede hacer para m2, Líneas epipolares M Intersección o o o o C1 C2 C3 I m a g en 1 Im ag en 3 Im a g en 2 m1 m2 m3 Figura 4.4: Geometr´ıa Epipolar para tres vistas. 4. Visi´on Est´ereo 67 entonces m3 debe pertenecer a ambas l´ıneas epipolares, es decir m3 es el punto de intersecci´on de las l´ıneas, tal como se ilustra en la Figura 4.4. La Geometr´ıa Epipolar en tres im´agenes se˜nala entonces que m1, m2 y m3 son puntos correspondientes si m3 coincide con el punto de intersecci´on de las l´ıneas epipolares de m1 y m2 en la tercera imagen [10]. Esta es una condici´on necesaria y suficiente. Sin embargo, el punto de intersecci´on no est´a definido si ambas l´ıneas epipolares son iguales. Lamentablemente esta situaci´on no es poco com´un. Ambas l´ıneas son iguales cuando los planos epipolares ¦13 y ¦23, definidos como los planos que contienen M, C1 y C3, y M, C2 y C3 respectivamente, son iguales. Esto sucede en dos ocasiones: i) cuando los tres centros ´opticos C1, C2 y C3 son colineares; o bien ii) cuando los tres centros ´opticos C1, C2 y C3 no son colineares y m1, m2 y m3 se encuentran sobre el plano definido por los tres centros ´opticos [8, 29]. La primera de ellas ocurre en la pr´actica muy frecuentemente, ya que se obtiene al tomar tres im´agenes con una misma c´amara que se mueve en l´ınea recta. Adem´as de las dos desventajas mencionadas para el uso de la Geometr´ıa Epipolar en tres vistas, hay que se˜nalar que la Geometr´ıa Epipolar no proporciona un m´etodo directo para analizar la correspondencia de tres puntos, ya que es necesario calcular dos l´ıneas epipolares y luego su intersecci´on. 4.2.1. An´alisis algebraico de la geometr´ıa trifocal Una forma de estudiar el problema de la geometr´ıa trifocal es por medio de los tensores trifocales [15, 30], que ser´an presentados a continuaci´on. Mediante los tensores trifocales se puede por una parte evitar las singularidades indicadas anteriormente y por otra parte obtener una soluci´on directa para la correspondencia en tres vistas. Las tres proyecciones de un punto 3D M en las im´agenes 1, 2 y 3, pueden expresarse matem´aticamente, como se hizo en la Secci´on 4.1.3, a partir de la ecuaci´on general de proyecci´on (4.3) utilizando las matrices de proyecci´on A, B y C. La forma can´onica de estas ecuaciones es: Las entidades ˜A, ˜B, ˜M fueron definidas en (4.23).
Se sabe que si m1, m2 y m3 son puntos correspondientes entonces debe existir
una soluci´on para M. Una soluci´on conocida al problema de establecer la
correspondencia se obtiene al reformular el sistema de ecuaciones (4.33) de
la siguiente manera:
donde ˜ai, ˜bi y ˜ci son respectivamente la fila i de las matrices ˜A, ˜B y ˜C.
Planteando la hip´otesis de correspondencia, se puede afirmar que si m1, m2
y m3 son puntos correspondientes, entonces debe existir una soluci´on no
trivial para v. Cabe destacar que G es una matriz de 9 £ 7, es decir su
determinante no est´a definido. Sin embargo si se escogen 7 cualesquiera de
las 9 ecuaciones del sistema (4.34) se obtiene un nuevo sistema de ecuaciones
cuya representaci´on matricial es G7v = 0. Si v 6= 0 entonces el determinante
de G7 debe ser cero. Esto quiere decir que para que exista una soluci´on no
trivial para v todas las submatrices de G formadas a partir de 7 de sus filas,
debe ser cero.
El desarrollo de los subdeterminantes de G a partir de la f´ormula de Laplace,
como se hizo en la Secci´on 4.1.3, lleva a expresiones matem´aticas que dependen
de las coordenadas de los puntos m1, m2 y m3 y valores constantes para
las tres im´agenes que dependen s´olo de las tres matrices de proyecci´on. Estos
valores constantes son los denominados tensores trifocales [14, 18, 19].
En este caso existen 36 posibles submatrices de G obtenidas a partir de la
eliminaci´on de dos de sus filas. Estas submatrices se pueden dividir en dos
tipos, aquellas que tienen s´olo una fila de una matriz de proyecci´on (9 casos)
y aquellas que tienen las tres filas de una matriz de proyecci´on (27 casos).
4. Visi´on Est´ereo 69
A manera de ejemplo, en el primer tipo de submatrices, se obtiene para el
subdeterminante de la matriz G en la que se han eliminado las filas 2 y 3:
¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯

que es la vision artificial

La Visi´on Artificial es una gran herramienta para establecer la relaci´on entre
el mundo tridimensional y sus vistas bidimensionales tomadas de ´el. Por
medio de esta teor´ıa se puede hacer, por una parte, una reconstrucci´on del
espacio tridimensional a partir de sus vistas y, por otra parte, llevar a cabo
una simulaci´on de una proyecci´on de una escena tridimensional en la posici´on
deseada a un plano bidimensional.
1.2. Ejemplos
En esta secci´on se muestran algunos ejemplos en los que se puede apreciar el
campo de aplicaciones de la Visi´on Artificial.
Fotogrametr´ıa
En la fotogrametr´ıa se persigue realizar mediciones del espacio 3D a
partir de fotograf´ıas tomadas de ´el. De esta manera es posible medir
superficies, construcciones, objetos, etc. As´ımismo se puede llevar a
cabo una topolog´ıa de un terreno.
Reconstrucci´on 3D
A partir de las vistas, mediante la t´ecnica de triangulaci´on, es posible
obtener un modelo 3D del objeto proyectado en las vistas. El principio
de triangulaci´on es mostrado en la Figura 1.3: sabiendo que los puntos
A y B son proyecciones de un mismo punto tridimensional Q, es
decir A y B son correspondientes, y conociendo los centros ´opticos de
la proyecci´on C1 y C2, se puede encontrar el punto Q a partir de la
intersecci´on entre las dos rectas hC1;Ai y hC2;Bi.
1. Introducci´on 3

Matching y Tracking
Por medio del Matching y Tracking es posible encontrar la correspondencia
entre puntos de varias im´agenes. Los puntos correspondientes
son aquellos que representan una proyecci´on del mismo punto f´ısico en
el espacio 3D. En la Figura 1.4 se puede apreciar tres vistas de una taza
tomadas por una c´amara fija mediante la rotaci´on del eje central de la
taza. Se puede observar que los puntos m1, m2 y m3 en las im´agenes 1, 2
y 3 respectivamente, son correspondientes entre s´ı porque son proyecciones
del mismo punto m de la taza. Mediante la teor´ıa de Visi´on
Artificial podemos responder las siguientes preguntas: i) Conociendo el
punto m1 en la imagen 1, ¿d´onde est´a su punto correspondiente en las
im´agenes 2 y 3? ii) Conociendo los puntos m1 y m2 y sabiendo que son
correspondientes, ¿d´onde se encuentra el punto correspondiente en la
tercera imagen? Estas preguntas ser´an respondidas a lo largo de este
curso.

Computaci´on Gr´afica
Si se tiene un modelo de la formaci´on de la imagen f : 3D ! 2D, es
posible entonces simular gr´aficamente las vistas bidimensionales que se
obtendr´ıan de un objeto tridimensional. Las aplicaciones de realidad
virtual emplean esta teor´ıa.
Estimaci´on de Movimiento
Mediante una c´amara que toma im´agenes de un objeto en movimiento
es posible estimar el movimiento del objeto a partir de los puntos de
correspondencia en la secuencia de im´agenes.

Redes neuronales artificiales (RNA). Concepto y evolución histórica.

1.1. Redes neuronales artificiales (RNA). Concepto y evolución histórica.

Las Redes Neuronales Artificiales (RNA) o sistemas conexionistas son sistemas de
procesamiento de la información cuya estructura y funcionamiento están inspirados en
las redes neuronales biológicas. Consisten en un conjunto de elementos simples de
procesamiento llamados nodos o neuronas conectadas entre sí por conexiones que
tienen un valor numérico modificable llamado peso.
La actividad que una unidad de procesamiento o neurona artificial realiza en un sistema
de este tipo es simple. Normalmente, consiste en sumar los valores de las entradas
(inputs) que recibe de otras unidades conectadas a ella, comparar esta cantidad con el
valor umbral y, si lo iguala o supera, enviar activación o salida (output) a las unidades a
las que esté conectada. Tanto las entradas que la unidad recibe como las salidas que
envía dependen a su vez del peso o fuerza de las conexiones por las cuales se realizan
dichas operaciones.
La arquitectura de procesamiento de la información de los sistemas de RNA se
distingue de la arquitectura convencional Von Neumann (fundamento de la mayor parte
de los ordenadores existentes) en una serie de aspectos fundamentales.
En primer lugar, el procesamiento de la información de un modelo Von Neumann es
secuencial, esto es, una unidad o procesador central se encarga de realizar una tras otra
determinadas transformaciones de expresiones binarias almacenadas en la memoria del
ordenador. Estas transformaciones son realizadas de acuerdo con una serie de
instrucciones (algoritmo, programa), también almacenadas en la memoria. La operación
básica de un sistema de este tipo sería: localización de una expresión en la memoria,
traslado de dicha expresión a la unidad de procesamiento, transformación de la
expresión y colocación de la nueva expresión en otro compartimento de la memoria. Por
su parte, el procesamiento en un sistema conexionista no es secuencial sino paralelo,
esto es, muchas unidades de procesamiento pueden estar funcionando simultáneamente.
En segundo lugar, un rasgo fundamental de una arquitectura Von Neumann es el
carácter discreto de su memoria, que está compuesta por un gran número de ubicaciones
físicas o compartimentos independientes donde se almacenan en código digital tanto las
instrucciones (operaciones a realizar) como los datos o números que el ordenador va a
utilizar en sus operaciones. En redes neuronales, en cambio, la información que posee
un sistema no está localizada o almacenada en compartimentos discretos, sino que está
distribuida a lo largo de los parámetros del sistema. Los parámetros que definen el
“conocimiento” que una red neuronal posee en un momento dado son sus conexiones y
el estado de activación de sus unidades de procesamiento. En un sistema conexionista
las expresiones lingüísticas o simbólicas no existen como tales. Serían el resultado
emergente de la interacción de muchas unidades en un nivel subsimbólico.
Un sistema de procesamiento distribuido en paralelo presenta una serie de ventajas
frente a un modelo convencional Von Neumann. Por un lado, tenemos la resistencia al
funcionamiento defectuoso de una pequeña parte del sistema. En un modelo
conexionista, cada unidad lleva a cabo una computación simple. La fiabilidad de la
computación total que el sistema realiza depende de la interacción paralela de un gran
número de unidades y, consecuentemente, en la mayoría de casos, el sistema puede
continuar su funcionamiento normal, aunque una pequeña parte del mismo haya
resultado dañada. En los sistemas convencionales, en cambio, un defecto en un solo
paso de una larga cadena de operaciones puede echar a perder la totalidad de la
computación. Por otro lado, un modelo conexionista es capaz, en ciertas circunstancias,
de reconocer un objeto a pesar de que sólo se le presente como entrada una parte del
mismo, o a pesar de que la imagen del objeto esté distorsionada. En cambio, en un
sistema convencional el objeto presentado debe corresponderse con una determinada
información almacenada en memoria, de lo contrario, no es capaz de reconocer el
objeto.
Por último, un sistema de RNA no se programa para realizar una determinada tarea a
diferencia de una arquitectura Von Neumann, sino que es “entrenado” a tal efecto.
Consideremos un ejemplo típico de aprendizaje o formación de conceptos en la
estructura de una RNA. Supongamos que presentamos a la red dos tipos de objetos, por
ejemplo la letra A y la letra E con distintos tamaños y en distintas posiciones. En el
aprendizaje de la red neuronal se consigue, tras un número elevado de presentaciones de
los diferentes objetos y consiguiente ajuste o modificación de las conexiones del
sistema, que la red distinga entre As y Es, sea cual fuere su tamaño y posición en la
pantalla. Para ello, podríamos entrenar la red neuronal para que proporcionase como
salida el valor 1 cada vez que se presente una A y el valor 0 en caso de que se presente

una E. El aprendizaje en una RNA es un proceso de ajuste o modificación de los valores
o pesos de las conexiones, “hasta que la conducta del sistema acaba por reproducir las
propiedades estadísticas de sus entradas” (Fodor y Pylyshyn, 1988, p. 30). En nuestro
ejemplo, podríamos decir que la red ha “aprendido” el concepto de letra A y letra E sin
poseer reglas concretas para el reconocimiento de dichas figuras, sin poseer un
programa explícito de instrucciones para su reconocimiento.
Por tanto, para entrenar a un sistema conexionista en la realización de una determinada
clasificación es necesario realizar dos operaciones. Primero, hay que seleccionar una
muestra representativa con respecto a dicha clasificación, de pares de entradas y sus
correspondientes salidas. Segundo, es necesario un algoritmo o regla para ajustar los
valores modificables de las conexiones entre las unidades en un proceso iterativo de
presentación de entradas, observación de salidas y modificación de las conexiones.
Las RNA constituyen una línea de investigación en Inteligencia Artificial (IA), la cual
tiene como objetivo primario la construcción de máquinas inteligentes (Grimson y Patil,
1987). Los orígenes de la IA hay que buscarlos en el movimiento científico de la
cibernética de los años cuarenta y cincuenta. Este movimiento científico se articuló en
torno a la idea de que el funcionamiento de muchos sistemas, vivos o artificiales, puede
ser captado mejor por modelos basados en la transferencia de información que por
modelos basados en la transferencia de energía. La cibernética se propuso estudiar los
elementos comunes entre el funcionamiento de máquinas automáticas y el del sistema
nervioso humano (los procesos de control y comunicación en el animal y en la
máquina). Este problema fue abordado en un esfuerzo interdisciplinar, en el que
intervinieron investigadores procedentes de áreas como matemáticas, ingeniería
electrónica, fisiología y neurociencia, lógica formal, ciencias de la computación y
psicología.
Una importante característica de la cibernética fue la proliferación de distintas
perspectivas en torno al problema de las relaciones entre cerebro y máquina. En la
segunda mitad de la década de los cincuenta comenzaron a destacar dos de entre estas
perspectivas: la IA basada en el procesamiento simbólico, y la investigación en redes
neuronales.
La IA simbólica se basó en la expansión del uso de los ordenadores desde el área de
aplicación del cálculo numérico a tareas simbólicas, esto es, al procesamiento de
elementos que representan palabras, proposiciones u otras entidades conceptuales. Estos
sistemas de IA se basan en las expresiones simbólicas que contienen y en la posibilidad
de manipular y transformar dichas expresiones de una manera sensible a la estructura
lógico-sintáctica de las mismas. Las estructuras representacionales que contiene un
sistema de este tipo son manipuladas y transformadas de acuerdo con ciertas reglas y
estrategias (algoritmos y reglas heurísticas), y la expresión resultante es la solución de
un determinado problema. En un sistema de este tipo, el procesamiento de la
información tiene lugar en el nivel simbólico o representacional y no en el nivel
neurobiológico. Los sistemas de IA simbólica simulan procesos mentales y cognitivos
humanos por medio de programas ejecutados por un ordenador del tipo Von Neumann.
Entre los investigadores más importantes de esta primera época de investigación en este
paradigma se puede destacar a John McCarthy, Allen Newell, Herbert Simon y Marvin
Minsky (Olazarán, 1993).
Paralelamente, en la segunda mitad de los años 50, algunos investigadores comenzaron
a desarrollar una perspectiva diferente en la construcción de máquinas inteligentes: la
perspectiva de las RNA o sistemas conexionistas. Esta perspectiva no perseguía la
modelación de redes neuronales fisiológicas, sino la construcción de máquinas
inteligentes empleando arquitecturas computacionales de cierta semejanza con las redes
neuronales del cerebro. Como antecedentes más directos a este grupo de investigadores,
cabe destacar las aportaciones, por un lado, de Warren McCulloch y Walter Pitts y, por
otro lado, de Donald Hebb.
McCulloch y Pitts (1943) presentaron la estructura y funcionamiento de la unidad
elemental de procesamiento de una red conexionista. La neurona de McCulloch-Pitts
(ver figura 1), como actualmente se conoce, tiene un funcionamiento muy sencillo: si la
suma de entradas excitatorias supera el umbral de activación de la unidad, y además no
hay una entrada inhibitoria, la neurona se activa y emite respuesta (representada por el
valor 1); en caso contrario, la neurona no se activa (valor 0 que indica la ausencia de
respuesta).
Combinando varias neuronas de este tipo con los adecuados umbrales de respuesta, se
puede construir una red que compute cualquier función lógica finita.
Hebb (1949) postuló un sencillo pero potente mecanismo de regulación de las
conexiones neuronales, que constituyó la base de las reglas de aprendizaje que más
tarde se desarrollarían. La regla de Hebb, en su versión más elemental, se expresa como
sigue: “Cuando un axón de una célula A está bastante cerca para excitar a una célula B
y repetida o persistentemente dispara, entonces se produce algún proceso de desarrollo
o cambio metabólico de tal forma que la eficiencia del disparo de A hacia B aumenta”
(Hebb, 1949, p. 42). La propuesta de Hebb es de especial relevancia porque indica que
la información necesaria para modificar el valor de una conexión se encuentra
localmente disponible a ambos lados de la conexión. En la actualidad existe un gran
número de redes neuronales cuyo aprendizaje está basado en la regla de Hebb como las
conocidas redes de Hopfield (1982) y algunos modelos de red propuestos por Kohonen
(1977).
La evolución de la investigación en redes neuronales desde los años 50 a nuestros días
ha estado condicionada por dos grandes acontecimientos: el abandono de esta línea de
investigación en la segunda mitad de los 60 debido a las limitaciones observadas en la
red Perceptrón simple y la emergencia del conexionismo en la segunda mitad de los 80
como paradigma aceptado en IA, gracias, entre otros avances, a la aparición de un
algoritmo, denominado backpropagation error (propagación del error hacia atrás) o
simplemente backpropagation, que permite modificar las conexiones de arquitecturas
multiestrato.
En el primer período de la investigación en redes neuronales, entre mediados de los 50 y
mediados de los 60, una cantidad importante de científicos, ingenieros y grupos de
investigación dedicaron importantes esfuerzos a la construcción y experimentación de

estos sistemas. Entre los grupos más importantes se podrían destacar el grupo de F.
Rosenblatt en la Universidad de Cornell (Nueva York), el grupo de C. Rosen en el
Instituto de Investigación de Stanford (California), y el grupo de B. Widrow en el
Departamento de Ingeniería Electrónica de la Universidad de Stanford.
En este período se produjeron importantes contribuciones científicas. Una de las más
importantes fue el trabajo de los grupos de Rosenblatt y Widrow con sistemas
conexionistas de único estrato o capa (RNA que solo tienen un estrato de conexiones
modificables). La red diseñada por Rosenblatt (1958), denominada Perceptrón, es un
sistema de este tipo (ver figura 2). A pesar de tener dos estratos de conexiones, sólo uno
de ellos está compuesto de conexiones modificables. La capa de entrada o retina
consiste en un conjunto de unidades de entrada binarias conectadas por conexiones con
valor fijo con las unidades de la capa de asociación o de predicados. La última capa es
la de respuesta o decisión, cuya única unidad, con salida binaria, es la que tiene
conexiones modificables con los predicados de la capa anterior.
Figura 2. El Perceptrón de Rosenblatt.
El teorema de convergencia de la regla de aprendizaje del Perceptrón desarrollado por
Rosenblatt establecía que, si los parámetros o pesos del sistema eran capaces de realizar
una determinada clasificación, el sistema acabaría aprendiéndola en un número finito de

pasos, si se modificaban las conexiones de acuerdo con dicha regla de aprendizaje
(Fausett, 1994). Más concretamente, la regla de aprendizaje del Perceptrón es un
algoritmo de los denominados supervisado por corrección de errores y consiste en ir
ajustando de forma iterativa los pesos en proporción a la diferencia existente entre la
salida actual de la red y la salida deseada, con el objetivo de minimizar el error actual de
la red.