Profesor e investigador en la Universidad de las Américas, Campus Puebla. Ex Hacienda Santa Catarina Mártir, CP. 72810 San Andrés Cholula, Puebla, México. Teléfono: + 52 (222) 229 31 19. Correo electrónico: antonio.rico@udlap.mx
Propuestas como elemento central de un modelo probabilístico, las funciones de creencia intentan capturar las creencias que un sujeto o agente artificial genera conforme observa el mundo. Aunque dicho constructo ha sido exitoso en diversos campos de la ciencia, en la mayoría de sus aplicaciones para el diseño de agentes artificiales la modalidad del creer ha explotado tan sólo algunos de sus posibles modos de manifestación. Esto ha cambiado con algunas aplicaciones recientes de la lingüística computacional, donde todos los modos del creer de esta modalidad cognitiva son finalmente abordados. Esta ampliación de los modos del creer en el diseño de sujetos artificiales ha resultado en una mejora en el desempeño de estas aplicaciones de la lingüística computacional. Así, la advertencia de Greimas de no ignorar esta modalidad cognitiva gana una validez y actualidad evidentes.
Palabras clave: teoría de la evidencia, sujeto artificial, reconocimiento de voz, agentes de diálogo.
Proposées comme élément central d'un modèle probabiliste, les fonctions de croyance tentent de capturer les croyances générées par un sujet ou agent artificiel à partir de son observation du monde. Même si ce schéma a eu du succès dans divers domaines de la science, dans la plupart de ses applications pour l'élaboration d'agents artificiels, la modalité du croire n'a exploité que quelques-uns des modes possibles de manifestation. Certaines applications récentes de la linguistique informatique ont changé cette situation où tous les modes du croire de cette modalité cognitive sont finalement abordés. Cette expansion des modes du croire dans l'élaboration de sujets artificiels a eu comme conséquence l'amélioration de la performance de ces applications de la linguistique informatique. C'est ainsi que l'avertissement de Greimas de ne pas ignorer cette modalité cognitive prend toute son ampleur et devient d'une actualité évidente.
Mots-clés : théorie de l'évidence, sujet artificiel, reconnaissance de la voie, agents du dialogue.
Proposed as a core element for a probabilistic model, belief functions are aimed at representing the beliefs an artificial agent or subject produces as it observes the world. Although such a construct has been successfully applied in a number of scientific fields, most of its applications in the design of artificial agents have exploited the modality of believing using only a few of all of its possible modes of expression. This has recently changed with a number of current computational linguistics applications which employ all modes of believing for this cognitive modality. The expansion in the use of the modes of believing for the design of artificial agents has resulted in an improvement of the performance by these computational linguistics applications. These results confirm the current validity of Greimas' warning as to not to ignore this cognitive modality.
Keywords: theory of evidence, artificial agent, speech recognition, conversational agents.
En Greimas (1989) aparece una distinción importante acerca de la manera en que los seres humanos organizamos y jerarquizamos nuestro conocimiento del mundo. Frente a la modalidad del saber, marcadamente preferida en el discurso científico, la modalidad cognitiva del creer ha sido relegada, si no es que obviada, durante mucho tiempo en diversos campos de la ciencia. A pesar de esto, dentro del campo de la inteligencia artificial (que parte de la computación y las matemáticas), se empezó a gestar en los años 70 la ahora conocida como teoría de las funciones de creencia (theory of belief functions) (Yager y Liu, 2008). Posteriormente adoptada en diversos campos de la ciencia, esta teoría propuso un constructo para observar acciones, agentes y objetos con el fin de generar creencias sobre el mundo y modelar las acciones de sujetos artificiales. La idea central de dicho constructo, representado por la función de creencia (belief function), no es producir saberes o conocimientos absolutos, sino creencias sobre lo incierto o lo ambiguo.
Para vincular las modalidades cognitivas del sujeto humano en Greimas (1989), específicamente la modalidad del creer, con el constructo de las creencias de la inteligencia artificial, este artículo argüirá que los agentes computacionales que utilizan estas creencias, varios de los cuales serán presentados en detalle más adelante, constituyen sujetos artificiales. Estos sujetos artificiales que tienen la facultad de observar y discriminar objetos y acciones también pueden analizar las acciones de jugadores humanos para guiar sus propias acciones como contrincantes de aquéllos, y tienen la capacidad de escuchar, entender y responder a conversaciones con humanos que buscan información en situaciones complejas. Independientemente de si los procesos cognitivos subyacentes a estos sujetos artificiales son equivalentes o no a los del cerebro humano, los resultados de su compleja actuación los hacen sin duda sujetos de conocimiento, de aprendizaje y de enunciación (Oberti, 2003). Dada esta última aseveración, los sujetos artificiales podrían ser tratados como sujetos semióticos cabales, si bien hay que reconocer que esta conceptualización del sujeto artificial no está exenta de controversia. Aunque es obvio que el sujeto artificial recién esbozado se sitúa frente a otro (éste sí un sujeto humano) para hacer una interpretación del mundo exterior (Zelis, 2015), su constitución propia como sujeto está supeditada a ese otro sujeto. Así, el sujeto artificial aún no se ha constituido como un sujeto semiótico con las mismas facultades del sujeto humano, sobre todo pensando en el rol de la corporeidad en los procesos semióticos, en el que han hecho énfasis los teóricos de la semiótica del cuerpo (Contreras, 2012). Sin embargo, al mismo tiempo es necesario abordar al sujeto artificial como un sujeto semiótico peculiar. En este sentido, este sujeto artificial quizá no sea simplemente un sujeto sino una subjetividad de la época, en términos de Silva (2014), un sujeto de la aldea de este nuevo milenio. Con la presencia cada vez mayor de sujetos artificiales más y más complejos en la vida cotidiana de los seres humanos —piénsese por ejemplo en los agentes de diálogo para recuperación de información del tipo de Siri, Cortana y Google Now— el estudio de este tipo de sujeto artificial pronto pasará a convertirse de una discusión interesante en un objetivo apremiante de la teoría de la significación y del conocimiento. Finalmente es importante notar que el estudio de este nuevo sujeto no puede ser objeto de estudio de la lingüística computacional o de la inteligencia artificial, cuyas preocupaciones se guían por el planteamiento de algoritmos estocásticos y su rendimiento en términos de precisión y rapidez durante aplicaciones prácticas. La reflexión sobre el sujeto artificial como sujeto de conocimiento y de significación debería ser parte cabal de la semiótica, quizá de una semiótica computacional particular enfocada al conocimiento artificial, y no necesariamente emparentada con la ciber-semiótica, cuyo plan es mucho más genérico, global y centrado en una teoría cognitiva de corte más bien universal (Brier, 2009; 2010).
Volviendo a Greimas (1989), la modalidad cognitiva del creer se puede manifestar de varias maneras en diferentes discursos. Según el modo en que se presenta, el creer puede ser un determinante de una actividad, un efecto intencional, un modo de existencia o una forma de expresión. Durante muchos años, la teoría de las funciones ha sido aplicada en diversos ámbitos, pero esas aplicaciones conceptualizaron al creer en sólo tres de los cuatro modos antes mencionados. Como se dijo más arriba, para construir funciones de creencia, primordialmente se han considerado acciones (expresando así la creencia como determinante de una actividad), se han examinado las intenciones de actores o agentes (con la creencia entendida como efecto intencional) y se ha identificado y ponderado el valor de objetos (donde la creencia parte esencialmente de un modo de existencia). Así, lo que no se había hecho en la aplicación de esta teoría era conceptualizar el creer como una forma de expresión. Esto cambió hace muy poco con la adopción de las funciones de creencia en el ámbito de la lingüística computacional, particularmente en las tareas del reconocimiento de voz y del diseño de agentes artificiales de diálogo (Williams, 2012). En esta nueva aplicación de la teoría de las funciones de creencia, el léxico utilizado por los usuarios de los agentes de diálogo es central para la construcción de creencias (Henderson, Thomson y Young, 2014; Ma et al., 2012; Misu et al., 2014). Con esta última extensión de las funciones de creencia, el presente artículo arguye que esta teoría finalmente explota todos los modos del creer planteados por Greimas (1989). En este sentido, lo más interesante es que esta reciente adopción de las funciones de creencia en el ámbito del reconocimiento de voz ha permitido que este último campo mejore sus rendimientos de manera significativa (Henderson, Thomson y Young, 2014; Ma et al., 2012). Cabe destacar además que la mejora de los algoritmos del reconocimiento de voz propios de la electrónica, los cuales aunque han sido esenciales en el desempeño de esta tarea, han exhibido varios estancamientos a lo largo de su historia (Cadore et al., 2013; Werbos, 1991). En este caso, la mejora experimentada en el desempeño de los agentes de diálogo se deriva de la inclusión de factores relacionados con la modalidad cognitiva que alude a la incertidumbre o la ambigüedad, la modalidad cognitiva del creer en términos greimasianos. Así, la indicación de Greimas, quien reconoce la hegemonía del saber por encima del creer en el discurso científico, pero nos advierte sobre no ignorar la importancia de esta segunda modalidad, adquiere una vigencia y una validez invaluables.
Con base en las observaciones que hacemos del mundo, los seres humanos construimos creencias. A partir de la observación reiterada de un cielo nublado o de un olor a tierra mojada, por ejemplo, estos indicios se convierten en evidencia de una lluvia probable. Conforme esta dinámica continúa, nuevas observaciones pueden refinar nuestras creencias y llevarnos eventualmente a asociar las tonalidades del cielo nublado con la intensidad de la precipitación y el olor a tierra mojada con el comienzo de ésta. La creencia y el grado de certeza que se tiene sobre ésta (la probabilidad de la creencia) se van moldeando con nuestra exposición a más y más observaciones, es decir, con nuestro procesamiento de la evidencia. Siguiendo este razonamiento, hace ya cuatro décadas el estadista Shafer intentó capturar matemáticamente la modalidad cognitiva del creer proponiendo una teoría de la evidencia (1976) para moldear las acciones de sujetos artificiales. Con una amplia aplicación en el diseño de agentes artificiales, el constructo operativo principal de esta teoría de la evidencia son las funciones de creencia. La propuesta de estas funciones de creencia estaba inspirada por los grados de creencia (degrees of belief) del estudio sobre la probabilidad de Dempster (1967), quien fuera maestro de Shafer (Barnett, 1981; Zadeh, 1984). Este origen es el motivo del eventual nombre de teoría de las funciones de creencia de Dempster-Shafer (Yager y Liu, 2008).
En los inicios de la teoría de las funciones de creencia, todo parte del planteamiento de una familia de fórmulas para calcular la probabilidad de la creencia de un evento A, P *(A), y la probabilidad de lo que Shafer llama la plausibilidad de dicho evento, P *(A). Para fines prácticos, estas dos probabilidades representan el límite inferior, en el caso de la probabilidad de la creencia, P *(A), y el límite superior, para la probabilidad de la plausibilidad P *(A), de la probabilidad de un evento A, P(A). Es decir, P *(A) ≤ P(A) ≤ P *(A) (Zadeh, 1984). Partiendo de estos conceptos básicos, una función de creencia para A, Creer(A), se puede derivar de la función complementaria Dudar(A) que equivale a Creer(noA). Partiendo de la equivalencia Dudar(A) = Creer(noA), el límite superior de la probabilidad de A, la probabilidad de la llamada plausibilidad P *(A) es igual a la certeza total (1 en términos estadísticos) menos la función de la duda. Es decir, P *(A) = 1 - Duda(A) = 1 - Creer(noA) (Barnett, 1981). De ahí también se puede derivar que la probabilidad de la creencia más la probabilidad de la plausibilidad de la duda sean igual a uno, P *(A) + P *(noA) = 1 (Zadeh, 1984). Esta propuesta de la distribución de la masa de probabilidad representó un giro respecto de otros modelos estadísticos populares en el estudio de la probabilidad, como por ejemplo el modelo bayesiano (Barnett, 1981). Lo más importante del nuevo modelo propuesto por Shafer (1976), el cual intenta abordar el conflicto de la cuantificación de la creencia en situaciones inciertas o ambiguas, ha sido su exitosa aplicación en el diseño de agentes artificiales en diversos campos de las ciencias. En la siguiente sección se esboza la contribución de la teoría de las funciones de creencia en un par de áreas que se han beneficiado directamente de su aplicación: la teoría del juego y la visión por computadora. Esta descripción hará énfasis en el hecho de que estas aplicaciones han implementado la función de creencia para modelar acciones, agentes y objetos, explotando así sólo tres modos del creer propuestos por Greimas (1989), como un determinante de una actividad, como un efecto intencional y como un modo de existencia.
Entendiendo el juego como la descripción formal de una situación estratégica, la teoría del juego ha abordado su estudio enfocándose en la toma de decisiones de diversos agentes artificiales (o jugadores) cuyas acciones (o decisiones) tienen el potencial de afectar las intenciones (o intereses) de otros jugadores (Turocy y von Stengel, 2003). Así, los elementos esenciales para la existencia de un juego desde la perspectiva de esta teoría son tres. En primer lugar, debe haber la participación de varios agentes o jugadores. Un juego con un solo jugador representa un caso particular llamado problema de decisión. En segundo lugar, es necesario contar con una descripción de las acciones posibles (las reglas del juego), pero no de las acciones reales que serán realizadas por los agentes (Osborne y Rubinstein, 1994), de lo contrario se contaría con un instructivo o receta. Y finalmente se necesita especificar las intenciones de los jugadores, es decir, los intereses o metas que los guíen a uno o varios resultados deseados.
Dentro de la teoría del juego, la aplicación del constructo matemático de la creencia ha tenido una amplia utilización. Bonet y Geffner (2013; 2014) describen varios juegos en los que ellos han aplicado este concepto. Los autores parten del planteamiento de un problema de rastreo de creencias para planeación (belief tracking for planning problem) (Bonet y Geffner, 2013), en el que se intenta determinar si la ejecución de una cierta secuencia de acciones por parte de un sujeto artificial es viable para un cierto problema o juego con la obtención de un resultado deseado. A partir de este planteamiento inicial, los autores proponen un par de modificaciones al rastreo de creencias (Bonet y Geffner, 2013; 2014), como el rastreo casual de creencias (causal belief tracking), donde las creencias son evaluadas después de que un sujeto artificial ha realizado un número de acciones. Los juegos seleccionados por estos autores para evaluar su implementación de creencias son el Buscaminas, la Batalla Naval y el Mundo de Wumpus, además de una familia de juegos utilizados como referentes de pruebas y desarrollo: el anillo determinista, no determinista y no determinista con llaves (Cimatti, Roveri y Bertoli, 2004). Para entender mejor el rol que tienen las creencias en la experimentación de estos autores con estos juegos, a continuación se describen brevemente dos de los juegos clásicos utilizados con fines experimentales y evaluativos por estos autores: el Buscaminas y la Batalla Naval. Además, en el resto de este apartado también se analiza la manera en que los modos del creer forman parte de la experimentación con sujetos artificiales de Bonet y Geffner (2013; 2014) para la evaluación de su modelo de creencias.
El juego del Buscaminas es un juego con un solo jugador y en ese sentido constituye un problema de decisión (Turocy y von Stengel, 2003). El objetivo final del único jugador participante es limpiar un campo cuadrangular minado sin detonar ninguna mina (Bonet y Geffner, 2014). Para comenzar, el jugador se debe situar en una celda y (salvo que dicha celda esté minada y el juego termine con esa primera y única acción), la celda escogida revela un número que representa la cantidad de celdas circundantes que tienen minas. Si se abre una celda sin ninguna mina circundante la celda no muestra ningún número y todas las celdas de este tipo se muestran en el tablero. El jugador tiene que recorrer el resto del tablero ya sea abriendo una celda para descubrir el número de celdas circundantes minadas o marcando esa celda como minada, si los indicios ya revelados le hacen creer que esa celda está, en efecto, minada. Todas las celdas no minadas deben ser abiertas, sin abrir ninguna de las minadas, para completar el juego exitosamente. En la descripción de Bonet y Geffner (2013; 2014) el juego presenta tres niveles clásicos: con un tablero de 8 celdas por lado y 10 minas; con un tablero de 16 celdas por lado y 40 minas; y con un tablero rectangular de 16 por 30 celdas y 99 minas. La Figura 1 a continuación muestra tres momentos en el progreso de un juego del Buscaminas,1 cuya implementación utiliza un tablero de 9 celdas por lado y 10 minas en su nivel para principiantes. De izquierda a derecha, la primera toma del juego muestra el inicio de un juego; la segunda, un momento intermedio; y la tercera, el juego terminado de manera exitosa.
Como se puede ver en el primer estadio mostrado a la izquierda, el juego comienza con todas las casillas cubiertas, con un contador en el ángulo superior izquierdo que disminuye al marcar las 10 minas escondidas, y con un contador de tiempo en la esquina superior derecha. En el segundo estadio mostrado al centro de la figura, ya se ha abierto alguna celda que no está circundada por ninguna mina y eso destapa el resto de las celdas de ese tipo que son adyacentes. Estas celdas se muestran en un color gris mate sin relieve. Al mismo tiempo, muchas celdas muestran ya el número de celdas minadas circundantes. Finalmente, en el último estadio en el extremo derecho de la figura, 10 celdas han sido marcadas como minadas usando las banderas correctamente y el resto de las celdas ha sido destapado sin detonar ninguna mina.
Para evaluar su modelo de creencias con el juego del Buscaminas, Bonet y Geffner (2013; 2014) construyen un sujeto artificial o simulador que va abriendo y marcando celdas con base en los resultados de las acciones previas (la celdas descubiertas sin número, las celdas abiertas con número y las celdas marcadas como minadas), las intenciones del jugador (recorrer todo el tablero sin abrir una celda minada) y las condiciones de los objetos que existen en el juego (el tablero y su tamaño, así como las minas y el número total de éstas). De esa manera, las creencias utilizadas por el sujeto artificial diseñado para el Buscaminas expresan tres modos del creer: determinantes de actividades, efectos intencionales y modos de existencia (Greimas, 1989). Los resultados del éxito del sujeto artificial de Bonet y Geffner (2014) pueden ser evaluados en términos de velocidad (en cuánto tiempo se termina el juego) y de precisión (el porcentaje de veces que el juego es completado exitosamente). Comparando sus resultados con estudios previos, los autores hacen notar que otros estudios no suelen reportar la velocidad de sus sujetos artificiales o simuladores. En términos de precisión, sin embargo, la implementación del modelo de creencias de Bonet y Geffner obtiene resultados claramente competitivos respecto de otros modelos probabilísticos (Lin et al., 2012).
Un segundo juego en el que Bonet y Geffner (2013; 2014) prueban su modelo probabilístico de un sujeto artificial guiado por creencias es el juego de la Batalla Naval. En este juego dos jugadores intentan adivinar la posición en el tablero de los barcos que pueden ser bombardeados (Bonet y Geffner, 2014). De manera clásica, el juego se lleva a cabo con un tablero de 10 celdas por lado para cada jugador, donde se esconden cuatro barcos, cada uno de 2, 3, 4 y 5 celdas de longitud. Los barcos deben estar previamente ubicados de manera que no se encuentren yuxtapuestos vertical, horizontal, o diagonalmente. Los jugadores lanzan torpedos a las celdas del tablero contrario donde creen que se encuentra un barco escondido y, ya sea que el torpedo caiga en el agua o que un barco sea alcanzado, la celda es marcada con uno de estos dos resultados. Un barco es hundido sólo cuando todas las celdas que ocupa han sido bombardeadas. Con dicha descripción, el juego de la Batalla Naval cumple con los elementos definitorios del juego antes mencionado (Osborne y Rubinstein, 1994; Turocy y von Stengel, 2003). La Figura 2 a continuación muestra un estadio más bien avanzado de un juego de la Batalla Naval.2
La configuración mostrada en la Fig. 2 es ligeramente diferente a la clásica y cuenta con cinco barcos por jugador, en vez de cuatro. Las longitudes de dichos barcos son de 5, 4, 3 y 2 celdas, con dos barcos compartiendo la misma longitud de 3 celdas. En el momento del juego capturado en la figura, al jugador que observa su avance le han hundido ya cuatro de sus barcos (cuyas longitudes son de 5, 4 y 3 celdas, con dos barcos de 3 celdas hundidos) y al enemigo o sujeto artificial del juego, el jugador le ha hundido tres barcos (con longitudes de 5, 4 y 3 celdas).
Con el fin de evaluar la contribución de su modelo para el rastreo de creencias, Bonet y Geffner (2013; 2014) construyen dos situaciones con sujetos artificiales, una en la cual el bombardeo alternado de los sujetos artificiales se realiza de manera aleatoria, y otra en el que el bombardeo es guiado por las creencias generadas por un modelo probabilístico basado en éstas. Las creencias del modelo son construidas a partir de las acciones de los sujetos artificiales o jugadores (las acciones previas y su resultado, es decir si un barco fue alcanzado, hundido, o el torpedo cayó en el agua), las intenciones de estos sujetos o agentes artificiales (el objetivo de localizar y eventualmente hundir todos los barcos del contrincante o de los contrincantes) y la configuración de los objetos en el tablero (la cantidad de barcos existentes, su tamaño, su disposición y el tamaño del tablero mismo). Una vez más, las creencias utilizadas por estos autores expresan los tres primeros modos del creer mencionados por Greimas (1989), determinantes de actividades, efectos intencionales y modos de existencia. Los resultados de Bonet y Geffner (2013; 2014) para varios tamaños de tablero (de 10, 20, 30 y 40 celdas por lado) muestran que su modelo de creencias no sólo supera modelos aleatorios en los que el bombardeo de los jugadores no toma en cuenta la evidencia previa, sino que además supera notoriamente otros modelos de cálculos probabilísticos que no se guían por creencias (Kocsis y Szepesvári, 2006).
Cabe mencionar que, derivado de la amplia experimentación que Bonet y Geffner (2013; 2014) realizan con su propuesta para el rastreo de creencias, estos autores concluyen que en todos los juegos con los que experimentan, su modelo supera tanto a un esquema con un sujeto artificial con acciones aleatorias como a modelos probabilísticos con agentes artificiales que no utilizan creencias. Además, los autores señalan que su modelo se comporta de manera efectiva y eficiente aún en problemas de grandes dimensiones, con los que llegan también a evaluar su modelo. Con los ejemplos aquí descritos, las aportaciones del constructo matemático de la creencia para el diseño de sujetos artificiales en la teoría del juego resultan evidentes. A continuación se esboza algunas de las aportaciones de las funciones de creencia en un segundo campo de las ciencias, el de la visión por computadora.
La visión artificial o visión por computadora es el área de la inteligencia artificial que ha intentado desarrollar técnicas matemáticas para describir por medio de un agente artificial el mundo que los humanos vemos en las imágenes con el objetivo de reconstruir sus propiedades, tales como la forma y la apariencia (Szeliski, 2010). En la actualidad, la visión artificial tiene múltiples áreas de aplicación en la vida cotidiana, como el reconocimiento óptico de caracteres (para la identificación del texto escrito), la inspección automatizada (para la revisión de calidad de objetos en procesos como la manufactura), y la seguridad automovilística (en los sistemas de asistencia de manejo para detección de peatones u otros automóviles), entre otras varias. En este apartado se discuten algunos beneficios obtenidos con la aplicación de las funciones de creencia en diferentes tareas realizadas por sujetos o agentes de la visión artificial.
La aplicación de las funciones de creencia para mejorar la interpretación de imágenes por agentes artificiales tiene una amplia literatura. Un ejemplo de esto es la propuesta de Bloch (2008), la cual tiene el objetivo de mejorar la clasificación automática de imágenes en el contexto médico. Aplicando las funciones de creencia en la interpretación de resonancias magnéticas del cerebro, esta autora propone refinar la definición de las funciones de creencia con el propósito de incrementar la precisión de agentes artificiales en la identificación de ventrículos cerebrales, fluido cerebroespinal y áreas en estado patológico en el cerebro. El problema principal que Bloch describe es que los ventrículos cerebrales y el fluido cerebroespinal resultan más notorios al usar un conjunto de parámetros en la resonancia magnética. Sin embargo, este conjunto de parámetros resulta en un detrimento para la identificación de las áreas patológicas en el cerebro. Por el contrario, con otro conjunto de parámetros, el área patológica es resaltada. Esto sucede al utilizar una modalidad de la resonancia magnética conocida como eco dual. La aportación de las funciones de creencia adaptadas a este problema es que le permiten a un sujeto artificial manejar la ambigüedad e imprecisión entre las diferentes áreas reconocidas por los dos tipos de tomas. En cuanto a los modos del creer explorados en esta aplicación de las funciones de creencia, el problema aquí planteado utiliza dos medios de obtención de imágenes (que podrían ser vistos como dos agentes distintos) e intenta identificar áreas o sustancias en el cerebro (la cuales representan objetos). Desde ese punto de vista, sólo dos de los modos del creer mencionados por Greimas (1989) son utilizados: la creencia como determinantes de actividades y como modos de existencia.
En la tarea más compleja del rastreo visual, la cual consiste en la localización de objetos por un sujeto o agente artificial a lo largo de un video, Klein, Lecomte y Miché (2010) también deciden aplicar las funciones de creencia. Estos autores proponen un modelo de implementación de funciones de creencia para manejar la imprecisión en la imagen y la incertidumbre en su interpretación, si bien en este caso la imagen se encuentra en movimiento. Uno de los retos primordiales al que estos autores buscan responder es la debilitación de fuentes y objetos conforme el video progresa. Tres situaciones en las que Klein et al., ponen a prueba su modelo de visión artificial basado en funciones de creencia representan a un sujeto artificial que rastrea una pelota frente a una cámara estática, otro que rastrea un par de automóviles que viajan frente a otro auto también en movimiento, y un tercero que rastrea un perro que juega con una pelota frente a una cámara estática. Hacia el final de su artículo los autores concluyen que su modelo de asignación de creencias logra un desempeño satisfactorio en el diseño de sujetos artificiales que rastrean fuentes u objetos altamente imprecisos y poco confiables. Las condiciones de aplicación del modelo de Klein y su equipo de trabajo incluyen factores harto complejos respecto de la aplicación de creencias en el modelo de Bloch (2008). En primer lugar, en los tres problemas abordados por Klein et al. (2010) hay actividades de diversos tipos. En el caso de la pelota de tenis hay una sola acción, la cual es inducida por un agente fuera de la escena. Respecto del auto que sigue a otros tiene dos, los tres vehículos realizan acciones y cada una de ellas influye en la visión del sujeto artificial. El desplazamiento del auto en el que está montada la cámara, que representa el punto de vista del sujeto artificial, cambia la perspectiva de los otros dos, y el movimiento de los otros dos influye en la capacidad para ser discernidos. En el caso del perro, éste se mueve a voluntad en la escena, pero la pelota con que juega se desplaza por la manipulación que él hace de ella. En segundo lugar, estas acciones diversas están influidas en gran medida por los varios tipos de agentes e intenciones involucradas. Más allá del sujeto artificial que observa, en los tres contextos aparecen un agente fuera de escena que mantiene una pelota de tenis rebotando, los conductores de los dos vehículos observados que conducen en una misma dirección respetando ciertos patrones de manejo, y el perro jugando con un patrón de movimientos. En tercer y último lugar, los objetos presentes en los tres problemas también son muy importantes: una pelota con ciertas propiedades que la hacen rebotar y una pared que produce su deflexión, la carretera y los automóviles, y la pelota manipulada por el perro. Lo que resulta interesante es que a pesar de la diversidad y complejidad de los problemas trabajados por Klein et al. (2008), los modelos de creencias aplicados por los sujetos artificiales implicados en estos siguen explorando únicamente tres modos del creer: determinantes de actividades, efectos intencionales y modos de existencia (Greimas, 1989). Esto ha sucedido aunque la utilización de modelos probabilísticos basados en creencias en esta área no es tan nuevo como lo podría parecer a partir de los dos estudios recién revisados (Bloch, 2008; Klein et al., 2010). Trabajos como el de Provan (1989) ya aplicaban funciones de creencia al reconocimiento visual de objetos por sujetos artificiales. Pero una verdadera extensión en los modos del creer en la aplicación de creencias se da en la implementación de éstas en las tareas del reconocimiento de voz, la cual se describe a continuación.
Durante varias décadas, la teoría de las funciones de creencia no tuvo resonancia en el ámbito de la lingüística. Este hecho es particularmente interesante en el caso de la lingüística computacional, la cual ha hecho un uso asiduo de diversos modelos de probabilidad (Jurafsky y Martin, 2008). Si se tiene en cuenta su fructífera aplicación en otros campos cercanos a la inteligencia artificial, como la teoría del juego o la visión artificial, la cual se considera una rama de ésta, dicha ausencia resulta aún más llamativa. Ahora bien, como se ha expuesto y mostrado en apartados anteriores, la aplicación de las funciones de creencia en estos otros campos de la ciencia no ha incluido elementos del lenguaje con un valor lingüístico, y por ello los modos del creer utilizados en estas aplicaciones no incluyen al creer como una forma de expresión. Recientemente esto ha dado un giro con la aplicación de las funciones de creencia en el ámbito del reconocimiento de voz y los agentes artificiales de diálogo (Williams, 2012). La descripción de esta aplicación, con énfasis en el aprovechamiento de elementos lingüísticos en su modelo probabilístico de creencias ocupará el resto de este apartado.
El objetivo primordial del área de la lingüística computacional conocida como reconocimiento de voz es el mapeo de la señal acústica del habla a una concatenación de palabras (McTear, 2004). Conforme el reconocimiento de voz ha ido mejorando, el siguiente reto de esta área genérica ha sido el diseño de los cada vez más comunes sistemas de diálogo (Dahl, 2004), también conocidos como interfaces de voz (Cohen, Giangola y Balogh, 2004). Un sistema de diálogo es un agente o sujeto artificial con el que una persona conversa cuando utiliza una aplicación de reconocimiento de voz. Los sistemas de diálogos están compuestos por un serie de detonadores de conversación o mensajes del sistema, una serie de gramáticas (que en este contexto no son sino listas de posibles respuestas a mensajes previos) y una lógica del diálogo o diagrama de flujo de la llamada. De manera paralela, un agente de diálogo necesita hacer uso de un motor de reconocimiento de voz, para interpretar lo que el usuario dice, y de un motor de síntesis de voz, para producir los mensajes de sistema que respondan al diálogo (McTear, 2004). Así, en gran medida, el éxito de los agentes artificiales de diálogo ha dependido de la precisión de los algoritmos del reconocimiento de voz, cuyo desempeño ha sufrido varios estancamientos a lo largo de su historia (Cadore et al., 2013; Werbos, 1991). Aunque los algoritmos de reconocimiento de voz han utilizado desde hace mucho información sintagmática (las palabras que rodean a otras palabras) para tomar decisiones en su interpretación de la señal acústica (Jurafsky y Martin, 2008), la introducción de las funciones de creencia le ha dado un giro a esta área en tal sentido. Las funciones de creencia, como se describe a continuación en algunos estudios, han servido para incorporar información situacional y dialógica (palabras relacionadas con ciertas acciones o con ciertos estadios de la conversación) para mejorar el desempeño de los agentes de diálogo.
En su aplicación de las funciones de creencia al reconocimiento de voz, Henderson, Thomson y Young (2014) utilizan el reconocimiento de palabras clave para generar creencias y rastrear el estadio de la conversación en que se encuentra el usuario con un agente artificial. El contexto de prueba de su modelo es la búsqueda de restaurantes al interactuar con una aplicación que recupera información a través de una interface de voz. La utilización de estas palabras clave (como por ejemplo, tipos de comida) le permite al sistema brincar entre los diferentes estadios del diagrama de flujo de la llamada cuando cree que el usuario ha hecho un salto de esta naturaleza. El modelo basado en creencias de Henderson et al. fue evaluado en comparación con varios otros modelos como parte de un evento donde múltiples participantes intentan resolver un mismo reto. En ese sentido, la evaluación y comparación de los sistemas de diálogo puede hacerse muy compleja, dependiendo de los aspectos evaluados. Así, el reporte de resultados del evento en que Henderson et al. participaron utiliza 318 métricas distintas para evaluar las respuestas al reto y, de acuerdo con ello, el rastreo de estadios por creencias obtuvo el primer lugar en 89 de esas métricas, con una muy buena precisión en el propio reconocimiento de voz. El problema que estos autores intentan resolver utilizando funciones de creencia tiene acciones concretas (encontrar un lugar de cierto tipo), agentes con una intención concreta (un usuario del sistema con expectativas sobre el desarrollo de la conversación), así como ciertos objetos (tipos de restaurantes, direcciones, tipos de comida). Sin embargo, este problema también tiene un lenguaje que es clave para el funcionamiento del sistema (palabras clave para denotar el inicio de la conversación y para cerrar el intercambio, así como palabras clave sobre el tema de búsqueda y sobre el objetivo concreto de ésta). Con las funciones de creencia específicamente rastreando los estadios de la conversación por medio de la identificación de léxico relevante, no sólo los tres modos del creer antes mencionados son explotados (determinantes de actividades, efectos intencionales y modos de existencia), sino también el creer como una forma de expresión. A partir de los elementos léxicos que el usuario utiliza, el agente artificial genera creencias sobre la expresión de objetivos en la conversación en general y sobre el desplazamiento de la conversación a través de sus diferentes estadios.
En un sistema de navegación automotriz con una interface de voz, Ma et al. (2012) se proponen una tarea bastante más robusta con su agente artificial de diálogo. Generando funciones de creencia a partir de varios elementos, incluidos diferentes categorías de léxico, el agente de diálogo de estos autores intenta determinar el lugar de destino del usuario de un sistema de navegación. La complejidad del sistema de estos autores se deriva del hecho de que utilizan dos modelos de rastreo de creencias en paralelo. El primer modelo captura información de lugares que no son punto de referencia, como el nombre de calles, el negocio buscado (restaurante, tienda, taller) y su categorización (de comida china, de ropa, de bicicletas). El segundo modelo de rastreo utiliza puntos de referencia (lugares populares, como los restaurantes McDonald's) y puntos de interés (como estaciones de autobuses/tren, parques o monumentos). La información puede ser recolectada tanto por las palabras utilizadas por el usuario como por la lectura del GPS a lo largo de la ruta recorrida por el vehículo. Una vez que los dos modelos de creencia acumulan información, el lugar de destino y las instrucciones de manejo hasta él son filtrados por una combinación de los dos modelos, que ayudan al agente de diálogo artificial a decidir sobre el destino por recomendar. Los autores concluyen que la interacción de los dos sistemas puede mejorar significativamente el rastreo de los objetivos e intenciones del usuario. La tarea descrita por Ma et al. incluye múltiples elementos que pertenecen a todos los modos del creer. En su sistema de diálogo, los autores construyen creencias que se manifiestan como acciones (el movimiento del auto, la interacción del usuario a lo largo del diálogo), intenciones (el deseo explícito de ir a un lugar), objetos (el punto geográfico de partida, el lugar de destino, la disposición de lugares durante la ruta) y expresiones (palabras clave sobre lugares que no son punto de referencia, puntos de referencia y puntos de interés). Con este último ejemplo de la lingüística computacional, resulta evidente que la implementación del concepto matemático de la creencia en el diseño de un sujeto artificial de conocimiento toma forma en todos los modos del creer descritos por Greimas (1989) y con ello mejora el desempeño del agente artificial en aplicaciones concretas que responden a necesidades en la vida cotidiana de sus usuarios.
Con ya cuatro décadas desde su propuesta inicial, la teoría de las funciones de creencia constituye un modelo probabilístico que ha dado frutos palpables en la mejora de diversas tareas en distintos campos de la ciencia. Este artículo ha dado prueba de ello en el diseño de sujetos semióticos artificiales de tres ámbitos distintos: la teoría del juego, la visión artificial y los sistemas de diálogo. Sin embargo, al inicio de este artículo se ha argüido que la manera en que se han construido las funciones de creencia en muchas de las aplicaciones de esta teoría ha involucrado tan sólo a tres de los modos del creer descritos en Greimas (1989): como determinante de una actividad, como efecto intencional o como modo de existencia. Esto se ha mostrado en el análisis de las aplicaciones a los dos primeros ámbitos científicos recién listados. Al incluir la teoría aquí presentada en las tareas del reconocimiento de voz y los agentes artificiales de diálogo, los elementos léxicos han sido utilizados como evidencia en la construcción de creencias, expandiéndose así los modos del creer e incluyendo al único modo no explotado anteriormente: el creer como forma de expresión. En un campo cuyo progreso ha experimentado distintos estancamientos a lo largo de su historia, la contribución de esta expansión de los modos del creer en la aplicación de las funciones de creencia a los agentes de diálogo le da una vitalidad indiscutible a la advertencia de Greimas acerca de no ignorar por completo la modalidad cognitiva del creer en el quehacer científico.
Bonet, B. & Geffner, H. (2013). “Causal belief decomposition for planning with sensing: Completeness results and practical approximation”. In F. Rossi (Ed.). Proceedings of the Twenty-Third International Joint Conference on Artificial Intelligence (pp. 2275-2281). Menlo Park, California: AAAI Press / International Joint Conferences on Artificial Intelligence.
Cadore, J., Valverde-Albacete, F. J., Gallardo-Antolín, A., & Peláez-Moreno, C. (2013). “Auditory-inspired morphological processing of speech spectrograms: Applications in automatic speech recognition and speech enhancement”. Cognitive computation, núm. 5, vol. 4, pp. 426-441. Recuperado el 10 de diciembre de 2015, de: Recuperado el 10 de diciembre de 2015, de: http://e-archivo.uc3m.es/handle/10016/15932#preview
Ma, Y., Raux, A., Ramachandran, D., & Gupta, R. (2012). “Landmark-based location belief tracking in a spoken dialog system”. Proceedings of the 13th Annual Meeting of the Special Interest Group on Discourse and Dialogue. Stroudsburg, Pensilvania: Association for Computational Linguistics , pp. 169-178.
[1] Los tres momentos mostrados son estadios progresivos de un juego en la implementación del Buscaminas. Disponible en: http://minesweeperonline.com/#beginner
[2] La escena mostrada pertenece a un momento avanzado de la implementación de la Batalla Naval. Disponible en: http://www.knowledgeadventure.com/games/battleship/