“La visión artificial intenta que las máquinas interpreten las imágenes como lo hace el ser humano”

Inicio / Divulgación Científica / “La visión artificial intenta que las máquinas interpreten las imágenes como ...

“La visión artificial intenta que las máquinas interpreten las imágenes como lo hace el ser humano”

10/07/2014

Autores:

Agencia de Noticias DiCYT

Contenido:

Sergio Velastin, experto en videovigilancia, vaticina que las casas del futuro se comportarán como robots inteligentes que interpretarán nuestras expresiones faciales gracias al desarrollo de una tecnología que comenzamos a ver incluso en los móviles

José Pichel Andrés/DICYT Sergio Velastin, investigador de la Universidad de Santiago de Chile y profesor visitante en las universidades de Kingston (Reino Unido) y Carlos III de Madrid, es uno de los mayores expertos mundiales en visión artificial, una disciplina que busca automatizar la interpretación de información visual y que podría revolucionar en las próximas décadas servicios de asistencia, salud o seguridad. En los últimos días, ha sido uno de los protagonistas del XVII Congreso Internacional en Fusión de Información (FUSION 2014), una cita organizada por el grupo de investigación BISITE de la Universidad de Salamanca que concluye hoy tras reunir a unos 500 científicos de todo el mundo. En una entrevista concedida a DiCYT, Sergio Velastin ha hablado de las futuras tecnologías basadas en visión artificial y de sus implicaciones éticas.

¿A qué se dedican ustedes dentro del campo de la visión artificial? La visión artificial intenta que las máquinas interpreten las imágenes como lo hace el ser humano. En realidad, es un campo muy amplio porque las personas hacemos muchas cosas a través de la visión. Nosotros nos hemos centrado en la videovigilancia, que observa lugares públicos y trata de identificar situaciones que requieren alguna intervención si están en peligro personas o bienes. Otro aspecto que nos interesa tiene que ver con ambientes públicos como la gestión de tráfico y aplicaciones para monitorizar lo que sucede en el transporte público.

¿Qué aporta la tecnología de fusión de datos que se está viendo en este congreso? En estas observaciones en lugares públicos, por ejemplo en el metro, es difícil entender lo que sucede a partir de una cámara, de tal manera que en muchas situaciones un vigilante no puede tomar una decisión porque no tiene una visión global de lo que está pasando. En este caso, existe la necesidad de combinar información que viene de distintas cámaras. Por otra parte, también podemos fusionar esos datos con otros acerca del contexto en el cual está sucediendo algo y me refiero a cuestiones tan básicas como el horario. Es normal que en el metro haya mucha gente a la hora de ir a trabajar, pero si esto ocurre cuando no es habitual, podría indicarnos que sucede algo extraordinario.

Al margen de la seguridad, ¿qué otras aplicaciones puede tener la visión artificial? Es muy interesante el ámbito asistencial. La población envejece y hay una tendencia general a que los adultos mayores quieran vivir de forma independiente aunque tengan ciertas limitaciones físicas y cognitivas. La idea es que puedan vivir de forma segura e independiente gracias a sistemas poco intrusivos. En su casa, puede haber sensores y cámaras que nos digan de forma automática si el grifo del agua caliente está abierto o el gas encendido. El objetivo es tener información para evaluar si la persona está segura y una buena calidad de vida. Si veo que la abuela se toma un café todos los días a las 5 de la tarde todos los días y un día no lo hace, quizá sea un indicio de que ha pasado algo o de su estado de ánimo. De hecho, las personas tenemos una gran facilidad para interpretar nuestras interacciones otras personas, por ejemplo, a través de sus expresiones faciales, y eso también lo podría hacer un robot. En el contexto doméstico, si mi casa como robot me entiende lo que quiero decir, puede que me haga la vida más entretenida.

Imagino que habrá muchas más posibilidades… En el tratamiento de imágenes médicas, los expertos interpretan los rayos X o las resonancias magnéticas y ahí existen muchas posibilidades para la automatización. Otro campo es la conducción, ya hay coches que se aparcan solos, pero podemos usar las imágenes para prevenir accidentes y atropellos e incluso lograr que el vehículo se conduzca solo, como ya casi con los aviones. Por otra parte, gracias a la visión artificial los robots podrían interactuar con personas en ambientes caóticos, por ejemplo, hay un proyecto de robot para limpiar los andenes del metro y necesitaría saber dónde está la gente. También sería posible interpretar automáticamente lo que está pasando en una película para convertirlo en subtítulos para personas con problemas auditivos o para narrar las escenas a personas con problemas visuales. Supongamos que no pude ver el partido de ayer: podría llegar a casa y decirle al televisor que me haga un resumen de las mejores jugadas como si se lo pidiera a una persona.

Desde el punto de vista científico, ¿qué trabajo hay detrás para lograr todos estos avances? Es un trabajo en el que confluyen varias disciplinas. Está la informática en cuanto al desarrollo de sistemas y manejo de la información; las matemáticas, porque reconocer una imagen y determinar si ya la he visto antes es un proceso matemático muy complejo; o la ingeniería electrónica y de sistemas, que tiene que traducir todo esto a cosas que funcionen. Por ejemplo, seguro que en tu cámara del teléfono tienes un algoritmo de visión que detecta las caras de las personas cuando estás tomando la foto. Pues bien, esta aplicación surgió de un algoritmo que de alguna manera se optimizó y se desarrolló de tal manera que todo el mundo lo usa. Facebook también lo utiliza para reconocer personas.

-Entonces, ¿todos estamos usando ya tecnologías de visión artificial? -Sí, efectivamente. También la tecnología que lee los números de las matrículas de los coches es una tecnología madura que se usa a diario.

-¿Y es posible guardar un equilibrio entre una tecnología tan poderosa y la protección de datos personales? -Los científicos como yo no podemos rehuir ese problema. Podríamos decir: “Yo sólo soy un técnico, que la parte ética la maneje otro”, pero tenemos que tener un punto de vista. Es cierto que es una decisión la tiene que tomar la sociedad y cuanto más democrática sea una sociedad, más contentos estaremos con la resolución final. El problema se plantea donde no hay controles democráticos ni transparencia para tomar decisiones sobre cómo usar la tecnología. En realidad, el mismo tipo de dilema existe para otras cuestiones científicas, como la aceptación de los alimentos transgénicos. Con la información visual pasa lo mismo, los científicos tienen que tomar una posición pero no pueden resolver un problema que es social.

-Es decir, que tiene que haber una comunicación entre los científicos y la sociedad en un contexto democrático. -Sí, eso es. Hay otro aspecto que pasa desapercibido, pero de la misma manera que en la investigación médica hay controles éticos muy fuertes, en estos trabajos que aparentemente son sólo técnicos también existe un control, ya que en el fondo nosotros usamos a las personas como sujetos de nuestra investigación. Por eso también tiene que ser aprobada por un comité ético y servir sólo para propósitos científicos. Aunque no estamos manipulando físicamente a las personas, pero sí tratamos con datos personales.

-Tal vez la respuesta al conflicto podría llegar de la propia ciencia, desarrollando sistemas que ayuden a proteger los datos. -Por supuesto. Si logro tener un sistema que detecta las caras, puedo usar ese mismo sistema para ocultarlas. De hecho, en el Reino Unido, que es el caso que más conozco, el uso de material de imágenes de personas está muy regulado.

-Usted ha trabajado en Chile, Reino Unido y España. ¿Qué diferencias ve? -Ante las mismas situaciones, en cada país la balanza entre seguridad y privacidad es distinta. El Reino Unido ha estado en alerta desde hace décadas por el terrorismo y la gente ha aceptado que haya una intervención más directa. En el continente europeo esto era impensable hace años, pero llegaron los atentados serios, como el de Atocha, y se produjo un cambio en la opinión pública en el sentido de aceptar sacrificar la privacidad si se pueden prevenir estas cosas. América Latina no sufrió el terrorismo, pero sí mucha delincuencia y la gente ve que estas tecnologías pueden ser útiles.

-¿Y en cuanto a las diferencias sobre el grado de desarrollo de la tecnología? -Una cosa va con la otra. Históricamente el Reino Unido ha estado a la vanguardia en la investigación sobre visión artificial, sobre todo en videovigilancia. Estados Unidos fue más cauteloso con el uso de imágenes públicas hasta el 11-S, así que estaba menos avanzado en ese campo, pero había desarrollado mucho más la visión artificial en otras áreas, como las bombas inteligentes o la tecnología espacial relacionada con la observación de astros. El continente europeo también estaba por detrás del Reino Unido, pero últimamente ha fomentado la investigación en seguridad y se ha propuesto estar en la vanguardia tecnológica con respecto al resto del mundo con programas que permiten que todos los países avancen de forma homogénea. En América Latina no existe esa unión y, como los países son pequeños, hay menos avances.