Recursos

Ego4D: Inteligencia Artificial que verá como nosotros

Durante los últimos días una noticia ha causado revuelo, y esto se debe a que Facebook ha develado un proyecto de investigación en el que está trabajando y que tiene como objetivo empujar a la percepción en primera persona y, en el proceso, ayudar a una persona a recordar dónde dejó sus llaves por ejemplo. A su vez, este proyecto proporciona una gran colección de videos y datos relacionados para los investigadores enseñen a las computadoras a comprender los datos y recopilar información útil a partir de ellos.

En el pasado mes de septiembre, Facebook lanzó una línea de lentes inteligentes llamada Ray-Ban Stories, que incluyen una cámara digital y otras funciones. De igual manera que el proyecto Google Glass, recibió críticas y quejas por invasión de la privacidad. El proyecto Ego4D tiene como objetivo desarrollar software que hará que las gafas inteligentes sean mucho más útiles, pero que en el proceso pueden permitir violaciones de la privacidad mucho mayores.

¿Qué es Ego4D?

Basicamente Ego4D es un modelo que busca combinar fotos, videos, información geográfica y otros datos para construir un modelo del mundo del usuario y su nombre deriva en “Ego” que significa egocéntrico o primera persona, mientras que “4D” representa las tres dimensiones del espacio más una: el tiempo. Existen dos componentes: un gran conjunto de datos de fotos y videos en primera persona, y un paquete de referencia que consta de cinco tareas desafiantes que se pueden usar para comparar diferentes modelos o algoritmos de IA entre sí. Estos puntos de referencia implican analizar videos en primera persona para recordar eventos pasados, crear entradas en el diario, comprender las interacciones con objetos y personas y pronosticar eventos futuros.

Se estima que el conjunto de datos incluye más de 3.000 horas de video en primera persona de 855 participantes que realizan tareas cotidianas, capturado con una variedad de dispositivos, incluidas cámaras GoPro y gafas de realidad aumentada (AR). Los videos cubren actividades en el hogar, en el lugar de trabajo y cientos de entornos sociales.

Facebook argumenta que la visión egocéntrica puede transformar potencialmente la forma en que usamos dispositivos de realidad virtual y aumentada, como gafas y auriculares. Si podemos desarrollar modelos de inteligencia artificial que comprendan el mundo desde un punto de vista en primera persona, al igual que lo hacen los humanos, los dispositivos de realidad virtual y realidad aumentada pueden llegar a ser tan valiosos como nuestros teléfonos inteligentes.

¿Puede la IA mejorar nuestras vidas?

Facebook también ha desarrollado cinco desafíos de referencia como parte del proyecto Ego4D. Los desafíos apuntan a construir una mejor comprensión de los materiales de video para desarrollar asistentes de inteligencia artificial útiles. Los puntos de referencia se centran en comprender la percepción en primera persona. Los puntos de referencia se describen a continuación:

  • Memoria episódica (¿qué sucedió cuando?): Por ejemplo, averiguar en un video en primera persona dónde dejaste tus llaves
  • Manipulación mano-objeto (¿qué estoy haciendo y cómo?): Tiene como objetivo comprender y enseñar mejor las acciones humanas, como dar instrucciones sobre cómo tocar la batería.
  • Conversación audiovisual (¿quién dijo qué y cuándo?): Esto incluye hacer un seguimiento y resumir conversaciones, reuniones o clases.
  • Interacciones sociales (¿quién interactúa con quién?): Se trata de identificar a las personas y sus acciones, con el objetivo de hacer cosas como ayudarlo a escuchar mejor a una persona si está hablando con usted.
  • Actividades de pronóstico (¿qué es probable que haga a continuación?): Esto tiene como objetivo anticipar sus intenciones y ofrecer consejos, como señalar que ya ha agregado sal a una receta si parece que está a punto de agregar un poco más.

Y con todo este avance, surge una pregunta relevante, ¿Y la privacidad?…

Obviamente, existen preocupaciones importantes con respecto a la privacidad. Si esta tecnología se combina con gafas inteligentes que registran y analizan constantemente el entorno, el resultado podría ser un seguimiento y registro constante (a través del reconocimiento facial) de las personas que se mueven en público.

Si bien lo anterior puede parecer dramático, una tecnología similar ya se ha probado en China y los periodistas han explorado los peligros potenciales. Facebook dice que mantendrá altos estándares éticos y de privacidad para los datos recopilados para el proyecto, incluido el consentimiento de los participantes, revisiones independientes y datos de des-identificación cuando sea posible. Como tal, Facebook dice que los datos fueron capturados en un ambiente controlado con consentimiento informado, y en los espacios públicos los rostros y otros datos identificables de las personas están borrosos.

Pero a pesar de estas garantías (y señalar que esto es solo una prueba), existen preocupaciones sobre el futuro de la tecnología de gafas inteligentes junto con el poder de un gigante de las redes sociales cuyas intenciones no siempre han estado alineadas con sus usuarios.