Una competición de “desaprendizaje automático” o cómo Google busca mejorar la privacidad en modelos de IA

  • Google ha lanzado un challenge para desarrollar algoritmos de “machine unlearning”
  • El objetivo sería proteger la privacidad y evitar sesgos en los modelos de inteligencia artificial
representación red de datos

Google ha anunciado la puesta en marcha de una competición, que tendrá lugar entre mediados del mes de julio y mediados del mes de septiembre, para el desarrollo de algoritmos de “machine unlearning”, es decir, de desaprendizaje automático, con el objetivo de seguir construyendo tecnologías de inteligencia artificial de manera responsable y que eviten, entre otras cosas, la propagación y amplificación de sesgos injustos y la violación de la privacidad del usuario.

El "machine unlearning" busca eliminar la influencia de conjuntos de datos en el modelo

Tal y como señalan desde la propia tecnológica, el desaprendizaje automático es una rama emergente del aprendizaje automático cuyo objetivo es eliminar la influencia de subconjuntos específicos de datos de entrenamiento de modelos de IA. Es decir, es una disciplina tecnológica que trabaja a favor del derecho al olvido para proteger la privacidad de los usuarios y para eliminar información de los modelos que puedan estar derivando en sesgos. 

Para avanzar en este terreno de manera efectiva y ética, la compañía ha puesto en marcha un challenge en asociación con investigadores académicos e industriales. La competición, que se alojará en la plataforma Kaggle, planteará un escenario realista en el que después del entrenamiento, un cierto subconjunto de las imágenes del modelo deberán ser olvidadas para proteger la privacidad o los derechos de las personas involucradas. Según explican desde Google, las presentaciones se calificarán automáticamente en términos de calidad de olvido y utilidad del modelo. 

Borrar por completo la influencia de los datos cuya eliminación se solicita es un desafío ya que, además de simplemente eliminarlos de las bases de datos donde están almacenados, también requiere borrar la influencia de esos datos en otros artefactos, como los modelos de aprendizaje automático entrenados”, explican desde Google en un comunicado. 

Además, apunta que un algoritmo de desaprendizaje usaría el modelo ya entrenado como punto de partida y haría los ajustes necesarios para eliminar la influencia de los datos que se desea eliminar. Esto es una opción más viable frente a la alternativa de volver a entrenar el modelo con un conjunto de información que excluya los datos a olvidar, puesto que volver a entrenar modelos puede ser costoso a nivel computacional. 

Noticias Relacionadas

Con todo, desde Google apuntan que el desaprendizaje automático tiene aplicaciones más allá de la protección de la privacidad del usuario. Se puede aplicar para borrar información inexacta o desactualizada de modelos entrenados o eliminar datos dañinos o manipulados. Asimismo, también estaría relacionado con lo que la compañía denomina “privacidad diferencial”, es decir, la práctica que tiene como objetivo garantizar que ningún conjunto de datos tenga una influencia demasiado grande en el modelo entrenado. 

Sin embargo, el desaprendizaje automático es complejo y está lleno de desafíos, ya que implica varios objetivos al mismo tiempo y que a menudo pueden entrar en conflicto: olvidar los datos solicitados y mantener la utilidad del modelo y la eficiencia. Asimismo, señalan que no hay una estandarización en lo que se refiere a los enfoques del aprendizaje automático. “Creemos que la inconsistencia de las métricas de evaluación y la falta de un protocolo estandarizado es un serio impedimento para el progreso en el campo”, explican desde la tecnológica. 

Las evaluaciones tendrán en cuenta el grado de olvido y la utilidad final del modelo

De ahí la puesta en marcha de este challenge que, tal y como explican desde Google, plantea como base un modelo predictor de edad apoyado imágenes de rostros y que debe olvidar un cierto subconjunto de las imágenes de entrenamiento para proteger la privacidad. La tecnológica pone a disposición de los participantes un conjunto de datos de rostros sintéticos para que envíen un código que trabaje con el predictor entrenado y los conjuntos a olvidar y retener. Las presentaciones se evaluarán según la fuerza del algoritmo de olvido y la utilidad del modelo y se rechazarán aquellos proyectos que se ejecutan más lento que una fracción del tiempo que se tarda en volver a entrenar. 

El objetivo de la iniciativa no sería otro que ayudar a Google a avanzar en el terreno de una inteligencia artificial más ética y responsable para con el usuario, así como ayudar a la compañía a cumplir con las normativas internacionales vinculadas a la protección de datos, la privacidad o la que próximamente aprobará la Unión Europea sobre inteligencia artificial. Esta contempla, entre otras cosas, la compartición de los datos protegidos por derechos de autor que han sido utilizados para el desarrollo de modelos o la implantación de políticas por parte de los desarrolladores para evaluar y mitigar posibles riesgos. 

Abrir Formulario
Abrir Formulario