Google entrena un modelo de IA con 40 años de investigación sobre delfines para descifrar la comunicación animal

May 20, 2025 · Editor · 6 min read

🌐 Read this in English →

Fuente original: Google for Developers
Este artículo es un resumen e interpretación editorial de ese contenido. Las ideas son de los autores originales; la selección y redacción son de Streamed.News.

Este programa de Google for Developers abordó varios temas. Se destacan 6 segmentos por su relevancia. Cada sección enlaza directamente al momento en el video original.

Los científicos llevan décadas intentando entender qué se dicen los delfines entre sí. Un modelo de IA entrenado con 40 años de grabaciones puede darles por fin las herramientas para descubrirlo.

Google entrena un modelo de IA con 40 años de investigación sobre delfines para descifrar la comunicación animal

Google ha lanzado DolphinGemma, descrito como el primer modelo de lenguaje grande del mundo diseñado específicamente para analizar y generar vocalizaciones de delfines. El modelo fue entrenado con cuatro décadas de grabaciones submarinas de campo recopiladas por el Wild Dolphin Project, en colaboración con investigadores del Georgia Tech. Ahora puede sintetizar nuevos sonidos de delfines en minutos —trabajo que antes llevaba días a los científicos— y esos sonidos se reproducen a los delfines en aguas abiertas mediante altavoces submarinos de diseño específico.

El proyecto representa una frontera inusual para la IA: en lugar de procesar lenguaje humano, el modelo intenta encontrar estructura en la comunicación animal, con el objetivo a largo plazo de posibilitar una interacción bidireccional rudimentaria. Los investigadores afirman que la capacidad del modelo para generar grandes cantidades de vocalizaciones sintéticas acelera drásticamente un programa de investigación que lleva 15 años en marcha, comprimiendo potencialmente años de trabajo de decodificación en un plazo mucho más corto.

"El verdadero avance es que puedo generar tantísimos sonidos: el trabajo de días, en minutos."

▶ Ver este segmento — 1:03:07

Gemma 3n de Google lleva la IA multimodal a dispositivos con tan solo 2 GB de RAM

Google ha presentado Gemma 3n, un modelo de IA abierto diseñado para ejecutarse en smartphones y otros dispositivos de memoria reducida con tan solo 2 gigabytes de RAM. El modelo incorpora comprensión de audio nativa, lo que lo convierte en plenamente multimodal —capaz de procesar texto, imágenes y sonido— y funciona de forma más rápida y eficiente que su predecesor. Estará disponible a través de Google AI Studio y se distribuirá en plataformas como Hugging Face, Ollama y Unsloth desde su lanzamiento.

Junto a Gemma 3n, Google presentó MedGemma, una suite independiente de modelos abiertos diseñada para interpretar imágenes médicas y texto clínico. Ambos anuncios amplían el alcance de los modelos de IA abiertos hacia dos ámbitos diferenciados: el hardware de consumo con recursos limitados y las aplicaciones sanitarias especializadas. Contar con un modelo multimodal en un teléfono de gama baja resulta clave porque elimina la necesidad de enviar datos personales sensibles a un servidor remoto.

▶ Ver este segmento — 56:24

Chrome 137 permite a Gemini diagnosticar y reescribir errores de CSS directamente en los archivos fuente del desarrollador

Chrome 137 de Google incorpora asistencia de IA directamente en las herramientas para desarrolladores del navegador, lo que permite a los ingenieros describir un error visual en lenguaje natural y que Gemini diagnostique el problema de CSS subyacente y proponga una solución. Más significativamente, la actualización permite escribir esas correcciones de vuelta en los archivos fuente locales del desarrollador sin salir del navegador, eliminando un flujo de trabajo que antes exigía alternar entre el navegador, un editor de texto y el código base original. Un panel de Rendimiento rediseñado añade una capacidad paralela: usa IA para explicar la causa de los cambios de diseño —los molestos saltos visuales que degradan la experiencia del usuario— y sugerir soluciones.

Para los aproximadamente 20 millones de desarrolladores web profesionales en el mundo, depurar problemas de maquetación y estilos es una de las tareas rutinarias que más tiempo consume. Integrar una asistencia de IA que comprende tanto la página renderizada como el código subyacente, y puede actuar sobre ambos simultáneamente, acerca a Chrome DevTools a funcionar como un asistente de programación autónomo, en lugar de una herramienta de inspección pasiva.

"No solo diagnostican. Te ayudan a entender qué hacer a continuación sin abandonar tu flujo de trabajo."

▶ Ver este segmento — 39:38

Pinterest reduce el JavaScript de sus carruseles un 90% con las nuevas APIs CSS del navegador y mejora los tiempos de carga

Pinterest se convirtió en uno de los primeros adoptantes de las nuevas APIs de carrusel CSS integradas en los navegadores modernos, reemplazando más de 2.000 líneas de JavaScript personalizado por aproximadamente 200 líneas de código basado en estándares —una reducción de cerca del 90 por ciento—. El cambio también produjo una mejora de rendimiento medible: los tiempos de carga de los pines de productos mejoraron un 15 por ciento. Anteriormente, construir y mantener un carrusel de imágenes de alto rendimiento requería un extenso JavaScript a medida, una carga habitual para las grandes plataformas web de consumo.

Los resultados ilustran un cambio más amplio en el desarrollo web, donde funcionalidades que antes requerían pesados frameworks de JavaScript son gestionadas cada vez más de forma nativa por los navegadores. Cuando los navegadores absorben esa complejidad, los sitios se vuelven más rápidos y sencillos de mantener —un beneficio que llega directamente a los usuarios en forma de cargas de página más ágiles y a los desarrolladores en forma de menor carga de mantenimiento—.

▶ Ver este segmento — 35:03

Firebase Studio incorpora importación desde Figma y backends aprovisionados automáticamente para la generación de aplicaciones full-stack con IA

Firebase Studio de Google, un entorno de desarrollo en la nube, permite ahora a los desarrolladores importar diseños directamente desde Figma y convertirlos en código de aplicación funcional mediante una integración con Builder I/O. En una demostración en directo, Gemini 2.5 Pro construyó una página de detalle de producto con varios pasos —completa con arquitectura de componentes, datos de ejemplo y una función de Añadir al carrito— a partir de un único prompt estructurado, desarrollando cada elemento de forma secuencial en lugar de volcar código indiferenciado en un solo archivo. Google también anunció el aprovisionamiento automático de backend: la plataforma detectará cuándo una aplicación necesita una base de datos o un sistema de autenticación y configurará ambos sin intervención manual.

La combinación de importación de diseño a código y scaffolding instantáneo de backend comprime lo que tradicionalmente eran días de trabajo de configuración en minutos. Para los desarrolladores independientes y los equipos pequeños en particular, la barrera entre tener una idea y disponer de un prototipo desplegable se reduce considerablemente, aunque la calidad y la seguridad de las configuraciones de backend generadas automáticamente requerirán un análisis riguroso a medida que la función madure.

▶ Ver este segmento — 48:47

Gemini 2.5 Flash añade audio nativo y respuestas basadas en URLs a la Live API de Google

Google ha lanzado Gemini 2.5 Flash con capacidades de audio nativas dentro de su Live API, la capa de interacción en tiempo real disponible a través de Google AI Studio. El modelo ahora procesa y responde en audio de forma nativa en 24 idiomas, en lugar de depender de pasos separados de conversión de voz a texto y de texto a voz. Google también presentó una herramienta de Contexto URL, que permite al modelo recuperar y razonar sobre el contenido de páginas web específicas, fundamentando sus respuestas en información externa y actualizada en lugar de basarse únicamente en sus datos de entrenamiento.

Estas incorporaciones son relevantes porque las interfaces de IA de baja latencia y centradas en la voz requieren un modelo que comprenda el habla como entrada de primer orden, no como texto con una capa de audio. La compatibilidad nativa con 24 idiomas amplía significativamente la base de usuarios potenciales, mientras que el anclaje en URLs aborda una de las limitaciones más persistentes de los modelos de lenguaje grande: la incapacidad de referenciar de forma fiable fuentes en línea actuales y específicas durante una conversación.

▶ Ver este segmento — 3:48

También se menciona en este vídeo

Resumen de Google for Developers · 1:10:03. Todo el mérito corresponde a los creadores originales. Streamed.News resume contenido de vídeo disponible públicamente.

Streamed.News

Esta publicación se genera automáticamente desde YouTube.

Convierte tu biblioteca de vídeos en un diario digital.

Consigue esto para tu redacción →

Google entrena un modelo de IA con 40 años de investigación sobre delfines para descifrar la comunicación animal

Google entrena un modelo de IA con 40 años de investigación sobre delfines para descifrar la comunicación animal

Gemma 3n de Google lleva la IA multimodal a dispositivos con tan solo 2 GB de RAM

Chrome 137 permite a Gemini diagnosticar y reescribir errores de CSS directamente en los archivos fuente del desarrollador

Pinterest reduce el JavaScript de sus carruseles un 90% con las nuevas APIs CSS del navegador y mejora los tiempos de carga

Firebase Studio incorpora importación desde Figma y backends aprovisionados automáticamente para la generación de aplicaciones full-stack con IA

Gemini 2.5 Flash añade audio nativo y respuestas basadas en URLs a la Live API de Google

También se menciona en este vídeo

More from

El impacto económico de la IA depende de la acción colectiva y la propiedad, según la historia

Gobierno argentino retira huellas dactilares a periodistas acreditados en Casa Rosada por 'seguridad nacional'

Confluencia de crisis geopolíticas y deuda crónica eleva el riesgo de una gran recesión global