La compañía subraya la “multimodalidad” de Gemini, al ser capaz de “razonar con fluidez mediante textos, imágenes, video, audio y códigos”, a través de lo que se conoce como el modelo MMLU, siglas en inglés para la “comprensión masiva de lenguaje multitareas”.
Según la presentación general ofrecida este jueves 6 de diciembre por la compañía, Gemini se presentará en tres formatos: Nano (la más sencilla, en forma de aplicación para teléfonos celulares), Pro y Ultra, esta última “la más potente para tareas de gran complejidad”.
Gemini puede recibir información visual o auditiva (notas de música, imágenes, palabras) y desde ahí generar contenido propio, que a su vez puede ser en versión texto, audio o imágenes.
LE RECOMENDAMOS
En la presentación, Gemini es capaz de detectar errores en un problema matemático complejo, dar la respuesta correcta y explicar los pasos hasta llegar a ella; o de dar abundante información sobre un animal (un pato) a través de un simple dibujo, incluyendo la traducción de “pato” a cinco lenguas.
Igualmente, es capaz de “jugar” con el usuario en retos tan populares como “piedra, papel o tijera” o el de los tres cubiletes.
Gemini trabaja con los lenguajes de código más habituales, como Java, Python, C++ y Go, según sus creadores, y aunque incurre en algunos errores, Google dice que los sabe resolver cuando así se le comunica en el 90% de los casos.
Let's go hands-on with #GeminiAI.
Our newest AI model can reason across different types of inputs and outputs — like images and text. See Gemini's multimodal reasoning capabilities in action ↓ pic.twitter.com/tikHjGJ5Xj
— Google (@Google) December 6, 2023
El potencial de Gemini se va a aplicar a su sistema actual de chat, conocido como Bard y que funciona ya en varias lenguas, incluido el español.
La compañía no ha aclarado cómo piensa monetizar la nueva herramienta, y por el momento se ha limitado a anunciar que estará disponible a partir del 13 de diciembre.