A adição de funcionalidades multimodais ao Grok foi divulgada pela primeira vez em uma postagem no blog da xAI no mês passado, que anunciou que o Grok-1.5V oferecerá “modelos multimodais em vários domínios”. A atualização mais recente nos documentos de desenvolvedores confirma o progresso no desenvolvimento desse novo modelo.
Nos documentos dos desenvolvedores, um exemplo de script Python demonstra como utilizar a biblioteca do kit de desenvolvimento de software xAI para gerar respostas baseadas em texto e imagens. O script lê um arquivo de imagem, configura um prompt de texto e usa o xAI SDK para gerar a resposta.
Esta atualização é significativa para Grok, que foi lançado pela xAI em novembro de 2023 e está disponível para assinantes do X Premium Plus. A versão Grok 1.5, lançada em março, trouxe melhorias nos recursos de raciocínio.
O modelo é treinado em uma variedade de dados de texto de fontes publicamente disponíveis na Internet até o terceiro trimestre de 2023, além de conjuntos de dados revisados e selecionados por revisores humanos, conforme uma postagem no blog da xAI. Grok-1 não foi treinado em dados X (incluindo postagens X públicas), mas possui “conhecimento do mundo em tempo real”, incluindo postagens no X.
Fundada por Elon Musk em março de 2023, a xAI é uma empresa relativamente nova no campo de IA e está atrás de concorrentes como ChatGPT da OpenAI. No entanto, de acordo com uma postagem no blog da xAI, seu modelo Grok 1.5 está reduzindo a diferença em relação ao GPT-4 em vários benchmarks, que abrangem uma ampla gama de problemas do ensino fundamental ao ensino médio. É importante observar que benchmarks para modelos de linguagem grandes são frequentemente criticados, pois os modelos podem ter um bom desempenho nesses benchmarks se os dados de treinamento incluírem esses benchmarks, semelhante a memorizar respostas de testes.
Chatbots de conversação multimodais são vistos como a próxima fronteira para a IA, com avanços anunciados no Google I/O e o lançamento do GPT-4 pela OpenAI. Até agora, a falta de recursos multimodais deixava Grok em desvantagem, mas essa atualização promete mudar esse cenário.