Da pior à melhor – uma análise dos modelos de Inteligência Artificial mais destacados

Com a crescente prevalência da Inteligência Artificial no mercado, várias empresas estão lançando seus próprios serviços. Entre as mais notáveis estão Meta(https://ai.meta.com/llama/), OpenAI, Cohere e Anthropic. Mas a questão que surge é: qual delas possui a tecnologia mais avançada e qual precisa de melhorias?

Um grupo de investigadores da Arthur AI avaliou seus respectivos modelos – Llama 2 (Meta), Cohere, GPT-4 (usado no ChatGPT pela OpenAI) e Claude 2 (Anthropic). A avaliação foi baseada nas respostas de cobertura e nas chamadas ‘alucinações’ ou erros persistentes nas respostas. Neste artigo, apresentaremos uma análise detalhada dos resultados.

Avaliação dos Modelos de Inteligência Artificial

Todos os modelos foram submetidos a um conjunto de perguntas desafiadoras em matemática combinatória, presidentes dos Estados Unidos e líderes políticos marroquinos. O objetivo era descobrir qual modelo responderia melhor.

Desempenho da Cohere

Infelizmente, a Inteligência Artificial da Cohere(https://cohere.com/) apresentou o pior desempenho entre todos os modelos avaliados. Esta conclusão despertou a reação de um porta-voz da Cohere, que destacou a tecnologia de geração aumentada de recuperação da empresa, que não estava presente no modelo testado.

Desempenho da Meta

O Llama 2 da Meta(https://ai.meta.com/llama/) mostrou mais alucinações em geral do que o GPT-4 e o Claude 2 da Anthropic.

Desempenho da OpenAI

O GPT-4 do ChatGPT (OpenAI)(https://chat.openai.com/) foi o que teve o melhor desempenho de todos os modelos testados. Os pesquisadores descobriram que as alucinações eram menores do que no GPT-3.5.

Desempenho da Anthropic

O Claude 2 da Anthropic(https://www.anthropic.com/index/claude-2) teve um desempenho melhor do que o Llama 2 da Meta, mas não tão bom quanto o GPT-4 da OpenAI.

Conclusões

Adam Wenchel, fundador e CEO da Arthur, disse à CNBC(https://www.cnbc.com/2023/08/17/which-ai-is-most-reliable-meta-openai-anthropic-or-cohere.html) que este é o primeiro relatório que oferece uma visão abrangente das taxas de alucinação, em vez de simplesmente fornecer um único número que fala sobre onde eles estão em uma tabela de classificação.

Para Wenchel, a importância dos resultados está em ‘comprovar a sua carga de trabalho exata’ e ‘compreender como funcionam para o que estão tentando alcançar’.

Leitura adicional

LEIA TAMBÉM: Veja o trabalho que paga até 250 dólares por hora e que a Inteligência Artificial não pode substituir(https://www.metroworldnews.com.br/ciencia-e-tecnologia/2023/08/18/veja-o-trabalho-que-paga-ate-250-dolares-por-hora-e-que-a-inteligencia-artificial-nao-pode-substituir/)

LEIA TAMBÉM: Uma Inteligência Artificial que pode ler a mente: veja como funciona este mecanismo(https://www.metroworldnews.com.br/ciencia-e-tecnologia/2023/08/18/uma-inteligencia-artificial-que-pode-ler-a-mente-veja-como-funciona-este-mecanismo/)

A pesquisa da Arthur AI é certamente um marco importante no campo da Inteligência Artificial. Esta análise detalhada dos modelos de IA mais proeminentes irá ajudar as empresas e os consumidores a fazerem escolhas mais informadas no futuro.

Para informações adicionais, acesse o site

Avaliação dos Modelos de Inteligência Artificial

Desempenho da Cohere

Desempenho da Meta

Desempenho da OpenAI

Desempenho da Anthropic

Conclusões

Leitura adicional

Você pode gostar

Bing et sa tentative de conquête du marché avec l’Intelligence Artificielle

Criatividade na Era da Inteligência Artificial

L’Intelligence Artificielle et les Rayons X – Un Nouveau Regard sur Notre Santé