
10 de fevereiro de 2026
Estratégia de seleção de LLMs com análise multivariada exploratória
Stephanie Escorcio Franke; Felipe Pinto da Silva
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Este estudo propôs e validou um framework metodológico para a seleção estratégica de Grandes Modelos de Linguagem (LLMs), superando as limitações dos rankings lineares em um mercado de crescente proliferação. A abordagem fornece um “mapa de similaridades” que agrupa modelos com perfis análogos, permitindo uma decisão mais informada e alinhada a necessidades de performance, custo e capacidade técnica. A hipótese central é que uma visualização multidimensional em clusters pode revelar a estrutura latente do ecossistema de LLMs, facilitando a identificação de alternativas viáveis e a compreensão das “famílias” de modelos.
A pesquisa se insere no contexto da expansão da Inteligência Artificial (IA) generativa, campo que cria novos conteúdos como textos e imagens (Marr, 2024). Essa evolução foi impulsionada pelo aumento do poder computacional, hardware especializado como GPUs e o aprimoramento de algoritmos de aprendizado profundo (Sichman, 2021; Musiol, 2024). Tais avanços tornaram a IA uma força transformadora em setores como manufatura, varejo, finanças e saúde, otimizando desde o design de produtos a tratamentos médicos (Alto, 2023; Holley e Mathur, 2024). No centro dessa revolução estão os LLMs, redes neurais profundas treinadas em vastos conjuntos de dados textuais, capazes de executar tarefas de Processamento de Linguagem Natural (PNL) com proficiência semelhante à humana (Bommasani et al., 2022; Kelleher, 2019).
O ecossistema de LLMs evolui rapidamente, com novos modelos sendo lançados em intervalos curtos, o que desafia as organizações que buscam extrair valor da tecnologia (Brown, 2020). A avaliação de desempenho é comumente realizada por meio de benchmarks que resultam em rankings como o “Chatbot Arena LLM Leaderboard” e o “Holistic Evaluation of Language Models [HELM]” (Chiang et al., 2024; Lee, 2023). Contudo, crescem as preocupações sobre a adequação desses testes, que frequentemente focam em métricas de qualidade sem considerar fatores operacionais como custo e velocidade (Zhou et al., 2023). A variação de preço e latência entre modelos pode ser substancial, com diferenças de até trezentas vezes, tornando a seleção baseada apenas em qualidade uma abordagem incompleta e ineficiente (Hill-Smith et al., 2024).
A complexidade de gerar valor nesse cenário é evidenciada por pesquisas. Um estudo do Boston Consulting Group (2024) revelou que apenas 26% das empresas que investiram em IA generativa relataram valor tangível, destacando que as mais bem-sucedidas focaram recursos em pessoas e processos, concentrando-se em poucas oportunidades de alto impacto (Bellefonds et al., 2024). Este cenário aponta para a ausência de abordagens metodológicas para uma análise de posicionamento multidimensional. Enquanto os rankings atuais oferecem uma visão linear, torna-se premente a necessidade de uma ferramenta que revele a estrutura do mercado, agrupando modelos por perfis de similaridade para uma tomada de decisão estratégica.
Este trabalho preenche essa lacuna ao aplicar técnicas de análise multivariada para criar uma segmentação estratégica do mercado de LLMs. A abordagem combina métricas de qualidade, custo, velocidade e características operacionais para formar grupos homogêneos, oferecendo uma visão que transcende a simples classificação ordinal. A validação deste framework busca demonstrar que uma análise de similaridade é mais útil para a seleção estratégica do que os rankings tradicionais, pois permite que as organizações identifiquem o conjunto de modelos mais adequado para um perfil de uso, considerando o balanço entre múltiplas variáveis. A pesquisa oferece um processo replicável para futuras análises em um campo em constante transformação.
O estudo adota uma abordagem quantitativa, aplicando análise exploratória multivariada. A metodologia foi implementada em Python, utilizando bibliotecas como Pandas e NumPy para manipulação de dados, Scikit-Learn para o algoritmo de clusterização K-means, Prince para a Análise de Correspondência Múltipla (ACM) e Plotly, Matplotlib e Seaborn para visualização. A base de dados foi extraída da plataforma “Artificial Analysis LLM Leaderboard” por web scraping, com as bibliotecas BeautifulSoup e Selenium, para coletar informações de desempenho sob seis cenários de carga. A análise concentrou-se no cenário de “prompt único e médio” para garantir um ponto de comparação consistente.
O processo metodológico iniciou-se com a coleta e pré-processamento dos dados. A base original, com 2.504 observações e 37 variáveis, passou por uma seleção que excluiu variáveis descritivas ou redundantes. Variáveis de performance, como latência e velocidade, foram consolidadas utilizando a mediana (P50) por sua robustez a outliers. Após a limpeza, tratamento de valores ausentes (que resultou na remoção de 17,3% das observações) e integração de novas variáveis como a data de lançamento, a base de dados final para análise foi composta por 371 observações únicas (uma por combinação de modelo e provedor) e 25 variáveis, abrangendo métricas de qualidade, custo, velocidade, latência e características técnicas.
A etapa central da análise foi a aplicação do K-means, um método de clusterização não hierárquico para identificar padrões em dados (Ahmed et al., 2020). Antes da aplicação, as variáveis métricas foram padronizadas através do Z-Score para que tivessem média zero e desvio padrão um, garantindo que nenhuma variável dominasse o processo devido à sua escala (Fávero e Belfiore, 2024). Para aumentar a robustez, o algoritmo “Isolation Forest” foi usado para detecção de anomalias multivariadas, resultando na remoção de 38 observações atípicas. A determinação do número ótimo de clusters combinou três abordagens: o método hierárquico aglomerativo (dendrograma), o método de “elbow” (inércia) e o método da silhueta. A convergência dos três métodos indicou a formação de quatro clusters como a solução mais estável e interpretável.
Posteriormente, para perfilar os grupos, foi realizada uma Análise de Correspondência Múltipla (ACM), técnica que verifica a associação entre variáveis categóricas (Scitovski et al., 2021). A variável de cluster foi incluída na análise como input, permitindo mapear as associações entre os grupos e suas características qualitativas, como criador do modelo, tipo de acesso, ano de lançamento e funcionalidades. A significância estatística das associações foi validada pelo teste qui-quadrado. A interpretação da ACM baseou-se na análise das coordenadas das categorias nas dimensões retidas, permitindo a construção de mapas perceptuais que visualizam a proximidade e similaridade de perfil entre as categorias e os clusters. Essa combinação de técnicas permitiu não apenas segmentar o mercado quantitativamente, mas também atribuir um significado qualitativo e estratégico a cada segmento.
A análise de clusterização resultou na identificação de quatro grupos distintos, cujos perfis foram definidos a partir da média de suas variáveis. A validação da significância de cada variável na formação dos clusters foi confirmada por um teste F de análise de variância (ANOVA), que indicou que todas as variáveis contribuíram significativamente para a diferenciação dos grupos, com destaque para os benchmarks de qualidade “MMLU-Pro”, “MATH” e “AIME 2024”, que apresentaram as maiores estatísticas F. A distribuição das observações entre os grupos revelou uma segmentação clara do mercado, com cada cluster representando um perfil estratégico.
O Cluster 0: “Generalistas Equilibrados”, reuniu 151 modelos e se caracterizou por um desempenho consistente. Apresentaram janelas de contexto moderadas (média de 124 mil tokens) e boas notas em benchmarks como “MMLU-Pro” (0,72) e “MATH” (0,79). Seus custos de input e output, bem como os tempos de latência, foram intermediários, posicionando-os como uma opção de custo-benefício equilibrado para tarefas de uso geral. O perfil deste cluster sugere modelos estabelecidos e maduros, representando uma escolha segura para aplicações que exigem um balanço entre performance e custo.
O Cluster 1: “Simples, Eficientes e de Baixo Custo”, com 98 modelos, agrupou as soluções mais econômicas e rápidas. Este grupo se destacou pelas menores notas de qualidade na maioria dos benchmarks, indicando menor complexidade. Em contrapartida, exibiu os menores tempos de latência (“TTFT” médio de 0,42s) e os custos mais baixos. Este perfil, associado a modelos mais antigos, é ideal para tarefas de alto volume e baixa complexidade, como chatbots simples; velocidade e custo são os fatores mais críticos.
O Cluster 2: “Premium de Alta Capacidade”, com 42 modelos, representou a vanguarda tecnológica. Este grupo se distinguiu pela maior janela de contexto média (883 mil tokens), notas altíssimas nos benchmarks mais exigentes e um tempo de resposta total baixo (média de 4,37 segundos). Este perfil de alta performance, associado a modelos mais recentes, é projetado para tarefas complexas que exigem a análise de grandes volumes de informação, como o processamento de documentos longos; a qualidade superior justifica um custo potencialmente mais elevado.
O Cluster 3: “Especialistas de Alta Performance e Alta Latência”, também com 42 modelos, agrupou os modelos com o melhor desempenho em domínios específicos, como matemática e geração de código, conforme indicado pelas maiores médias nos benchmarks “LiveCodeBench” (0,53), “MATH” (0,95) e “AIME 2024” (0,68). A contrapartida deste desempenho foi uma latência de inicialização extremamente elevada (média de 32,5 segundos), sugerindo alta exigência computacional. Este perfil indica modelos ideais para tarefas especializadas e assíncronas; a precisão máxima é prioritária e a latência inicial pode ser tolerada.
A Análise de Correspondência Múltipla (ACM) aprofundou a caracterização dos clusters ao mapear suas associações com variáveis categóricas. As dez primeiras dimensões explicaram 51,5% da inércia total dos dados. A primeira e mais importante dimensão opôs o “Modelo de Negócio e Sofisticação Técnica”, com um polo positivo definido por modelos de licença proprietária, criadores como Google e OpenAI, e funcionalidades avançadas, e um polo negativo caracterizado pelo ecossistema de código aberto. O Cluster 2 (“Premium”) alinhou-se fortemente ao polo proprietário, enquanto o Cluster 3 (“Especialistas”) se posicionou no polo aberto, confirmando esta como a principal força estruturante do mercado.
Outras dimensões revelaram nuances importantes. A segunda dimensão, “Ciclo de Lançamento e Adoção”, separou os modelos do ciclo recente (2023-2024); o Cluster 1 (“Simples e Eficientes”) se destacou, da vanguarda de inovação (2025), que uniu os Clusters 2 e 3. A terceira dimensão, “Plataforma de Adoção e Capacidade de Ferramentas”, distinguiu os modelos do Cluster 3, associados a um ecossistema diverso e com funcionalidades técnicas modernas, dos modelos do Cluster 2, caracterizados por sua disponibilização em grandes nuvens.
A combinação das análises permitiu a construção de perfis estratégicos acionáveis. O Cluster 0 (“Generalistas Equilibrados”) emergiu como o “centro de gravidade” do mercado. O Cluster 1 (“Simples e Eficientes”) representou o ciclo de inovação já estabelecido, ideal para tarefas de baixo custo. O Cluster 2 (“Premium”) consolidou-se como o ecossistema proprietário de alta performance, orientado para o futuro e associado às grandes alianças tecnológicas. Finalmente, o Cluster 3 (“Especialistas”) definiu o ecossistema aberto, tecnicamente avançado e focado no futuro, ideal para tarefas de nicho. Esta segmentação validou a hipótese de que a abordagem multivariada oferece uma compreensão mais estratégica do que os rankings lineares.
Este trabalho demonstrou a eficácia de aplicar um framework metodológico multivariado para estruturar o mercado de LLMs. A abordagem superou a lacuna dos rankings lineares ao fornecer um mapa de similaridades que segmenta o ecossistema em perfis estratégicos, permitindo uma tomada de decisão mais informada. A análise revelou quatro segmentos distintos — “Generalistas Equilibrados”, “Simples e Eficientes”, “Premium de Alta Capacidade” e “Especialistas de Alta Performance” — e as forças latentes que estruturam o mercado, como a dicotomia entre os ecossistemas aberto e proprietário. Reconhece-se que as conclusões refletem o estado do mercado na data da coleta de dados e, dada a rápida evolução do setor, a replicação periódica da análise é recomendada.
A pesquisa validou a hipótese de que a visualização em clusters oferece um auxílio mais estratégico à tomada de decisão. As implicações práticas são diretas: em vez de buscar um único “melhor” modelo, as organizações podem identificar o “cluster” de modelos mais adequado ao seu caso de uso, otimizando o balanço entre investimento e retorno. Futuros estudos poderiam expandir esta análise para outros cenários de carga de trabalho ou incorporar variáveis relacionadas às otimizações dos provedores de API. Conclui-se que o objetivo foi atingido: demonstrou-se que a aplicação combinada de clusterização e Análise de Correspondência Múltipla oferece um framework metodológico eficaz para a seleção de LLMs, gerando um mapa de similaridades que segmenta o mercado em perfis estratégicos claros e acionáveis.
Referências:
Ahmed, M.; Seraj, R.; Islam, S. M. S. 2020. The k-means Algorithm: A Comprehensive Survey and Performance Evaluation. Electronics 9.
Alto, V. 2023. Modern Generative AI with ChatGPT and OpenAI Models. Packt, Birmingham, United Kingdom.
Bellefonds, N. et al. 2024. Where’s the Value in AI?. Boston Consulting Group [BCG]. Disponível em: <https://web-assets. bcg. com/75/ab/7ec60ba84385ad89321f8739ecaf/bcg-wheres-the-value-in-ai. pdf>.
Bommasani, R.; Hudson, D. A.; Adeli, E. et al. 2022. On the Opportunities and Risks of Foundation Models. Disponível em: <https://arxiv. org/pdf/2108.07258>.
Brown, T. B.; Mann, B.; Ryder, N. et al. 2020. Language Models are Few-Shot Learners.
Chakraborty, U. et al. 2023. Rise of Generative AI and ChatGPT: Understand how Generative AI and ChatGPT are transforming and reshaping the business world.
Chen, M.; Tworek, J.; Jun, H. et al. 2021. Evaluating Large Language Models Trained on Code.
Chiang, W. et al. 2024. Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference.
Fávero, L. P.; Belfiore, P. 2024. Manual de Análise de Dados – Estatística e Machine Learning com Excel®, SPSS®, Stata®, R® e Python®. 2ed. Grupo Editorial Nacional.
Hill-Smith, M. et al. 2024. Bringing the Artificial Analysis LLM Performance Leaderboard to Hugging Face. Disponível em: <https://huggingface. co/blog/leaderboard-artificial-analysis#bringing-the-artificial-analysis-llm-performance-leaderboard-to-hugging-face>.
Holley, K.; Mathur, M. 2024. LLMs and Generative AI for Healthcare. O’Reilly, Sebastopol, Califórnia, Estados Unidos.
Kelleher, J. D. 2019. Deep Learning. The MIT Press, Cambridge, MA, EUA.
Lee, T. et al. 2023. Holistic Evaluation of Text-to-Image Models.
Marr, B. 2024. Generative AI in Practice: 100+ amazing ways generative artificial intelligence is changing business and society. Wiley, Hoboken, Nova Jersey, Estados Unidos.
Musiol, M. 2024. Generative AI: Navigating the Course to the Artificial General Intelligence Future. Wiley, Hoboken, Nova Jersey, Estados Unidos.
Rein, D. et al. 2023. GPQA: A Graduate-Level Google-Proof Q&A Benchmark.
Russell, S.; Norvig, P. 2022. Artificial Intelligence: A Modern Approach. 4ed. Pearson Education Limited, United Kingdom.
Scitovski, R. et al. 2021. Cluster Analysis and Applications. Springer, Nova York, Nova York, Estados Unidos.
Sichman, J.; Simão. 2021. Inteligência Artificial e sociedade: avanços e riscos. Estudos Avançados 35(): 37-49.
Wang, Y. et al. 2024. MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark.
Zhou, J. et al. 2023. Instruction-Following Evaluation for Large Language Models.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:






































