Imagem Análise comparativa da legibilidade e similaridade semântica de IAGs sobre violência contra a mulher

16 de janeiro de 2026

Análise comparativa da legibilidade e similaridade semântica de IAGs sobre violência contra a mulher

Autor(a): Luiza Munhoz Mastelari — Orientador(a): Lucas Lacerda de Souza

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

O objetivo deste estudo foi avaliar e comparar a qualidade das respostas de oito modelos de Inteligência Artificial Generativa (IAG) sobre violência contra a mulher, usando como referência as informações da Organização Mundial da Saúde (OMS). A análise focou em dois eixos: legibilidade, que mede a complexidade e acessibilidade do texto, e similaridade semântica, que avalia a proximidade de conteúdo com a fonte de referência. A investigação buscou determinar se as IAGs fornecem informações precisas e com tom e clareza adequados para um público vulnerável que busca orientação sobre um tema de extrema sensibilidade para a saúde pública.

A violência contra a mulher é um grave problema de saúde pública com consequências devastadoras que afetam milhões de mulheres globalmente (Fathnezhad-Kazemi et al., 2023). Suas manifestações incluem lesões físicas, doenças crônicas, transtornos de saúde mental e impactos socioeconômicos. A exposição contínua à violência está associada ao aumento do risco de depressão, transtorno de estresse pós-traumático (TEPT), ansiedade, doenças cardiovasculares e infecções sexualmente transmissíveis (Nagaraj et al., 2018). O problema é agravado pela subnotificação, impulsionada pelo estigma social, dependência econômica e medo de retaliação, o que dificulta a mensuração de sua prevalência e a implementação de políticas eficazes.

Neste cenário, as IAGs apresentam potencial para o setor da saúde. Essas ferramentas, capazes de gerar linguagem natural, são cada vez mais usadas como fontes de informação. Sua aplicação na saúde pública poderia democratizar o acesso a informações vitais e auxiliar na triagem de casos e identificação de abuso (Kang et al., 2022). Contudo, a ausência de curadoria e validação do conteúdo gerado representa um risco significativo, especialmente em áreas como a violência de gênero, onde informações imprecisas ou insensíveis podem causar danos.

A implementação de soluções de IA para combater a violência contra a mulher exige uma abordagem cautelosa e ética. Questões como privacidade de dados, equidade no acesso e a capacidade dos algoritmos de compreenderem nuances culturais e socioeconômicas são primordiais (Sumra et al., 2023). A tecnologia deve ser uma ferramenta de apoio, desenvolvida com transparência, validada cientificamente e integrada a uma rede de suporte humano qualificado (European Commission, 2019). A personalização das respostas, a clareza da linguagem e a sensibilidade do tom são fatores essenciais para que a tecnologia sirva como um recurso de empoderamento.

Diante da crescente dependência do público em chatbots de IA para obter informações de saúde, este estudo justifica-se pela necessidade de avaliar a segurança, precisão e adequação das respostas sobre violência contra a mulher. A análise comparativa com o padrão da OMS permite aferir a acurácia do conteúdo e examinar se a comunicação gerada por máquinas atende aos requisitos de clareza e empatia essenciais para o acolhimento de mulheres em vulnerabilidade. Os resultados visam fornecer subsídios para o desenvolvimento de diretrizes no uso de IAGs em contextos de saúde sensíveis, contribuindo para um ecossistema digital mais seguro.

O estudo foi uma análise comparativa e quantitativa. O processo iniciou-se com a seleção de 14 perguntas (inputs) extraídas das “Fact Sheets” da OMS, fonte reconhecida por sua autoridade. As perguntas abrangeram diversos aspectos da violência contra a mulher, como fatores de risco, consequências para a saúde, prevenção e orientações. Para garantir a neutralidade, os pesquisadores elaboraram as perguntas sem auxílio de IA, mitigando vieses que pudessem favorecer algum modelo.

Foram selecionadas oito plataformas de IAG: Gemini, ChatGPT-4, ChatGPT Vision, Bing AI (Copilot), Claude, AI ScholarGPT, Deep Seek e Reka Core, escolhidas por sua popularidade, acessibilidade e representatividade tecnológica. Cada uma utiliza arquiteturas e dados de treinamento distintos, permitindo uma avaliação abrangente. A formulação dos inputs foi padronizada para garantir a comparabilidade. As interações foram conduzidas em inglês, e cada conjunto de 14 perguntas foi submetido em uma nova janela de chat para cada modelo, eliminando viés de memória. Três comandos de contextualização precederam as perguntas: 1) “Assuma o papel de um médico para responder às perguntas”; 2) “Vamos fornecer perguntas sobre as doenças associadas com a violência contra a mulher e queremos sua ajuda”; e 3) “Responda às perguntas de forma concisa”.

A segunda fase da análise focou na similaridade semântica e precisão do conteúdo, empregando métodos de Processamento de Linguagem Natural (PLN). Os métodos clássicos incluíram a Similaridade de Cosseno, para avaliar sobreposição temática, e o Coeficiente de Jaccard, para medir a sobreposição de vocabulário. Reconhecendo as limitações desses métodos lexicais, a análise foi aprofundada com técnicas semânticas. O modelo Word2Vec foi usado para gerar embeddings de palavras, permitindo o cálculo da similaridade de cosseno em um espaço vetorial que captura relações contextuais (Mikolov et al., 2013). Adicionalmente, o modelo BERT (Bidirectional Encoder Representations from Transformers) foi aplicado para obter embeddings contextuais profundos, que representam o significado de palavras e sentenças com base em seu contexto, oferecendo uma medida de similaridade semântica mais robusta (Devlin et al., 2019; Chen & Zhang, 2020). As análises foram realizadas com Python (versão 3.10.2) e R (versão 4.3.0).

Os resultados da primeira fase, focada em prolixidade e legibilidade, revelaram padrões distintos. Em prolixidade, a maioria dos modelos de IA gerou respostas concisas, abaixo de 100 palavras, alinhando-se ao prompt. As exceções foram Gemini e Bing AI, com médias de 85.1 e 60.4 palavras por resposta, respectivamente. Em contraste, as respostas da OMS foram mais longas, com média de 154 palavras, sugerindo que a OMS priorizou informações detalhadas e contextualizadas em detrimento da brevidade.

A análise de legibilidade, contudo, apresentou um quadro inverso. Os índices Flesch-Kincaid e Flesch indicaram que os textos de todas as IAGs possuíam alto grau de complexidade linguística, exigindo um nível de escolaridade de pós-graduação para serem compreendidos. Modelos como Reka Core, ChatGPT Vision e Claude destacaram-se pela elevada complexidade. Em contrapartida, os textos da OMS, embora mais longos, foram consideravelmente mais acessíveis a um público geral. Este resultado é parcialmente explicado pelo prompt que instruiu as IAGs a assumirem o papel de um médico, induzindo um jargão técnico. A implicação prática é que a linguagem das IAGs é inadequada para muitas mulheres em situação de vulnerabilidade, que frequentemente possuem menores níveis de escolaridade (Garcia & Costa, 2021).

A segunda fase, sobre similaridade, demonstrou a importância de métodos semânticos avançados. Abordagens clássicas como Similaridade de Cosseno e Coeficiente de Jaccard registraram valores de similaridade baixos entre as respostas das IAGs e da OMS. O maior valor de similaridade de cosseno foi de 0.59, com o Gemini apresentando a maior média (0.24) e o Deep Seek a menor (0.1). Esses resultados refletem a grande variação lexical, evidenciando a limitação de análises baseadas em sobreposição de palavras.

Com métodos semânticos, o cenário mudou. Utilizando embeddings do Word2Vec, os escores de similaridade foram consistentemente altos para todos os modelos, indicando forte correspondência de significado. Gemini e Bing AI se destacaram, ambos com média de 0.96, enquanto os modelos da família ChatGPT registraram as médias mais baixas, em torno de 0.9. Isso demonstra que, em nível de conteúdo, as IAGs reproduziram com alta fidelidade as informações da fonte de referência, mesmo com vocabulário distinto.

A análise com o modelo BERT corroborou os achados do Word2Vec, mas com maior granularidade. O BERT também apontou Gemini e Bing AI como os modelos com maior similaridade semântica (média de 0.65). No entanto, o BERT revelou maior dispersão nos resultados, com AI ScholarGPT, Deep Seek e Reka Core apresentando as menores médias. A diferença entre Word2Vec e BERT deve-se às suas arquiteturas: o Word2Vec gera uma representação vetorial estática para cada palavra, enquanto o BERT gera vetores dinâmicos que mudam com o contexto da sentença (Devlin et al., 2019), tornando-o mais sensível a nuances de significado.

A discussão dos resultados revela uma dicotomia: as IAGs são semanticamente competentes, mas linguisticamente inadequadas para o contexto. A consistência do Gemini em obter altos escores de similaridade sugere uma capacidade robusta de capturar e retransmitir a essência da informação. Uma análise qualitativa, comparando as respostas à pergunta “Minha casa não é um lugar seguro para mim. O que posso fazer?”, ilustra essa diferença. Enquanto o Deep Seek deu uma resposta telegráfica, o Gemini ofereceu uma resposta mais estruturada, detalhando os tipos de ajuda médica.

Apesar da variação no detalhe, nenhuma das IAGs testadas demonstrou a sensibilidade e empatia necessárias para o acolhimento de vítimas de violência. A comunicação em saúde, especialmente em temas de trauma, exige mais do que a transmissão de fatos; requer uma linguagem que acolha, valide e empodere (World Health Organization, 2014). As respostas das IAGs, formatadas como listas e com tom clínico, carecem desse componente humano. A complexidade linguística agrava o problema, criando uma barreira de acesso para mulheres com menor letramento.

A principal implicação deste estudo é que, no estado atual, as IAGs de propósito geral não devem substituir canais de apoio especializados e humanos. Embora possam ser úteis para pesquisa por acadêmicos ou profissionais, seu uso direto por mulheres em situação de violência é problemático. A falta de adequação contextual, a linguagem complexa e a ausência de um tom empático podem levar a mal-entendidos, aumentar o isolamento da vítima e falhar em fornecer direcionamento seguro.

Em conclusão, a análise revelou que as IAGs são capazes de produzir conteúdo com alta similaridade semântica em relação às diretrizes da OMS sobre violência contra a mulher. Modelos como o Gemini se destacaram pela consistência em fornecer informações factualmente alinhadas. No entanto, o estudo evidenciou uma falha crítica na legibilidade: todas as IAGs geraram textos com elevada complexidade linguística, inadequada para a comunicação com um público vulnerável. A linguagem é uma ferramenta fundamental no acolhimento de vítimas, e a complexidade excessiva pode ser uma barreira. Portanto, o acolhimento humano, o cuidado médico especializado e a estrutura de serviços presenciais, como centros de apoio e hospitais, permanecem como os canais mais seguros e eficazes para o auxílio a mulheres em situação de violência. Conclui-se que o objetivo foi atingido: demonstrou-se que, embora as Inteligências Artificiais Generativas avaliadas produzam conteúdo semanticamente similar ao da Organização Mundial da Saúde, suas respostas apresentam um nível de complexidade linguística inadequado para o público-alvo, reforçando a insubstituibilidade do acolhimento humano especializado.

Referências:
Chen, Y., & Zhang, H. (2020). Natural Language Processing in Clinical Applications: A Review. Journal of Medical Systems, 44(8), 1-12.
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers) (pp. 4171-4186). Association for Computational Linguistics.
European Commission. (2019). Ethics guidelines for trustworthy AI. High-Level Expert Group on Artificial Intelligence.
Fathnezhad-Kazemi A, Zeighami Mohammadi S, Nayebinia AS. (2023). Association Between Health-Promoting Behaviors and Reproductive Health Needs in Women Experiencing Domestic Violence. Journal of Interpersonal Violence, 38(19-20), 10998-11016.
Garcia, M., & Costa, L. (2021). Fatores Socioeconômicos e a Vulnerabilidade à Violência Doméstica no Brasil. Revista de Estudos Sociais, 23(2), 45-60.
Kang KA, Kim SJ, Kang SR. (2022). Elementary school students’ awareness of the use of artificial intelligence chatbots in violence prevention education in South Korea: a descriptive study. Child Health Nursing Research, 28(4), 291-298.
Mikolov, T., Corrado, G., Chen, K., & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. In Proceedings of the Workshop at ICLR, Scottsdale, 2-4 May 2013, 1-12.
Nagaraj NC, Vyas AN, McDonnell KA, DiPietro L. (2018). Understanding Health, Violence, and Acculturation Among South Asian Women in the US. Journal of Community Health, 43(3), 543-551.
Sumra M, Asghar S, Khan KS, Fernández-Luna JM, Huete JF, Bueno-Cavanillas A. (2023). Smartphone Apps for Domestic Violence Prevention: A Systematic Review. International Journal of Environmental Research and Public Health, 20(7), 5246.
World Health Organization. (2014). Health care for women subjected to intimate partner violence or sexual violence: A clinical handbook. World Health Organization.


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade