Resumo Executivo

Imagem Bengala Inteligente com ESP32-CAM e IA para Acessibilidade Visual

26 de março de 2026

Bengala Inteligente com ESP32-CAM e IA para Acessibilidade Visual

Anderson Rogério Campana; Juliano Schimiguel

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

A deficiência visual, caracterizada pela limitação ou perda das funções básicas do olho e do sistema visual, impacta significativamente a autonomia e a participação social. De acordo com o Decreto Federal 5.296 (Brasil, 2004), a pessoa com deficiência visual pode ser cega ou possuir baixa visão, sendo essa condição congênita ou adquirida. Globalmente, a Organização Mundial da Saúde estima cerca de 43 milhões 300 mil pessoas cegas e 295 milhões com deficiência visual moderada a grave, com 90% destas últimas residindo em países em desenvolvimento. A acessibilidade, compreendida como a combinação de ações da sociedade civil, instrumentos tecnológicos e legislação, é um direito fundamental para que a pessoa com deficiência exerça plenamente seus direitos, mobilidade e participação social em condições de igualdade. No Brasil, a relevância da acessibilidade para deficientes visuais é corroborada pelo Censo de 2023 do Instituto Brasileiro de Geografia e Estatística, que aponta aproximadamente seis milhões 500 mil pessoas com deficiência visual, das quais 582 mil são cegas. Esse número tende a aumentar, especialmente entre a população idosa, reforçando a urgência por soluções tecnológicas acessíveis.

A inteligência artificial tem emergido como um campo transformador, capaz de simular e superar capacidades cognitivas humanas em tarefas específicas. Suas aplicações, como o processamento de linguagem natural, o reconhecimento de padrões e a visão computacional, que consiste no processo de adquirir, processar e interpretar imagens digitais, permitem que máquinas vejam e compreendam elementos visuais (Gonzalez; Woods, 2018). Na descrição de imagens, algoritmos de inteligência artificial são treinados com vastos conjuntos de dados para identificar objetos, cenários e atividades, gerando descrições textuais precisas. Esta capacidade se mostra promissora para o desenvolvimento de sistemas que podem enxergar e falar sobre o ambiente, um avanço significativo para a autonomia de pessoas com deficiência visual. A tecnologia assistiva é um campo multidisciplinar que visa proporcionar autonomia às pessoas com deficiência por meio de dispositivos e sistemas adaptativos. De acordo com Bersch (2008), a tecnologia assistiva envolve recursos que vão desde órteses até softwares baseados em inteligência artificial, contribuindo significativamente para a acessibilidade e inclusão digital. No contexto da deficiência visual, ela é fundamental para mediar a interação com o ambiente físico e digital, e o avanço da inteligência artificial tem impulsionado a criação de ferramentas inovadoras que oferecem maior precisão e personalização, como os aplicativos de reconhecimento de imagens (Catalini; Kintschner, 2021).

O ESP32-CAM é um microcontrolador com câmera embutida que tem se mostrado eficaz em aplicações de internet das coisas com foco em visão computacional (Espressif, 2024). Destaca-se como uma plataforma versátil e de baixo custo para o desenvolvimento de projetos com capacidades de processamento de imagem. Trata-se de um módulo ESP32 com câmera OV2640 integrada, possuindo conectividade Wi-Fi e Bluetooth, microcontrolador dual-core de alto desempenho e pinos de entrada e saída para conexão de periféricos externos. Sua capacidade de capturar imagens e vídeos, combinada com a facilidade de programação via ambiente de desenvolvimento integrado do Arduino, o torna ideal para prototipagem de soluções de visão computacional. A integração do ESP32-CAM com serviços de inteligência artificial na nuvem permite criar sistemas compactos e acessíveis que coletam dados visuais e obtêm descrições inteligentes sem hardware de processamento local robusto. O uso de serviços em nuvem, como a interface de programação de aplicações Gemini do Google, viabiliza o processamento de imagens sem a necessidade de grande poder computacional embarcado. De acordo com a documentação oficial (Google, 2025), é possível enviar imagens codificadas em formato de texto para análise e receber descrições textuais detalhadas por meio de modelos generativos. Isso amplia as possibilidades de uso da inteligência artificial em dispositivos de baixo custo, favorecendo a acessibilidade em larga escala.

A maioria das soluções de mercado, como os óculos OrCam MyEye, são de alto custo e inacessíveis para grande parte da população, justificando a proposta de um protótipo baseado no ESP32-CAM. A problemática central reside na falta de soluções acessíveis para reconhecimento de ambientes. Diante desse cenário, o objetivo deste estudo concentra-se no desenvolvimento de um sistema completo, de baixo custo e fácil implementação, que combina a captura de imagens através de um botão físico acoplado a uma bengala, utilizando o processamento inteligente via nuvem e a transmissão da descrição para um aplicativo móvel que a converte em áudio em tempo real. Essa integração entre hardware, serviços de inteligência artificial e mobilidade proporciona uma solução prática e inclusiva, ampliando a autonomia e a segurança de pessoas cegas ou com baixa visão na interação com o entorno.

Para atingir os objetivos propostos, adotou-se uma metodologia de desenvolvimento experimental estruturada em etapas sistemáticas. A escolha por essa abordagem fundamentou-se na necessidade de determinar um objeto de estudo específico, selecionar variáveis relevantes e definir formas de observação controlada (Gil, 2022). O processo iniciou-se com a definição do hardware, utilizando o microcontrolador ESP32-CAM como componente central. O dispositivo foi acoplado ao cabo de uma bengala acessível, onde se instalou um botão físico estrategicamente posicionado para facilitar o acionamento pelo usuário. O sistema foi projetado para que, ao pressionar o botão, a câmera fosse inicializada para capturar uma imagem do ambiente e iniciar o fluxo de envio de dados. A alimentação de todo o conjunto foi viabilizada por um carregador portátil de 6000 mAh, garantindo a mobilidade necessária para o uso em diferentes contextos cotidianos.

A confecção do protótipo envolveu a seleção criteriosa de materiais visando o menor custo possível. Os itens utilizados incluíram um módulo ESP32-CAM com câmera OV2640 ao custo de 80 reais, um carregador portátil de 6000 mAh por 50 reais, um botão do tipo push button por 10 reais e um módulo conversor USB serial por 13 reais para a gravação do código. A estrutura física foi composta por um cano de policloreto de vinila de 32 mm custando nove reais, um estojo para o microcontrolador por um real e 80 centavos, além de cabo e ponteira confeccionados em impressora tridimensional com custos de seis reais e 10 centavos e dois reais e 50 centavos, respectivamente. O custo total do protótipo totalizou 172 reais e 40 centavos, valor significativamente inferior às opções comerciais disponíveis. A configuração do microcontrolador foi realizada com base nas especificações técnicas dos pinos, permitindo a inicialização do módulo por meio do botão físico conectado ao pino 13. Além do acionamento físico, previu-se um acionamento virtual via aplicativo Android para ampliar a flexibilidade de uso.

O desenvolvimento do software ocorreu na plataforma de desenvolvimento do Arduino, onde o código-fonte foi estruturado de forma modular para facilitar a manutenção. O sistema foi dividido em arquivos específicos: o arquivo principal responsável pelas rotinas de inicialização e execução contínua; um módulo para implementação da conexão Wi-Fi; um módulo de câmera para configuração dos pinos, captura em formato RGB565, conversão para JPEG e codificação em Base64; um módulo para a interface com a inteligência artificial do Google, responsável por montar a requisição e tratar a resposta; e um módulo de servidor web para expor pontos de acesso que permitem o controle remoto do dispositivo. Diversas bibliotecas foram fundamentais nesse processo, como a WebServer para gerenciar as requisições, a WiFi para conectividade, a Esp_camera para interfacear com o hardware óptico, a Base64 para a codificação dos dados de imagem, a HTTPClient para comunicação com servidores externos, a ArduinoJson para análise de dados e a WiFiClientSecure para garantir conexões seguras via criptografia.

A condução da pesquisa envolveu a programação do ESP32-CAM para que as imagens capturadas fossem convertidas para o formato de texto Base64 antes de serem enviadas para a interface de programação de aplicações Gemini. Paralelamente, desenvolveu-se um aplicativo de acessibilidade utilizando a plataforma App Inventor do Instituto de Tecnologia de Massachusetts. Esta ferramenta permitiu a construção da interface por meio de blocos lógicos, eliminando a necessidade de programação textual complexa. O propósito central do aplicativo é receber as mensagens de texto da inteligência artificial e convertê-las automaticamente em áudio, utilizando recursos de síntese de voz. O aplicativo foi projetado para ser compatível com qualquer dispositivo Android, promovendo a democratização do acesso à informação. Os procedimentos técnicos incluíram a coleta efetiva de imagens em tempo real, a integração com o modelo generativo para processamento e a validação do fluxo de dados até o usuário final. As fontes de dados para a fundamentação teórica abrangeram publicações científicas e literatura especializada em visão computacional e tecnologia assistiva, enquanto os resultados práticos foram obtidos pela análise da precisão na identificação de objetos durante as fases de teste.

Durante a fase de desenvolvimento e validação, os resultados demonstraram a eficácia da arquitetura proposta. Inicialmente, o projeto previa o uso de bibliotecas locais de aprendizado de máquina, porém a transição para uma interface de programação de aplicações baseada em nuvem mostrou-se mais eficiente para gerar descrições detalhadas do ambiente em vez de apenas identificar objetos isolados. O fluxo de execução foi validado em etapas claras: inicialização com conexão à rede sem fio e ativação da câmera; captura disparada pelo botão físico que gera uma tarefa em segundo plano; conversão da imagem para JPEG e codificação em Base64; envio dos dados via protocolo seguro para a inteligência artificial; e, por fim, o recebimento e armazenamento da descrição textual. O sistema também permitiu o acionamento via navegador web, onde o acesso a um endereço de protocolo de internet específico iniciava o mesmo processo de captura e consulta da resposta.

Os testes práticos revelaram que a captura de imagens com resolução de 320 por 240 pixels é adequada para o ESP32-CAM, considerando suas limitações de memória de acesso aleatório, fornecendo informações visuais suficientes para a análise da inteligência artificial. A imagem capturada em RGB565 foi convertida para JPEG com qualidade configurada em 30, um equilíbrio ideal entre nitidez e tamanho de arquivo para transmissão. Observou-se que a conversão para Base64 ocorreu sem erros, mantendo as cadeias de caracteres dentro dos limites de segurança. A comunicação entre o microcontrolador e o ponto de acesso da inteligência artificial foi estabelecida com sucesso, enviando requisições que incluíam o comando específico para que a cena fosse narrada como se fosse para uma pessoa com deficiência visual.

Em testes avançados com a colaboração de usuários, o protótipo foi alimentado por um carregador portátil de 6000 mAh. Medições realizadas com multímetro indicaram que o microcontrolador consome em média 128 mA. Com base nessa demanda energética, a autonomia esperada para o dispositivo é de aproximadamente 46 horas de funcionamento ininterrupto, o que é considerado satisfatório para o uso cotidiano. As imagens foram coletadas em cenários diversos, incluindo ambientes internos e externos com variações de iluminação e distância, visando reproduzir situações reais. Em um dos testes, o sistema descreveu com precisão uma sala de aula, identificando mesas amarelas, cadeiras azuis, um homem de óculos com camisa branca diante de um computador portátil e uma mochila preta sobre a mesa, detalhando inclusive a posição das janelas. Esse nível de detalhamento confirma a superioridade da inteligência artificial generativa em comparação com sistemas simples de detecção de objetos.

O aplicativo desenvolvido no App Inventor desempenhou um papel crucial na acessibilidade. Ao receber o texto, o software aciona imediatamente o recurso de fala, garantindo que o usuário receba a informação de forma auditiva. A interface foi projetada com foco em baixa visão, utilizando fundo preto e texto branco para alto contraste, fontes ampliadas e botões com dimensões generosas. Funcionalidades como repetir a fala e interromper a narração foram incluídas para dar controle total ao usuário. A simplicidade da interface, com poucos elementos visuais, evita a poluição cognitiva e favorece a navegação autônoma. Os resultados apontaram que a presença de dois meios de acionamento aumentou a resiliência operacional do protótipo, permitindo que o usuário escolha a forma mais confortável de interagir com o sistema dependendo da situação.

A discussão dos resultados evidencia a viabilidade técnica do sistema. A integração de hardware de baixo custo com processamento em nuvem superou as limitações físicas do microcontrolador. Embora o ESP32-CAM possua restrições de memória que impedem o processamento local de modelos robustos, a arquitetura de IoT permitiu contornar esse obstáculo. A latência na transmissão das imagens foi identificada como um ponto de atenção, sendo dependente da qualidade da conexão Wi-Fi disponível no ambiente. No entanto, para a finalidade de descrição de cenários estáticos ou de navegação lenta, o tempo de resposta mostrou-se aceitável. A precisão das descrições geradas pela inteligência artificial do Google foi um dos pontos fortes, demonstrando coerência e riqueza de detalhes que auxiliam efetivamente na construção de um mapa mental do ambiente pelo deficiente visual.

Comparando com as soluções de mercado, o protótipo apresenta uma vantagem econômica esmagadora, custando menos de 200 reais, enquanto dispositivos comerciais podem custar milhares de dólares. Essa diferença de preço é um fator determinante para a inclusão social em países em desenvolvimento. No entanto, reconhecem-se limitações, como a dependência de internet e a necessidade de um smartphone para a saída de áudio. Pesquisas futuras podem explorar a integração de módulos de áudio diretamente no hardware da bengala e o uso de microcontroladores com maior capacidade de processamento para reduzir a dependência da nuvem em tarefas básicas. A avaliação contínua com um grupo maior de usuários em cenários de uso prolongado é essencial para coletar feedbacks sobre a ergonomia e a utilidade prática das descrições em situações de estresse ou ambientes ruidosos.

A análise do consumo energético sugere que o sistema é eficiente para o uso diário, mas a implementação de modos de suspensão profunda entre as capturas poderia estender a autonomia para vários dias. A substituição do App Inventor por linguagens de programação nativas como Kotlin ou Swift também poderia melhorar o desempenho e a integração com recursos de acessibilidade nativos dos sistemas operacionais móveis. A modularidade do código desenvolvido permite que novas funcionalidades sejam adicionadas com facilidade, como o reconhecimento de textos em placas ou a identificação de cores de roupas, ampliando ainda mais o leque de assistência oferecido pela ferramenta. A validação técnica das etapas de configuração, conexão, captura e comunicação confirma que a arquitetura proposta é robusta e funcional.

A originalidade da proposta reside na integração física e lógica de componentes acessíveis para criar uma solução de alta tecnologia. A bengala deixa de ser apenas um instrumento tátil de detecção de obstáculos próximos para se tornar um sensor inteligente de longo alcance, capaz de interpretar o contexto social e espacial. O impacto social de tal tecnologia é profundo, pois a autonomia de uma pessoa com deficiência visual está diretamente ligada à sua capacidade de compreender o ambiente sem depender constantemente de terceiros. O projeto demonstra que a engenharia de software e o hardware livre podem ser aliados poderosos na redução de barreiras de acessibilidade. A simplicidade operacional, onde um único clique resulta em uma narração detalhada, remove a curva de aprendizado complexa que muitas vezes acompanha novas tecnologias assistivas.

Conclui-se que o objetivo foi atingido, uma vez que o protótipo desenvolvido demonstrou ser uma solução tecnicamente viável, de baixo custo e eficaz na descrição de ambientes para pessoas com deficiência visual. A integração entre o microcontrolador ESP32-CAM e a inteligência artificial generativa permitiu superar as limitações de hardware local, fornecendo informações auditivas detalhadas e precisas que contribuem diretamente para a autonomia e inclusão social do usuário. O sistema validou todas as etapas de captura, processamento e saída de áudio, apresentando um custo de produção acessível e uma autonomia energética compatível com as necessidades cotidianas, estabelecendo uma base sólida para futuras evoluções em tecnologias assistivas baseadas em internet das coisas.

Referências Bibliográficas:

BERSCH, R. 2008. Tecnologia Assistiva: Recursos e Serviços para a Inclusão das Pessoas com Deficiência. MEC/SEESP, Brasília, Brasil.

BRASIL. 2004. Decreto Nº 5.296, de 2 de dezembro de 2004. Regulamenta as Leis N.º 10.048, de 8 de novembro de 2000, que Dá Prioridade de Atendimento às Pessoas que especifica, e 10.098, de 19 de dezembro de 2000, que Estabelece Normas Gerais e Critérios Básicos para a Promoção da Acessibilidade das Pessoas Portadoras de Deficiência ou com Mobilidade Reduzida, e Dá Outras Providências. Diário Oficial da União. Disponível em: http://www.planalto.gov.br/ccivil_03/_ato2004-2006/2004/decreto/d5296.htm. Acesso em: mar. 2025.

CATALINI, M.; KINTSCHNER, P. 2021. Aplicativo de reconhecimento de imagens para deficientes visuais. Revista de Tecnologia Assistiva, Disponível em: https://lcv.fee.unicamp.br/images/BTSym-21/papers/BTSym2021_058_v1.pdf. Acesso em: mar. 2025.

ESPRESSIF. 2024. Esp32-cam Datasheet. Disponível em: https://docs.espressif.com. Acesso em: jun. 2025.

GIL, A. C. 2022. Como Elaborar Projetos de Pesquisa. 7ed. Atlas, São Paulo, SP, Brasil.

GONZALEZ, R. C.; WOODS, R. E. 2018. Digital Image Processing. 4ed. Pearson.

GOOGLE. 2025. Gemini API Documentation. Disponível em: https://ai.google.dev. Acesso em: jun. 2025.

Resumo executivo oriundo de Trabalho de Conclusão de Curso de MBA em Engenharia de Software

Saiba mais sobre o curso, clique aqui

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade