
25 de fevereiro de 2026
Tempo de tela e sono: investigação e predição através de aprendizagem de máquina
Diogo Silva Ribeiro Junior; Douglas Augusto de Paula
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Este trabalho utiliza machine learning para explorar a relação entre tempo de tela e qualidade do sono, buscando prever a qualidade do sono e identificar fatores relevantes para sua melhora, visando contribuir para estudos futuros. A premissa é que a crescente integração de dispositivos digitais na vida cotidiana alterou os padrões de comportamento humano, com repercussões na saúde física e mental.
A onipresença de dispositivos eletrônicos fomentou um estilo de vida sedentário, potencializado pela pandemia de COVID-19 (OMS, 2025), gerando preocupações sobre seus efeitos adversos. Estudos associam o excesso de tempo de tela a problemas de saúde como dietas desequilibradas e síndrome do olho seco (Trott et al., 2022). A relação entre o uso de telas e a qualidade do sono, em particular, emergiu como uma área de investigação prioritária, dada a função vital do sono para o bem-estar.
O sono é um estado fisiológico essencial para o desenvolvimento físico e psicológico, especialmente na infância e adolescência. A privação ou baixa qualidade do sono pode acarretar consequências severas a curto e longo prazo, afetando da capacidade cognitiva à saúde metabólica e cardiovascular (Carter et al., 2016). Embora a literatura não estabeleça uma relação causal universalmente aceita, evidências apontam associações significativas entre tempo de tela e desfechos negativos de saúde, como dores corporais, sintomas depressivos e má qualidade de sono, com efeitos pronunciados em crianças e adolescentes (Costigan et al., 2013).
Estudos específicos corroboram essa preocupação. Uma pesquisa de coorte com adolescentes em Pelotas, Brasil, revelou uma tendência inversa entre tempo de tela e duração do sono. Usuários com tempo de tela elevado apresentaram uma probabilidade 60% maior de relatar má qualidade de sono, mesmo dormindo nove horas ou mais (Echevarria et al., 2023). Similarmente, um estudo em Presidente Prudente com 1.010 adolescentes encontrou prevalência de má qualidade do sono em mais de 50% dos participantes, com mais de 46% dormindo menos de oito horas. A análise demonstrou associação entre tempo de tela elevado, má qualidade e tempo insuficiente de sono, especialmente em adolescentes insuficientemente ativos (Dos Santos, 2024).
A diversidade de dispositivos digitais levanta questões sobre limites saudáveis para o tempo de tela. Em resposta, países intensificaram pesquisas sobre a relação entre exposição a telas e saúde (Tadpatrikar et al., 2024). Evidências indicam que usar um dispositivo eletrônico ao dormir está associado a pior qualidade e menor duração do sono, e sonolência diurna (Carter et al., 2016). Uma pesquisa da National Sleep Foundation nos EUA revelou que 90% dos americanos usavam tecnologia antes de dormir, com jovens adultos mostrando associação entre o uso de dispositivos interativos e maior latência do sono (Gradisar, 2013). Diante de variáveis exploradas isoladamente, este estudo propõe uma abordagem integrada com aprendizado de máquina.
A pesquisa, de caráter exploratório e quantitativo, utiliza a base de dados pública “Student Insomnia and Educational Outcomes Dataset” (Abdullah, 2025), da plataforma Mendeley Data. O conjunto de dados contém autorrelatos de 791 estudantes sobre estilo de vida, qualidade do sono, hábitos de tela e rotina acadêmica. A base original possui 16 variáveis, predominantemente qualitativas ordinais, que capturam a frequência de comportamentos como dificuldade em adormecer, despertares noturnos e uso de eletrônicos antes de dormir.
A análise de dados foi conduzida em ambiente de programação local com bibliotecas como Pandas, Numpy e Matplotlib. Na análise exploratória, a variável “Timestamp” foi removida por não agregar valor. As variáveis textuais foram convertidas em códigos nominais. A análise de distribuição da variável alvo, “qualidade_sono”, identificou sub-representação da categoria “Médio”. Para investigar associações, foram usadas tabelas de contingência e o teste qui-quadrado, com nível de confiança de 95%; um p-valor inferior a 0,05 indicaria associação estatisticamente significativa (Fávero e Belfiore, 2024).
Para a aplicação dos algoritmos de aprendizado de máquina, os dados foram pré-processados. O conjunto foi dividido em 80% para treino e 20% para teste. Foi aplicado o processo de “one-hot encoding” para transformar variáveis categóricas em formato binário. Foram testados três modelos de classificação: Árvore de Decisão, Random Forest e Random Forest otimizado com Grid Search. Árvores de Decisão são modelos que classificam dados com base em regras hierárquicas (Mienye e Jere, 2024). O Random Forest é um método de conjunto que constrói múltiplas árvores para melhorar a precisão e controlar o sobreajuste (Rokach e Maimon, 2014). O Grid Search foi empregado para buscar a melhor combinação de hiperparâmetros do Random Forest.
A avaliação dos modelos utilizou métricas adequadas para problemas de classificação com classes desbalanceadas. Além da acurácia, que pode ser enganosa nesses cenários, a análise incluiu sensibilidade, especificidade e precisão (Rokach e Maimon, 2014). Adicionalmente, foi utilizada a matriz de confusão, uma ferramenta visual para análise detalhada dos erros e acertos do classificador para cada classe, contrastando valores preditos e reais (Ruback et al., 2021). A combinação dessas métricas permitiu uma avaliação mais robusta da capacidade preditiva dos modelos.
A análise com o teste qui-quadrado revelou que todas as variáveis independentes apresentaram associação estatisticamente significativa com a “qualidadesono” (p-valores < 0,001). Variáveis como “freqcansacodiurno” (χ² = 123,69), “classificacaodesempacadem” (χ² = 116,07) e “descricaoimpacto_sono” (χ² = 98,06) mostraram as associações mais fortes. A análise de balanceamento da variável alvo confirmou uma distribuição desigual: “Muito ruim” (31%) e “Muito bom” (26%) foram as mais representadas, enquanto “Médio” correspondia a apenas 6% das observações, um fator crítico que impactou o desempenho dos modelos.
O modelo de Árvore de Decisão com profundidade máxima de 3 resultou em 38,99% de acurácia no conjunto de teste. A importância das variáveis revelou que os fatores mais influentes não estavam ligados ao tempo de tela, mas às consequências do sono ruim: frequência de cansaço diurno relatada como “Sempre” (33,77% de importância) e “Frequentemente” (20,29%), seguidas pelo despertar noturno “Todas as noites” (16,74%). A matriz de confusão mostrou capacidade de classificar as classes extremas (“Muito ruim” e “Muito bom”), mas falhou em prever as classes intermediárias, especialmente “Médio” e “Ruim”.
O modelo de Random Forest com 300 árvores e profundidade máxima de 3 apresentou uma melhora marginal, alcançando 41,51% de acurácia. A importância das variáveis seguiu um padrão similar ao da Árvore de Decisão, com o cansaço diurno (“Sempre” com 6,19% e “Frequentemente” com 5,89%) e o despertar noturno (“Todas as noites” com 4,09%) permanecendo como os preditores mais fortes. A matriz de confusão indicou um leve aumento nos acertos gerais, mas a dificuldade em classificar corretamente as classes “Médio” e “Ruim” persistiu.
A otimização com Grid Search para os hiperparâmetros do Random Forest não resultou em melhoria significativa de desempenho. O melhor modelo encontrado alcançou 40,25% de acurácia no teste, valor inferior ao do modelo Random Forest com parâmetros manuais. As variáveis mais importantes e a matriz de confusão foram consistentes com as abordagens anteriores, confirmando que a otimização de hiperparâmetros não foi suficiente para superar as limitações do conjunto de dados.
A análise conjunta dos resultados demonstra que, embora os modelos tenham superado uma classificação aleatória, a acurácia em torno de 40% é insatisfatória para uma aplicação preditiva confiável. O desbalanceamento de classes, especialmente a sub-representação da categoria “Médio”, incapacitou os modelos de aprenderem os padrões associados a essa classificação. Além disso, a incapacidade de prever a classe “Ruim”, mesmo com uma representatividade de 16%, sugere que as variáveis disponíveis não são suficientemente discriminatórias para separar as nuances entre as categorias de sono de qualidade inferior.
Um aspecto fundamental é a natureza subjetiva dos dados, baseados na percepção individual, o que introduz vieses. Criticamente, as variáveis mais relevantes para a predição descrevem as consequências da má qualidade do sono (cansaço, dificuldade de concentração), e não os fatores causais, como os hábitos de uso de eletrônicos. Essencialmente, o modelo aprendeu a prever que “uma pessoa se sente mal” com base na informação de que “ela se sente cansada”, uma inferência tautológica com pouco valor explicativo.
Para testar essa hipótese, um experimento adicional excluiu do treinamento as variáveis que descreviam as consequências do sono ruim, como “freqcansacodiurno”. Mesmo com a remoção desses preditores, o desempenho dos modelos não se alterou significativamente, com a acurácia permanecendo entre 38% e 40%. Este resultado reforça que o conjunto de dados possui limitações severas para predizer a qualidade do sono a partir de fatores comportamentais como o tempo de tela, com o modelo restrito a identificar apenas os casos mais extremos.
Apesar do desempenho preditivo limitado, a investigação oferece contribuições metodológicas. Fica evidente a necessidade de estudos futuros utilizarem dados mais objetivos e com maior granularidade. Variáveis métricas, como tempo de latência do sono, duração das fases do sono (REM, NREM) e frequência cardíaca, coletadas por dispositivos vestíveis (wearables) ou polissonografia, poderiam fornecer uma base de dados mais robusta. A combinação de informações fisiológicas com dados detalhados sobre o uso de dispositivos digitais (horário, tipo de conteúdo) poderia enriquecer a capacidade preditiva e explicativa dos modelos.
Em suma, a aplicação de algoritmos de machine learning demonstrou desempenho limitado na predição da qualidade do sono, com uma acurácia média em torno de 40%. Este resultado é atribuído a três fatores: limitações do conjunto de dados, que apresenta desbalanceamento de classes e é composto por respostas subjetivas; a natureza das variáveis mais preditivas, que refletem as consequências de uma má qualidade de sono em vez de suas causas; e a necessidade de dados mais precisos e granulares. Apesar das limitações, o estudo reforça a necessidade de investigações futuras que incorporem variáveis mais robustas, como dados fisiológicos objetivos combinados com registros comportamentais detalhados, para ampliar a compreensão da relação entre tempo de tela e sono. Conclui-se que o objetivo foi atingido: demonstrou-se a viabilidade da aplicação de técnicas de machine learning para explorar a relação entre tempo de tela e sono, e, crucialmente, foram identificadas as limitações dos dados baseados em autorrelato e a importância das variáveis consequenciais, apontando caminhos metodológicos mais robustos para futuras pesquisas.
Referências:
Abdullah, Akik; Rahman, Md Shohanur. Conjunto de dados: “Student Insomnia and Educational Outcomes Dataset”. 2025. Disponível em: https://data. mendeley. com/datasets/5mvrx4v62z/3. Mendeley Data, V3, doi: 10.17632/5mvrx4v62z.3.
Amanda B. dos Santos, Wagner L. Prado, William R. Tebar, Jared Ingles, Gerson Ferrari, Priscila K. Morelhão, Luan O. Borges, Raphael M. Ritti Dias, Victor S. Beretta, Diego G. D. Christofaro. 2024. Preventive Medicine Reports. Screen time is negatively associated with sleep quality and duration only in insufficiently active adolescents: A Brazilian cross-sectional school-based study. Volume 37 (102579). ISSN 2211-3355.
Ashwini Tadpatrikar, Manoj Kumar Sharma, Pratima Murthy. 2024. Asian Journal of Psychiatry. Digital dilemmas and existing recommendations for healthy screen time use for children and adolescents. Volume 99 (104154). ISSN 1876-2018.
Carter B, Rees P, Hale L, Bhattacharjee D, Paradkar MS. 2016. JAMA Pediatrics. Association Between Portable Screen-Based Media Device Access or Use and Sleep Outcomes: A Systematic Review and Meta-analysis. Volume 170 (12): 1202–1208.
Costigan, Sarah A., Barnett, Lisa, Plotnikoff, Ronald C., Lubans, David R. 2013. Journal of Adolescent Health. The Health Indicators Associated With Screen-Based Sedentary Behavior Among Adolescent Girls: A Systematic Review. Volume 52: 382-392. ISSN 1054-139X.
Fávero, Luiz Paulo e Belfiore, Patricia. 2024. Manual de Análise de Dados. 2ª edição. LTC, Rio de Janeiro, Rio de Janeiro, Brasil.
Gradisar M, Wolfson AR, Harvey AG, Hale L, Rosenberg R, Czeisler CA. 2013. Journal of Clinical Sleep Medicine. The sleep and technology use of Americans: findings from the National Sleep Foundation’s 2011 Sleep in America poll. Volume 9 (12): 1291-1299.
I. D. Mienye and N. Jere, “A Survey of Decision Trees: Concepts, Algorithms, and Applications,” in IEEE Access, vol. 12, pp. 86716-86727, 2024, doi: 10.1109/ACCESS.2024.3416838.
Mike Trott, Robin Driscoll, Enrico Iraldo, Shahina Pardhan. 2022. eClinicalMedicine. Changes and correlates of screen time in adults and children during the COVID-19 pandemic: A systematic review and meta-analysis. Volume 48 (101452). ISSN 2589-5370.
Priscila Echevarria, Bianca Del-Ponte, Luciana Tovo-Rodrigues, Alicia Matijasevich, Camila S. Halal, Iná S. Santos. 2023. Sleep Medicine: X. Screen use and sleep duration and quality at 15 years old: Cohort study. Volume 5 (100073). ISSN 2590-1427.
Rokach, L.; Maimon, O. 2014. Data mining with decision trees: theory and applications. 2ed. World Scientific, Danvers, MA, United States.
Ruback, Livia & Avila, Sandra & Cantero, Lucia. (2021). Vieses no Aprendizado de Máquina e suas Implicações Sociais: Um Estudo de Caso no Reconhecimento Facial. 90-101. 10.5753/wics.2021.15967.
WORLD HEALTH ORGANIZATION. WHO Coronavirus Disease (COVID-19) Dashboard. Disponível em: https://covid19. who. int/. Acesso em: 12 mar. 2025.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:






































