A ferramenta está disponível para qualquer um que busque conferir os dados da pesquisa, para estudo de outros desenvolvedores e, inclusive, para empresas que busquem aprimorá-la e aderi-la a seus sistemas
POR – GUILHERME GAMA, JORNAL DA USP / NEO MONDO
Pesquisadores da USP desenvolveram o protótipo de uma ferramenta preventiva de combate à pedofilia virtual, capaz de gerar alertas aos pais
Na vida real, é mais fácil proteger uma criança, porque se está ao lado dela. Mas, na internet, um descuido e um mal pode ter acontecido”, afirma, ao Jornal da USP, Daniela F. Milón Flores, autora de um estudo realizado no Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos, que levou ao desenvolvimento do protótipo de uma ferramenta capaz de analisar bate-papos virtuais de crianças e adolescentes e identificar casos de assédio sexual.
Em análises comparativas, a ferramenta se mostrou melhor do que outros algoritmos, principalmente na tarefa de identificar e alertar os responsáveis já no início da conversa, em casos de abuso.
O algoritmo utiliza um conjunto de informações sobre o comportamento do usuário e o conteúdo das mensagens para detectar conversas suspeitas e, assim, notificar os pais — recurso ainda a ser aperfeiçoado. O código avança na criação de dados para pesquisas na área, mas encontra como desafio a constante mudança na forma como nos expressamos e o fato de estar disponível apenas em língua inglesa.
Os resultados estão descritos no artigo intitulado How to take advantage of behavioral features for the early detection of grooming in online conversations, publicado em 29 de dezembro de 2021, na plataforma ScienceDirect.
A pesquisa do Grupo de Bases de Dados e de Imagens (GBdI) do ICMC da USP contou com apoio da Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp), da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (Capes) e do Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq).
A cada ano, crianças são introduzidas mais cedo ao mundo virtual, e, com essa realidade, maior é a exposição aos riscos das redes sociais. “O objetivo da pesquisa é proteger as crianças, porque elas mesmas não sabem com quem estão conversando por trás do notebook. Elas acreditam que seja um amigo, porque é isso que faz o pedófilo, cria uma relação baseada na confiança para depois abusar dela”, conta Daniela.
De acordo com os pesquisadores, um dos maiores desafios de estudar assédio sexual infantil na internet é a carência de dados para o desenvolvimento de ferramentas preventivas. Por conta da necessidade de sigilo de informação para assegurar a privacidade de menores de idade, há uma quantidade restrita de datasets, como são chamados os conjuntos de informações digitais, disponíveis para estudo.
Como o algoritmo funciona
A pesquisa se baseou em um dataset de mensagens de texto em que adultos se passaram por crianças para interagir com pedófilos, e analisou os dados para identificar características da conversa que possam ser ensinadas à máquina para reconhecer interações de risco.
As análises mostraram que, em geral, conversas com alto número de participantes dificilmente apresentavam contexto de pedofilia. “Isso acontece porque o pedófilo quer privacidade, falar apenas com a criança”, explica o orientador da pesquisa e professor do ICMC, Robson L. F. Cordeiro. A maioria das conversas suspeitas envolvia apenas duas pessoas, quando não, tratava-se de monólogos — casos em que o pedófilo manda várias mensagens, como tentativas de contato, mesmo sem retorno da criança, explica o professor.
Os horários das interações também guiam o algoritmo. Na maior parte dos casos de abuso, as conversas aconteciam no período vespertino, das 18h às 21h, horário em que as crianças não estão nas escolas e têm acesso a celulares e computadores privados. Mensagens curtas e longas também ajudam a indicar a suspeita.
Além disso, a detecção das palavras de cunho sexual colabora para o julgamento da máquina. Daniela fez uma análise detalhada dos termos sexuais que apareciam nas conversas com abusadores e criou um dicionário, incluindo variações usadas na tentativa de enganar o algoritmo. Isto é, “sex” pode ser reconhecido mesmo se escrito como “$ex” ou “s3x”, formas alternativas chamadas de typos — o que faz a ferramenta mais sofisticada.
Através desses e outros parâmetros, o código monitora as conversas, desde as primeiras mensagens até a sua conclusão. Assim que o conjunto de informações detecta um chat suspeito, um alerta pode ser gerado aos pais, para que a interação passe por uma análise humana e, se necessário, que haja uma intervenção. “A ideia foi desenvolver uma ferramenta em que bate-papos on-line sejam monitorados em tempo real; sem aguardar o final da conversa, já há uma análise parcial para identificar algo suspeito”, afirma o professor. Como se trata de um protótipo, ainda que capaz de gerar uma reação à detecção de abuso, a ferramenta ainda não é capaz de se comunicar com outros sistemas e gerar alertas para aplicativos ou por e-mail, por exemplo — aperfeiçoamento que pode ser atingido ao integrá-la a outros recursos tecnológicos.
Em teste comparativo com os únicos outros três protótipos para essa tarefa, a ferramenta da USP se mostrou mais inteligente. No começo da conversa, obteve-se resultados 40% melhores em relação aos demais, ou seja, ela acerta 40% a mais na detecção de abuso. Para bate-papos já concluídos, a qualidade da detecção aumenta em 30%, em comparação com os outros códigos. “Nós desenvolvemos um protótipo e demonstramos por meio de uma extensa avaliação experimental que ele é melhor que os que já existem na literatura científica”, completa Cordeiro.
Segundo os autores, a maior acurácia do algoritmo é devida à análise de comportamento do usuário, que não acontece nos demais códigos. A pesquisa ainda criou dois novos datasets, que podem ser usados em trabalhos futuros.
A ferramenta está disponível para qualquer um que busque conferir os dados da pesquisa, para estudo de outros desenvolvedores e, inclusive, para empresas que busquem aprimorá-la e aderi-la a seus sistemas.
Desafios a serem superados
O professor destaca os desafios que ainda precisam ser superados dentro do desenvolvimento desses programas de combate ao assédio sexual de crianças no meio digital. Entre eles está o idioma utilizado pelo algoritmo. “Nosso protótipo é voltado somente à linguagem inglesa, que é a língua que pode ter maior impacto, atingir o maior número de crianças, mas também porque só temos dados deste idioma”. Sem dataset em português, não é possível desenvolver ferramentas para crianças no Brasil. “Enquanto não aparecerem dados nesse contexto, estamos de mãos atadas”, lamenta.
Outro desafio está na atualização do algoritmo, ao passo que é programado para um comportamento que está em constante mudança. A ferramenta pode se tornar obsoleta na medida em que a língua muda e novas expressões surjam. “Ainda há, e sempre haverá, muita coisa a ser feita”, completa.