Skip to content

O que é filtragem de spam bayesiana?

15 de abril de 2021

Os filtros de spam bayesianos calculam a probabilidade de uma mensagem ser spam com base em seu conteúdo. Ao contrário dos filtros simples baseados em palavras, os filtros de spam bayesianos aprendem com o spam recebido e com bons e-mails, resultando em uma abordagem anti-spam muito robusta, adaptável e eficiente que raramente retorna falsos positivos. As mensagens de e-mail não consideradas spam às vezes são chamadas de “ham”.

Filtros bayesianos estão cada vez melhores

Filtros de spam simples baseados em palavras não consideram o que pode ser considerado palavras incomuns (uma pista de que uma determinada mensagem pode ser spam) para cada usuário de e-mail. Além disso, eles não têm a capacidade de alterar as regras que usam para identificar spam ao longo do tempo. Os filtros de spam bayesianos são diferentes por fazerem as duas coisas. Os filtros de spam bayesianos criam uma lista de palavras indesejadas ao longo do tempo. Eles analisam mensagens de spam e mensagens boas para calcular a probabilidade de várias características aparecerem no spam e em mensagens boas. Em seguida, palavras novas e indesejadas são adicionadas à lista. Se uma palavra nunca aparece no spam, mas geralmente no e-mail legítimo que você recebe, a probabilidade dessa palavra indicar spam é quase zero. Por exemplo, digamos que você receba muitas mensagens legítimas que contêm a palavra Cartesiano. Esse fato diminui a probabilidade de que mensagens de e-mail que você receba contendo a palavra cartesiano são spam. Por outro lado, digamos que você raramente ou nunca receba mensagens legítimas que contenham a palavra toner. Se você receber uma mensagem que contenha a palavra toner, é mais provável que seja spam.

Como um filtro bayesiano examina uma mensagem de e-mail

As características de mensagem que um filtro de spam Bayesiano analisa incluem:

  • Palavras no corpo da mensagem
  • Palavras no cabeçalho da mensagem (como o remetente e o caminho da mensagem)
  • Outros elementos, como código HTML / CSS (como cores e outras formatações)
  • Pares de palavras e frases
  • Meta informações (como onde uma frase específica aparece)

Quando uma nova mensagem chega, o filtro de spam bayesiano a analisa e calcula a probabilidade de ser spam de acordo com esses atributos. Continuando com os exemplos acima, suponha que uma mensagem contenha ambas as palavras, cartesiano e toner. Com base nessas palavras, não fica claro se a mensagem é spam ou e-mail legítimo. Mas se a mensagem também contiver o cabeçalho “ÓTIMOS NEGÓCIOS NO TONER !!!!!” então, a probabilidade de ser spam aumenta.

Filtros Bayesianos aprendem automaticamente

Seguindo a classificação em “spam” ou “email legítimo”, o filtro pode usar essa determinação para treinar ainda mais a si mesmo. Em nosso exemplo, o filtro deve diminuir a probabilidade de cartesiano indicando boa correspondência ou aumentar a probabilidade de toner indicando spam. Dados os dados adicionais do cabeçalho de spam nesta mensagem (e talvez outros fatores também), ele faria o último e avaliaria a próxima mensagem recebida com base na nova probabilidade. Usando esta técnica auto-adaptativa, os filtros Bayesianos podem aprender tanto com suas próprias decisões quanto com as dos usuários (se eles corrigirem manualmente as mensagens avaliadas incorretamente). A adaptabilidade desse sistema garante que esses filtros sejam mais eficazes para usuários de e-mail individuais porque, embora o spam da maioria das pessoas possa ter características semelhantes, os e-mails legítimos são caracteristicamente diferentes para cada pessoa.

Os spammers podem superar os filtros bayesianos?

As características do email legítimo são tão importantes para o processo de filtragem de spam bayesiano quanto as características do spam. Como os filtros são treinados especificamente para cada usuário, os spammers têm mais dificuldade em lidar com eles, e os filtros podem se adaptar a quase tudo que os spammers tentam. As mensagens dos spammers só passam por filtros Bayesianos bem treinados se os trapaceiros fizerem com que seu spam pareça um e-mail perfeitamente comum. Mas os spammers geralmente não enviam essas mensagens comuns porque não funcionam bem para atender aos seus propósitos (ou seja, convencer você a comprar algo ou clicar em um link). Por melhor que seja um filtro bayesiano, uma palavra ou característica que freqüentemente aparece em um e-mail válido pode ser tão significativa a ponto de impedir que uma mensagem que a contém seja classificada como spam. Portanto, se os remetentes de spam pudessem encontrar uma maneira de determinar suas palavras de boa correspondência infalíveis, eles poderiam incluir uma delas em um lixo eletrônico e chegar até você mesmo por meio de um filtro bayesiano bem treinado. Mas, de acordo com pesquisadores que tentaram esse método, ele é demorado e complexo o suficiente para não ser usado com muita frequência.