19 JANEIRO / SEXTA FEIRA / 07:33
FCUP PT 
 EN
 
CI
SERVIÇOS
APOIO
CONTACTOS
Correio Eletrónico
Configuração
Webmail
Filtros de Mail
Spam & Vírus
Ativação da análise Bayesiana
Encaminhamento
Listas de Email
Histórico de utilização
Certificados Digitais
Rede sem fios
Acesso por SSH
Acesso por VPN
Áreas Web
Software
Sistema de Impressão
Laboratórios de Alunos
PCs Docentes
Telefones VoIP
infoCiências

Spam & Vírus

O Centro de Informática desenvolveu um sistema centralizado de controle de spam e de vírus que se veio a verificar ser um serviço muito eficaz. Este sistema está dividido em duas partes:

  • Parte 1: Detecção de spam e de vírus quando as mensagens são entregues ao servidor da Faculdade.
  • Parte 2: Arrumação das mensagens de spam existentes na caixa de correio dos utilizadores.

Parte 1

Na primeira parte deste sistema, as mensagens de correio que são enviadas para a Faculdade de Ciências passam por uma série de validações para eliminar ao máximo a entrega de mensagens indesejadas. Estas validações incluem, como parte dos seus testes, as seguintes verificações:

  • As mensagens oriundas de servidores inválidos são rejeitadas,
  • As mensagens destinadas a utilizadores inválidos são rejeitadas,
  • As tentativas de reencaminhamento são rejeitadas,
  • As mensagens que forem detetadas como vírus são apagadas,
  • As mensagens que forem detetadas como spam são marcadas com a tag "[SPAM]" para serem facilmente identificadas posteriormente.

Pode verificar o resultado desta análise durante a última semana no seguinte gráfico:

De salientar nesta parte do sistema a eficácia da rejeição de lixo e posterior detecção de spam.

Desde que o sistema entrou em produção em Setembro de 2004, foram registados até Abril de 2005, em média, os seguintes valores. 67% das mensagens de correio são imediatamente rejeitadas. Das mensagens que foram aceites ainda se apurou que 76% destas eram spam.

Exemplificando, por cada 100 tentativas de entrega de mensagens de correio:

  • 67 mensagens são imediatamente rejeitadas,
  • Das 33 mensagens aceites, 76% são spam, ou seja, 25 mensagens são detetadas como spam.

Concluindo, são aceites apenas 8 mensagens potencialmente legitimas. Este número ainda inclui as mensagens de vírus e as mensagens de spam que não foram detetadas com sucesso. Podemos afirmar com alguma certeza que atendendo a estes dois fatores, este número baixa para 6 mensagens potencialmente legitimas.

As mensagens erradamente classificadas como spam designam-se por falsos positivos e o seu número pode chegar aos 0,2%.

Parte 2

A segunda parte do sistema efetua as seguintes operações:

  1. Cria, por utilizador, as seguintes pastas de correio (Poderá ter de subscrever estas pastas IMAP para que apareçam no programa que usa para ler o correio):

    • Quarentena
    • Quarentena/Spam
    • Quarentena/Spam-Falsos

  2. Desloca as mensagens, previamente etiquetadas na primeira parte com a marca "[SPAM]" para a pasta 'Quarentena/Spam' criada no ponto anterior,
  3. Remove desta pasta as mensagens mais antigas.
  4. Devido ao facto da detecção de spam não ser uma ciência exata, é da responsabilidade do utilizador efetuar as seguintes tarefas:

    • Verificar/confirmar se alguma das mensagens na pasta 'Quarentena/Spam' foi mal classificada. Uma visita semanal a esta pasta é suficiente,
    • Mover as mensagens mal classificadas como spam para a pasta 'Quarentena/Spam-Falsos'. O sistema encarregar-se-á de lhes retirar a etiqueta "[SPAM]" e de as colocar novamente na pasta 'INBOX'.

    Além destas operações o sistema ainda utiliza, para os utilizadores aderentes, a análise Bayesiana para construir uma base de dados de aprendizagem individual que analisa as novas mensagens de um utilizador. A análise Bayesiana é utilizada para detetar mensagens de spam que não foram detetadas na primeira parte. Para isso, o sistema:

    1. Aprende o que é spam com as mensagens armazenadas na pasta 'Quarentena/Spam',
    2. Aprende o que NÃO é spam com as mensagens pessoais do utilizador guardadas nas suas pastas pessoais. Estas mensagens designam-se por ham,
    3. Corrige erros de aprendizagem com as mensagens que foram colocadas em 'Quarentena/Spam-Falsos'. Estas mensagens (falsos positivos) foram erradamente classificadas como spam.

    A análise Bayesiana só funciona se o utilizador construir uma base de dados tanto de ham como spam. O sistema apenas aprende ham com as mensagens que estejam guardadas em sub-pastas pessoais. O sistema, por omissão, seleciona todas as pastas disponíveis e exclui as que tenham as seguintes palavras como parte do nome:

    • Spam
    • Trash
    • Lixo
    • Deleted
    • Apagados
    • Publicidade
    • Infected
    • Junk

    Importante: Se por acaso tem uma pasta que não respeita estas condições deve alterar o seu nome, caso contrário ela pode ser utilizada na aprendizagem de forma incorreta.

    Para que a análise Bayesiana funcione é necessário que tenha havido uma aprendizagem de, pelo menos, 250 mensagens de spam e 250 mensagens de ham. Para os utilizadores que não atinjam estes valores mínimos, não é feita a análise às mensagens recebidas. No entanto, o sistema continua a aprender com as mensagens que vai processando e começa a funcionar assim que estes mínimos sejam atingidos.

    Se todos os requisitos estiverem cumpridos, o sistema verifica as mensagens novas do utilizador. As mensagens que forem identificadas como spam são colocadas na pasta destinada para o efeito.

    Pode saber como aderir ao sistema de análise Bayseana aqui.

FCUP 2018