PostgreSQL voor Bayesian-filtering in SpamAssassin

SpamAssassin beschikt over veel regels om e-mail te doorzoeken en te beoordelen op basis van een score of het spambericht is of een mailbericht. Er bestaat ook een optie om SpamAssassin uit te breiden met extra regels en bestaande te updaten, maar deze wedloop kan nooit worden gewonnen. Gelukkig zijn er meer opties om e-mail te beoordelen, zoals met een Bayesian-filter waarbij de kans wordt berekent of een bericht spam is of niet. Een methode waarbij niet wordt gekeken naar de frequentie dat iets voorkomt en daarmee alleen kan zeggen of een stelling waar is of niet waar is. Er is de mogelijkheid om te zeggen dat een bericht de kans heeft van 20% dat het een spambericht is en daarmee is de kans dus redelijk laag, maar er kan ook uitkomen dat de kans 80% is waarmee het veel aannemelijker is dat het een spambericht is.

De voorwaarde voor een goede werking is om goede statistieken te hebben om zo een kansberekening te maken. En hoewel er discussie bestaat over hoe deze statistieken moeten worden gemaakt lijkt de methode nu te werken om het filter op een regelmatige basis zowel spam- als hamberichten te voeden. Hoe je aan deze berichten komt laat ik nu even buiten beschouwing. De eerste stap op Bayesian-filtering aan te zetten in SpamAssassin is door de volgende aanpassingen te maken in /etc/spamassassin/local.cf:

use_bayes 1
bayes_auto_learn 0

Na deze aanpassing moet een database worden aangemaakt in PostgreSQL en moet worden voorzien van de tabellen die in /usr/share/doc/spamassassin/sql/bayes_pg.sql staan. Hierna moet /etc/spamassassin/local.cf worden uitgebreid met de onderstaande regels om SpamAssassin de database te laten gebruiken.

bayes_store_module Mail::SpamAssassin::BayesStore::PgSQL
bayes_sql_dsn dbi:Pg:dbname=database;host=localhost;port=5432
bayes_sql_username gebruiker
bayes_sql_password wachtwoord

Vanaf dit moment kan SpamAssassin gebruik maken van PostgreSQL om te beoordelen en met spamassassin –lint kan worden gecontroleerd of alles correct werkt.

One Reply to “PostgreSQL voor Bayesian-filtering in SpamAssassin”

Comments are closed.