Saltar al contenido

Vad är Bayesisk skräppostfiltrering?

28 de mayo de 2023
GettyImages 122143117 5c64996246e0fb0001f256b1

Bayesiska skräppostfilter beräknar sannolikheten för att ett meddelande ska vara skräppost baserat på dess innehåll. Till skillnad från enkla ordbaserade filter lär sig Bayesianska spamfilter av inkommande skräppost och bra e-post, vilket resulterar i en mycket robust, anpassningsbar, effektiv anti-spam-metod som sällan returnerar falska positiva resultat. E-postmeddelanden som inte betraktas som skräppost kallas ibland för «skinka».

Bayesiska filter blir bättre

Enkla ordbaserade spamfilter tar inte hänsyn till vad som kan anses vara ovanliga ord (en ledtråd om att ett givet meddelande kan vara skräppost) för varje e-postanvändare. Dessutom har de inte kapacitet att ändra reglerna de använder för att identifiera skräppost över tid. Bayesiska skräppostfilter är olika genom att de gör båda. Bayesiska skräppostfilter skapar en lista över oönskade ord över tid. De analyserar både skräppostmeddelanden och bra meddelanden för att beräkna sannolikheten för att olika egenskaper dyker upp i skräppost, och i bra mail. Sedan läggs nya, oönskade ord till i listan. Om ett ord aldrig förekommer i skräppost utan ofta i det legitima e-postmeddelandet du får, är sannolikheten att ordet indikerar skräppost nära noll. Säg till exempel att du får många legitima meddelanden som innehåller ordet kartesiska. Det faktum minskar sannolikheten för att e-postmeddelanden du får innehåller ordet kartesiska är spam. Å andra sidan, säg att du sällan eller någonsin får legitima meddelanden som innehåller ordet toner. Om du får ett meddelande som innehåller ordet toner, det är mer troligt att det är spam.

Hur ett Bayesian-filter undersöker ett e-postmeddelande

Meddelandeegenskaper som ett Bayesianskt spamfilter tittar på inkluderar:

  • Ord i meddelandets brödtext
  • Ord i meddelandehuvudet (som avsändaren och meddelandesökvägen)
  • Andra element som HTML/CSS-kod (som färger och annan formatering)
  • Ordpar och fraser
  • Metainformation (som var en viss fras förekommer)

När ett nytt meddelande kommer, analyserar det Bayesianska skräppostfiltret det och beräknar sannolikheten för att det är skräppost enligt dessa attribut. Om du fortsätter med exemplen ovan, anta att ett meddelande innehåller båda orden, kartesiska och toner. Enbart utifrån dessa ord är det inte klart om meddelandet är skräppost eller legitim e-post. Men om meddelandet också innehåller rubriken «BRA ERBJUDANDEN PÅ TONER!!!!!» då ökar sannolikheten att det är spam.

Bayesiska filter lär sig automatiskt

Efter klassificeringen i «spam» eller «legitim e-post» kan filtret använda den beslutsamheten för att träna sig vidare. I vårt exempel måste filtret antingen sänka sannolikheten för kartesiska indikerar bra post eller höja sannolikheten för toner indikerar spam. Med tanke på de ytterligare uppgifterna i rubriken med spam i detta meddelande (och kanske även andra faktorer), skulle det göra det senare och utvärdera nästa inkommande meddelande baserat på den nya sannolikheten. Genom att använda denna auto-adaptiva teknik kan Bayesianska filter lära av både sina egna och användarnas (om de manuellt korrigerar felaktigt utvärderade meddelanden) beslut. Anpassningsförmågan hos detta system säkerställer att dessa filter är mest effektiva för enskilda e-postanvändare eftersom, även om de flesta människors skräppost kan ha liknande egenskaper, är legitim e-post karakteristiskt olika för varje person.

Kan spammare komma förbi Bayesian-filter?

Egenskaperna hos legitim e-post är lika viktiga för den Bayesianska skräppostfiltreringen som egenskaperna hos spam. Eftersom filtren är utbildade specifikt för varje användare har spammare svårare att arbeta runt dem, och filtren kan anpassa sig till nästan allt som spammare försöker. Spammarnas meddelanden tar sig bara förbi vältränade Bayesianska filter om tricksarna får deras spam att se ut som ett helt vanligt e-postmeddelande. Men spammare brukar inte skicka sådana vanliga meddelanden eftersom de inte fungerar bra för att tjäna sina syften (dvs. övertyga dig om att köpa något eller klicka på en länk). Så bra som ett Bayesian-filter kan vara, ett ord eller en egenskap som ofta förekommer i bra e-post kan vara så betydelsefull att det förhindrar att ett meddelande som innehåller det klassificeras som skräppost. Därför, om spammare kunde hitta ett sätt att avgöra dina säkra bra e-postord, kan de inkludera ett av dem i ett skräppost och nå dig även genom ett välutbildat Bayesian-filter. Men enligt forskare som har provat den här metoden är den tidskrävande och tillräckligt komplex för att den inte kommer att användas särskilt ofta.