Zurück Weiter

Bewerten des Inhaltes nach statistischen Methoden

Paul Graham: A Plan for Spam
  • Anlernphase: Sortieren von Ham und Spam: Listen mit "guten" und "schlechten" Wörtern
  • dann selbständige Bewertung
  • Bayesische Filter: Kombination von Wörtern ... Spam-Wahrscheinlichkeit
  • Wenn Spam nicht erkannt wird, manuell als Spam markieren -> Filter lernt mit
Spamfilter CRM114 Bogofilter, SpamBayes, CRM114:
  • sehr gut bei "einheitlichem" Mailverkehr
  • problematischer bei mehrsprachigen Mailverkehr
-> Mozilla ab 1.3
-> auch SpamAssassin ab 2.50



Zurück
5. Chemnitzer Linux-Tag, 1./2. März 2003
Frank Richter, URZ, TU Chemnitz
Weiter