W styczniu 2004 roku Bill Gates ogłosił, iż w ciągu dwóch następnych lat spam przejdzie do historii. Cóż, nie po raz pierwszy, bardzo się w swoich stwierdzeniach pomylił. Dziś spam ma się lepiej, niż kiedykolwiek w przeszłości.

Na przestrzeni ostatniego roku ilość spamu rozsyłanego codziennie w Internecie drastycznie wzrosła, szacuje się, że obecnie 9 na 10 maili przesyłanych przez Internet, to niepożądane wiadomości. Prócz tradycyjnego spamu komercyjnego o charakterze reklamowym, coraz więcej pojawia się wiadomości mających na celu wyłudzenie od użytkowników poufnych informacji, na przykład danych kont bankowych (phishing), zainfekowanie komputerów wirusami, lub też przejęcie kontroli nad systemem za pomocą koni trojańskich.

Obecnie trwa zacięty wyścig między spamerami, a twórcami oprogramowania blokującego spam. Skuteczne jeszcze kilka miesięcy temu metody filtrowania spamu, jak analiza statystyczna tekstu wiadomości, stają się powoli bezużyteczne. Spamerzy nauczyli się wysyłać maile, zawierające zupełnie niewinny tekst (wszak często pozbawiony zupełnie sensu), do których to dołączony jest plik graficzny, zawierający reklamę. Wkrótce pojawiły się nowe filtry antyspamowe, które wykorzystywały technologię OCR (optycznego rozpoznawania znaków, wykorzystywaną przy skanowaniu dokumentów) do przetwarzania treści przekazów ukrytych w załączonych plikach graficznych. Spamerzy nie dali jednak za wygraną. Dość szybko pojawiły się wiadomości zawierające obrazki z elementami graficznymi, które mają zmylić algorytmy OCR – podobne do tych, które można oglądać w graficznych kodach weryfikacyjnych na forach lub innych formularzach, zwanych popularnie captcha. Do tej pory najnowsze filtry antyspamowe dość dobrze radziły sobie także z takimi wiadomościami. Jednakże w ostatnim czasie pojawiło się nowe wyzwanie – pojawiają się wiadomości, które składają się z szeregu małych obrazków, każdy zawierający pojedynczą literę. Dla obecnych algorytmów filtrujących jest to wyzwanie nie do pokonania, bowiem korzystając z możliwości HTML oraz CSS, każdy z tych obrazków może być ostatecznie umiejscowiony praktycznie w dowolnym miejscu dokumentu. Bez przerenderowania całej struktury dokumentu HTML, nie jest możliwe stwierdzenie, jaką kombinację przybiorą ostatecznie litery. Co więcej, obecnie nawet analiza OCR nie wszędzie jest stosowana z uwagi na duże obciążenie serwerów pocztowych. Dlatego też wprowadzenie znacznie bardziej wymagającej, pod względem obliczeniowym jak i zasobów, pełnej analizy OCR i HTML, nie wydaje mi się realne. Podejrzewam, że w najbliższym czasie mechanizmy filtrów antyspamowych połączą metody statystyczne z rozpoznawaniem OCR. Przykładowo, można by filtrować wiadomości z załączoną dużą ilością plików graficznych, które to zawierały by litery lub inne rozpoznawalne znaki.

W tym wszystkim, jedna kwestia wydaje się dość zabawna. Spamerzy starają się utrudnić działanie filtrów antyspamowych modyfikując w coraz to bardziej wymyślny sposób obrazki wysyłane w mailach, a jednocześnie stoją dokładnie przed tym samym problemem, co druga strona, próbując za pomocą algorytmów OCR rozwiązywać kody captcha, coraz to skuteczniej zabezpieczające przed wysyłaniem spamu na forach lub witrynach. Do czego to wszystko prowadzi… ;)