Spam ma się dobrze

W styczniu 2004 roku Bill Gates ogłosił, iż w ciągu dwóch następnych lat spam przejdzie do historii. Cóż, nie po raz pierwszy, bardzo się w swoich stwierdzeniach pomylił. Dziś spam ma się lepiej, niż kiedykolwiek w przeszłości.

Na przestrzeni ostatniego roku ilość spamu rozsyłanego codziennie w Internecie drastycznie wzrosła, szacuje się, że obecnie 9 na 10 maili przesyłanych przez Internet, to niepożądane wiadomości. Prócz tradycyjnego spamu komercyjnego o charakterze reklamowym, coraz więcej pojawia się wiadomości mających na celu wyłudzenie od użytkowników poufnych informacji, na przykład danych kont bankowych (phishing), zainfekowanie komputerów wirusami, lub też przejęcie kontroli nad systemem za pomocą koni trojańskich.

Obecnie trwa zacięty wyścig między spamerami, a twórcami oprogramowania blokującego spam. Skuteczne jeszcze kilka miesięcy temu metody filtrowania spamu, jak analiza statystyczna tekstu wiadomości, stają się powoli bezużyteczne. Spamerzy nauczyli się wysyłać maile, zawierające zupełnie niewinny tekst (wszak często pozbawiony zupełnie sensu), do których to dołączony jest plik graficzny, zawierający reklamę. Wkrótce pojawiły się nowe filtry antyspamowe, które wykorzystywały technologię OCR (optycznego rozpoznawania znaków, wykorzystywaną przy skanowaniu dokumentów) do przetwarzania treści przekazów ukrytych w załączonych plikach graficznych. Spamerzy nie dali jednak za wygraną. Dość szybko pojawiły się wiadomości zawierające obrazki z elementami graficznymi, które mają zmylić algorytmy OCR – podobne do tych, które można oglądać w graficznych kodach weryfikacyjnych na forach lub innych formularzach, zwanych popularnie captcha. Do tej pory najnowsze filtry antyspamowe dość dobrze radziły sobie także z takimi wiadomościami. Jednakże w ostatnim czasie pojawiło się nowe wyzwanie – pojawiają się wiadomości, które składają się z szeregu małych obrazków, każdy zawierający pojedynczą literę. Dla obecnych algorytmów filtrujących jest to wyzwanie nie do pokonania, bowiem korzystając z możliwości HTML oraz CSS, każdy z tych obrazków może być ostatecznie umiejscowiony praktycznie w dowolnym miejscu dokumentu. Bez przerenderowania całej struktury dokumentu HTML, nie jest możliwe stwierdzenie, jaką kombinację przybiorą ostatecznie litery. Co więcej, obecnie nawet analiza OCR nie wszędzie jest stosowana z uwagi na duże obciążenie serwerów pocztowych. Dlatego też wprowadzenie znacznie bardziej wymagającej, pod względem obliczeniowym jak i zasobów, pełnej analizy OCR i HTML, nie wydaje mi się realne. Podejrzewam, że w najbliższym czasie mechanizmy filtrów antyspamowych połączą metody statystyczne z rozpoznawaniem OCR. Przykładowo, można by filtrować wiadomości z załączoną dużą ilością plików graficznych, które to zawierały by litery lub inne rozpoznawalne znaki.

W tym wszystkim, jedna kwestia wydaje się dość zabawna. Spamerzy starają się utrudnić działanie filtrów antyspamowych modyfikując w coraz to bardziej wymyślny sposób obrazki wysyłane w mailach, a jednocześnie stoją dokładnie przed tym samym problemem, co druga strona, próbując za pomocą algorytmów OCR rozwiązywać kody captcha, coraz to skuteczniej zabezpieczające przed wysyłaniem spamu na forach lub witrynach. Do czego to wszystko prowadzi… ;)

6 Comments

Eve Holland
11 December 2006

Ja codziennie z mojej skrzynki na onecie wysyłam im “probke” jakiś 10 spamowych maili, w folderze “spam” mam już chyba ze 300 wiadomości i to tylko z przeciągu tygodnia.
Dlatego tak bardzo lubię tlen… przychodzą mi tylko reklamy typu filmiki ze smogu, albo jakieś nowe ciuchy w sklepach.. Dlaczego na onecie nie może być tak samo?

Pozdrawiam.
Tommy
14 December 2006

gmail nieźle radzi sobie ze spamem
Tommy
14 December 2006

coś nie chce działać :P
ewu
14 December 2006

hmm a ja bardzo lubie 5 reklam dziennie w stylu–“how to make your penis biger” albo “maybe you want to buy some viagra–only 99.99999…. “
kl
12 February 2007

Do spamów w formularzach pojawił się skuteczny filtr – http://spam.geekhood.net. Skoro działa i jest niewidoczny dla użytkownika, to IMHO jest znacznie lepszy od CAPTCHA.
Pingback: reCAPTCHA, czyli wykorzystanie mocy obliczeniowej ludzkiego umysłu - Piotr Jaczewski

6 Comments

Leave a Reply

Witaj na mojej stronie!

Co warto przeczytać?

“Ostatnio” napisałem…

Warto odwiedzić