Geplaatst op 18 mei 2025 door marja
We hebben altijd bots gehad die onze website bezochten. Het waren meestal vriendelijke bots, zoals de ‘crawlers’ (kruipers) die de databases van zoekmachines up-to-date houden. Die vriendelijke bots lezen eerst onze robots.txt-bestanden voordat ze iets doen, en ze respecteren de zoekbeperkingen die in die bestanden zijn ingesteld.
De situatie is evenwel veranderd. Net als andere websites, bijvoorbeeld Wikipedia, worden we steeds vaker bezocht door AI-schrapers, bots die het internet afstruinen op zoek naar alles wat ze kunnen vinden om AI-toepassingen te trainen. Ze zijn meestal extreem hongerig naar informatie, dus downloaden ze veel; veel meer dan een gewone gebruiker zou doen. Bovendien zijn veel van hen onbeleefd: ze respecteren de regels in onze robots.txt-bestanden niet, en ze verbergen wie ze werkelijk zijn. Ze pauzeren ook niet tussen hun zoekacties – integendeel, ze bombarderen onze servers met zoekopdrachten vanaf heel veel verschillende IP-adressen tegelijk. Het gevolg is dat delen van mageia.org, zoals onze Bugzilla, Wiki en Forums, onbereikbaar worden.
Hieronder ziet u de processor-belasting van een van onze belangrijke servers, waar zich onder andere onze forums en wiki bevinden:

Zelfs als de upgrade van onze hardware al zou zijn voltooid, zal deze belasting moeilijk te verhelpen zijn. Het blokkeren van de gebruikte IP-adressen is zinloos, omdat de schrapers constant overschakelen naar nieuwe IP-adressen. Een van onze systeembeheerders vertelde me zojuist over een groot probleem: “mobiele proxy’s”, waarbij bots hun zoekopdrachten doorgeven via de telefoons van nietsvermoedende gebruikers. Hierdoor lijken die verzoeken legitiem en zijn ze moeilijker te blokkeren zonder ook echte gebruikers te blokkeren. Veel van dit soort zoekpraktijken vinden plaats zonder dat gebruikers zelfs maar weten dat hun telefoon op deze manier wordt misbruikt. Sommige programma’s bevatten stiekeme proxy’s binnen een game of een andere app, en ze verbergen dit in de kleine lettertjes van hun gebruiksvoorwaarden. Vorig jaar werd gemeld dat Google een aantal van dergelijke apps uit zijn PlayStore had verwijderd.
Niet alleen telefoons zijn terecht gekomen in zulke botnets, maar ook IoT-apparaten en gewone computers, omdat ze niet goed beveiligd zijn. Ze kunnen worden misbruikt door AI-schrapers, en dit gebeurt nu waarschijnlijk ook.
Onze systeembeheerders slagen er keer op keer in het probleem op te lossen, maar het is een kat-en-muisspel, dus het probleem zal zich waarschijnlijk opnieuw voordoen.
Als u mensen kent die meewerken aan het trainen van AI-toepassingen, vraag hen dan alstublieft ervoor te zorgen dat hun bots de robots.txt-bestanden die ze tegenkomen lezen èn respecteren. En geef uw vrienden en familie, indien nodig, een seintje dat ze hun computers en andere slimme apparaten voorzien van alle beveiligingsupdates zodra die beschikbaar zijn.