Photo by Joshua Woroniecki on Unsplash
Дослідники Cloudflare стверджують, що Perplexity скрапить веб-сайти, незважаючи на блокування AI ботів.
Дослідники з провайдера інтернет-інфраструктури Cloudflare стверджують, що система штучного інтелекту Perplexity використовує контент з веб-сайтів без дозволу, навіть коли видавці впроваджують блокування для AI ботів.
У поспіху? Ось основні факти:
- Cloudflare заявляє, що Perplexity здійснює скрапінг контенту з веб-сайтів без дозволу.
- Дослідники підтвердили “стелс-кроулінг” Perplexity, навіть коли видавці встановлюють блокування AI ботів.
- Представник Perplexity назвав звіт Cloudflare “рекламним трюком”.
Згідно з звітом, опублікованим Cloudflare у понеділок, Perplexity переглядає сайти, використовуючи свого типового користувача, та змінює свою ідентичність, щоб обійти ці блокування. Експерти Cloudflare підтвердили цю поведінку “стелс-сканування”.
“Ми бачимо постійні докази того, що Perplexity постійно модифікує свій агент користувача та змінює свої джерельні ASN, щоб приховати свою активність сканування, а також ігнорує – або навіть іноді не завантажує – файли robots.txt,” – написали дослідники.
Від сканерів очікують прозорості, чіткого встановлення своєї мети та поваги до налаштувань веб-сайтів, але, за словами дослідників, Perplexity не дотримується цих принципів довіри. Такий висновок було зроблено після розслідування, яке було ініційовано відгуками клієнтів.
“Ми отримали скарги від клієнтів, які заборонили активність перегляду Perplexity у своїх файлах robots.txt та створили правила WAF, щоб спеціально блокувати обидва оголошені переглядачі Perplexity: PerplexityBot та Perplexity-User,” – написали дослідники. “Ці клієнти повідомили нам, що Perplexity все ще могла отримати доступ до їх контенту, навіть коли вони бачили, що її боти успішно заблоковані.”
Дослідники Cloudflare заявили, що перевірили ці твердження, відтворивши блокування та проведши кілька тестів для спостереження за поведінкою переглядача. У одному тесті вони створили нові домени, які ще не були проіндексовані, та включили файли robots.txt, щоб блокувати “поважних ботів”. Пізніше вони звернулися до Perplexity за конкретною інформацією про обмежені домени та виявили, що двигун відповідей на базі AI все ще надавав деталі та точну інформацію про веб-сайт.
“Ця відповідь була неочікуваною, оскільки ми вжили всіх необхідних заходів, щоб запобігти можливості вилучення цих даних їхніми пошуковими роботами,” – додали дослідники.
Представник Perplexity, Джессі Двайер, назвав це дослідження “публічною виставою” у заяві для The Verge. Двайер також додав, що в звіті Cloudflare є “непорозуміння”.
Cloudflare розробляє кілька інструментів, щоб допомогти видавцям запобігти несанкціонованому AI індексуванню. У березні, Cloudflare випустив “AI Labyrinth”, інструмент, який перенаправляє несанкціоновані роботи в лабіринти, генеровані AI. Минулого місяця він запустив “Pay Per Crawl”, систему для обрахування плати від AI ботів за доступ до контенту видавців.