Webscraper превратил веб-скрейпинг в детскую игру — и убил целую индустрию

Сегодня • arXiv cs.AI
Веб-скрейпинг всегда был искусством для избранных: CSS-селекторы, XPath, обход защит. Но новый инструмент Webscraper на базе мультимодальных LLM превращает месяцы работы в одну строчку кода. Проблема в том, что это может стереть с лица земли целую профессию.

Традиционно веб-скрейпинг требовал глубокого понимания HTML-структуры, способности писать сложные селекторы и постоянно адаптироваться к изменениям сайтов. Компании тратили месяцы на разработку парсеров, нанимали специализированных разработчиков, создавали целые отделы data engineering. Индустрия веб-скрейпинга оценивается в $3.8 млрд и растёт на 15% в год.

Webscraper переворачивает эту логику: вместо изучения DOM-структуры он просто 'смотрит' на страницу глазами мультимодальной LLM и понимает контент как человек. Нужны цены с e-commerce сайта? Просто скажи 'извлеки все цены товаров'. Система сама найдёт данные, даже если они спрятаны в JavaScript или загружаются динамически. Точность достигает 94% против 67% у традиционных методов.

Но реальный переворот не в технологии, а в барьерах входа. То, что раньше требовало команду разработчиков, теперь может сделать маркетолог без технического бэкграунда. Стартапы, специализирующиеся на веб-скрейпинге, уже фиксируют отток клиентов: зачем платить $50k в год за сервис, если можно настроить Webscraper за полчаса?