CyberYozh Open Scraper: Официальный гайд

У CyberYozh есть собственный бесплатный инструмент для скрейпинга с открытым исходным кодом: Open Scraper. Он доступен на GitHub, устанавливается с помощью Docker примерно за 20 минут, разворачивается на localhost и доступен через любой веб-браузер. Требуются лишь минимальные знания программирования, поскольку Open Scraper включает предопределенные скрипты для скрейпинга, краулинга и управления сессиями — вам нужно только указать прокси и целевой сайт.

💡

Не теряйте времени и ознакомьтесь с Open Scraper на GitHub прямо сейчас.

Подготовка Open Scraper: выбор прокси

Перед началом скрейпинга важно выбрать правильный тип прокси.

⭐

Зарегистрируйтесь в CyberYozh прямо сейчас, если ещё этого не сделали. После этого давайте выберем лучший прокси для вашей задачи.

Резидентские прокси: парсинг цен, обучение ИИ и большинство задач

Ротационные резидентские прокси — наиболее распространенный вариант для масштабного скрейпинга и автоматизации. Они используют огромные пулы IP-адресов реальных домашних адресов по всему миру, благодаря чему каждый запрос выглядит так, будто исходит от разных обычных пользователей. Они идеальны для:

Мониторинга цен в электронной коммерции
Сбора датасетов для ИИ/машинного обучения
Анализа конкурентов и бренд-аналитики
Верификации рекламы и маркетинговых исследований

🏠

Статичные резидентские прокси обычно не используются для скрейпинга. Они предоставляют единственный изолированный долгосрочный IP-адрес для операций вроде управления одним профилем. В некоторых случаях можно использовать несколько статичных IP, при этом каждая сессия привязывается к одному IP.

Мобильные прокси: высокоточный скрейпинг социальных сетей

Мобильные прокси имеют наивысший уровень доверия и оптимизированы для мобильных приложений, что делает их основным выбором для таких платформ, как Instagram и TikTok. Они направляют трафик через реальные сети операторов LTE/5G, делая его неотличимым от трафика пользователей смартфонов. Используйте их для:

Скрейпинга данных из социальных сетей
Аналитики инфлюенсеров и аудитории
Платформ на базе приложений

📚

Ознакомьтесь со сравнением мобильных и резидентских прокси для полного обзора.

Прокси датацентра: скрейпинг открытых данных и тестирование

Прокси датацентра очень быстрые, но ассоциируются с нерезидентским, ботоподобным трафиком, поэтому многие защищенные платформы их блокируют. Используйте их для:

Скрейпинга открытых баз данных
Тестирования и разработки

📚

Узнайте, чем именно прокси датацентра отличаются от резидентских и когда использовать каждый из них.

Скачайте и установите Open Scraper с помощью Docker

Как уже упоминалось, Open Scraper можно установить менее чем за 20 минут. Для этого требуется Docker, и доступ осуществляется через localhost с помощью браузера, что поначалу может показаться необычным, но это очень просто.

⭐

У CyberYozh есть IP Checker: инструмент, который проверяет качество IP перед развертыванием. Хотя никто не может гарантировать 100% успеха, мы можем максимизировать его, исключая заведомо низкокачественные IP.

Используйте IP Checker и узнайте, как его автоматизировать, в нашей документации API.

Установите Docker

Перейдите на сайт Docker и скачайте Docker Desktop для вашей ОС (Windows, macOS или Linux).

Запустите установщик и следуйте инструкциям на экране. Docker Desktop бесплатен для личного использования. После установки запустите Docker Desktop и убедитесь, что он работает, прежде чем продолжить.

Скачайте Open Scraper с GitHub

Перейдите в репозиторий Open Scraper на GitHub. Нажмите зеленую кнопку Code и выберите Download ZIP.

Альтернативно, клонируйте через Git:

bash

git clone https://github.com/CyberYozh-data/yozh-scraper

cd yozh-scraper

Перейдите в папку перед тем, как приступить к этапу сборки.

Узнайте больше о прокси для GitHub

Соберите Open Scraper с помощью Docker

Создайте файл окружения и добавьте ваш API-ключ CyberYozh:

bash

cp .env.example .env    # create the environment file

# Open .env and set: CYBERYOZH_API_KEY="your_key_here"

Затем соберите и запустите все сервисы одной командой:

bash

docker compose up --build

Docker загрузит все зависимости и автоматически запустит контейнеры Open Scraper и Open Crawler. Откройте Docker, чтобы убедиться, что они работают:

Получите доступ к Open Scraper через любой браузер

Оба инструмента теперь работают на localhost (127.0.0.1) через определенные порты. Проверьте, что они активны, используя curl:

bash

curl http://localhost:8000/api/v1/health

# {"status":"ok","workers":2}


curl http://localhost:8001/api/v1/health

# {"status":"ok","workers":2,"scraper_reachable":true,...}

Откройте интерактивную документацию API:

Open Scraper: http://localhost:8000/docs#/
Open Crawler: http://localhost:8001/docs#/

Обе страницы документации содержат исполняемые скрипты с предопределёнными параметрами. Вам не нужно писать дополнительный код — просто заполните целевые значения. Это легко сделать с помощью команды curl , как показано в следующем разделе.

⚙️

Для продвинутого скрейпинга изучите гайд по настройке Playwright и конфигурацию прокси для Python.

Использование Open Scraper и Open Crawler

После настройки у вас есть два API-интерфейса, доступных через браузер. Все операции можно запускать либо через GUI (нажмите Try it out на любой конечной точке), либо отправляя команды curl напрямую из терминала. Ниже представлены все основные операции.

🔁

Изучите лучшие стратегии ротации IP для конкретных случаев использования, чтобы настроить прокси оптимальным образом.

1. Добавление прокси в Open Scraper через API-ключ

Откройте файл .env в корневой директории проекта и укажите ваш API-ключ CyberYozh:

plaintext

CYBERYOZH_API_KEY="your_key_here"

Затем в API-скриптах (или через команды curl , как вы увидите далее) укажите параметр proxy_type , чтобы активировать прокси. Значение по умолчанию — none (прямое соединение):

proxy_type	Что это
res_rotating	Резидентские ротационные — рекомендуется по умолчанию
res_static	Резидентские статичные (выделенный IP)
mobile	Мобильные / LTE, выделенные
mobile_shared	Мобильные / LTE, общий пул
dc_static	Статичные прокси датацентра
none	Прямое соединение, без прокси

Для геотаргетингадобавьте словарь proxy_geo в любой скрипт со следующими полями:

Поле	Тип	Описание
country_code	string	ISO 3166-1 alpha-2 (например, «US», «GB»)
region	string	Название региона/штата
city	string	Название города (например, «London»)

Узнайте больше о геотаргетинге и его особенностях в статье CyberYozh.

Все команды для краулинга и скрейпинга могут быть отправлены через curl из вашего терминала или выполнены интерактивно через страницы документации localhost. Давайте рассмотрим подробнее.

2. Запустите операции краулинга на целевом сайте

Используйте Create Crawl POST-команда из Open Crawler для запуска полного сканирования сайта.

Укажите начальный URL, ограничения области, частоту запросов и тип прокси:

bash

# Submit a crawl
curl -X POST http://localhost:8001/api/v1/crawl \
  -H "Content-Type: application/json" \
  -d '{
    "seed_url": "https://example.com",
    "scope": {
        "mode": "same-domain", 
        "max_depth": 2, 
        "max_pages": 50, 
        "per_domain_rps": 1.0, 
        "per_domain_concurrency": 1
    },
    "scrape_options": {
        "proxy_type": "res_rotating"
    },
    "crawl_proxy": null,
    "enable_scraping": false

  }'

# {"job_id":"crawl_abc123"}

Ключевые параметры для настройки:

seed_url для начального URL целевого сайта
max_pages / max_depth для ограничений области, чтобы контролировать охват и стоимость
per_domain_rps для количества запросов в секунду; оставьте значение 1.0, чтобы избежать срабатывания ограничений частоты
proxy_type следует установить на res_rotating для большинства случаев использования

После запуска вы получаете job_id (в этом примере crawl_abc123). Используйте его для мониторинга и управления сканированием:

bash

# Poll crawl status
curl http://localhost:8001/api/v1/crawl/crawl_abc123

# Retrieve full results (all visited pages + stats)
curl http://localhost:8001/api/v1/crawl/crawl_abc123/results

# Live event stream (SSE)
curl -N http://localhost:8001/api/v1/crawl/crawl_abc123/events

# Cancel softly (drains in-flight requests)
curl -X DELETE "http://localhost:8001/api/v1/crawl/crawl_abc123?hard=false"

# Cancel hard (aborts all in-flight tasks immediately)
curl -X DELETE "http://localhost:8001/api/v1/crawl/crawl_abc123?hard=true"

Читайте больше о инструментах веб-парсинга в блоге CyberYozh.

3. Скрейпинг и парсинг данных с целевого сайта

Для скрейпинга одной страницы используйте команду Scrape Page из Open Scraper

С bпроцесс прост:

bash

curl -s -X POST http://localhost:8000/api/v1/scrape/page \

  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com",
    "proxy_type": "res_rotating"
  }'

Для скрейпинга нескольких страниц в одной задаче используйте Scrape Pages:

bash

curl -s -X POST http://localhost:8000/api/v1/scrape/pages \
  -H "Content-Type: application/json" \
  -d '{
    "pages": [
      {"url":"https://example.com","proxy_type":"res_rotating"},
      {"url":"https://example.org","proxy_type":"res_rotating"}
    ]
  }'

Аналогично сканированию, обе команды возвращают job_id. Используйте его для проверки статуса и получения результатов:

bash

# Check scrape status
curl -s http://localhost:8000/api/v1/scrape/<your_job_id>


# Fetch scrape results
curl -s http://localhost:8000/api/v1/scrape/<your_job_id>/results

Для расширенных настроек повторных попыток и обработки ошибок в скрейперах на Python см. оптимизацию повторных попыток Python requests.

4. Используйте пресеты для оптимизированного скрейпинга

Open Scraper включает готовые пресеты для популярных источников данных. Вместо ручной настройки селекторов выберите название источника и передайте необходимый параметр:

название	источник	параметры	локали
amazon_product	amazon	asin	us, uk, de, fr, jp
amazon_search	amazon	query	us, uk, de
google_search	google	query	us, uk, de, fr, ru, jp
google_shopping	google	query	us, uk, de
ebay_search	ebay	query	us, uk, de
walmart_product	walmart	product_id	us
youtube_video	youtube	video_id	global
linkedin_profile	linkedin	username	global (требуется авторизованная сессия)

Для скрапинга с использованием пресета используйте Scrape Preset Page или Парсинг предустановленных страниц команда:

bash

curl -X POST http://localhost:8000/api/v1/scrape/preset/page \

  -H 'Content-Type: application/json' \
  -d '{
    "source": "amazon_product",
    "preset_params": {"asin": "B08N5WRWNW"},
    "locale": "us",
    "llm": {"model": "openai/gpt-5.4-mini"}
  }'

# -> {"job_id": "..."}  then GET /api/v1/scrape/<job_id>/results

Опциональный параметр llm включает AI-модель для самокоррекции в процессе парсинга. Чтобы использовать её, добавьте соответствующий API-ключ LLM-провайдера (например, OPENAI_API_KEY) в ваш файл .env вместе с CYBERYOZH_API_KEY.

🤖

Парсинг с помощью LLM может быть полезен для непоследовательных или динамичных структур страниц, где одних CSS-селекторов может быть недостаточно для извлечения контента.

5. Запуск «липких» сессий

«Липкие» сессии позволяют Open Scraper сохранять постоянное состояние браузера, включая cookies, аутентификацию и IP-адрес, между несколькими запросами. Используйте их для парсинга за стенами авторизации.

Создайте сессию:

bash

curl -X POST http://localhost:8000/api/v1/sessions \

  -H 'content-type: application/json' \
  -d '{"device":"desktop","proxy_type":"res_rotating","ttl_seconds":3600}'

Аутентифицируйте сессию с помощью скрипта входа:

bash

curl -X POST http://localhost:8000/api/v1/sessions/$ID/login \

  -H 'content-type: application/json' \
  -d '{
    "creds":{"email":"tomsmith","password":"SuperSecretPassword!"},
    "script":{
      "steps":[
        # Your target website
        {"op":"goto","url":"https://the-internet.herokuapp.com/login"}, 
        {"op":"fill","selector":"#username","value":"$creds_email"},
        {"op":"fill","selector":"#password","value":"$creds_password"},
        {"op":"click","selector":"button[type=submit]"},
        {"op":"wait_for_selector","selector":".flash.success"}
      ],
      "success_selector":".flash.success"
    }
  }'

Или внедрите cookies сессии напрямую:

bash

curl -X POST http://localhost:8000/api/v1/sessions/$ID/cookies \

  -H 'content-type: application/json' \
  -d '{"cookies":[{"name":"sessionid","value":"abc","domain":".example.com","path":"/","expires":1800000000,"httpOnly":true,"secure":true,"sameSite":"Lax"}]}'

После аутентификации сессии передавайте session_id в любой последующей команде Scrape Page или Scrape Pages , чтобы продолжить работу в том же аутентифицированном состоянии.

🍪

«Липкая» сессия — это постоянный контекст браузера, который сохраняет cookies, токены аутентификации и назначение прокси между несколькими запросами. Критически важна для парсинга платформ, требующих входа в систему или поддерживающих анти-бот состояние между просмотрами страниц.

Заключение: Веб-скрейпинг и автоматизация бесплатно

Open Scraper и Open Crawler — это готовые к продакшену, бесплатные и открытые инструменты для парсинга, краулинга и извлечения структурированных данных. Установите их с помощью Docker за 20 минут, подключите свой прокси CyberYozh двумя строками в конфиге .env и выполняйте все операции через curl без необходимости программирования.

FAQ о CyberYozh Open Scraper

Какой лучший бесплатный инструмент для веб-скрейпинга доступен сегодня?

CyberYozh Open Scraper — это один из лучших бесплатных опенсорсных вариантов: он не требует подписки, работает локально через Docker и интегрирует ротацию прокси из коробки.

CyberYozh Open Scraper действительно бесплатный?

Да, сам инструмент полностью бесплатный и с открытым исходным кодом. Вы платите только за прокси, если они вам нужны для защиты от банов или геотаргетинга.

Какие лучшие опенсорсные инструменты для веб-скрейпинга?

Популярные варианты включают Scrapy, Playwright, Puppeteer и CyberYozh Open Scraper, который уникально сочетает готовый API-интерфейс с нативной прокси-инфраструктурой.

Нужен ли мне прокси для веб-скрейпинга?

Не всегда, но для крупномасштабного или коммерческого скрейпинга сервис прокси для веб-скрейпинга необходим, чтобы избежать блокировок по IP и обойти ограничения запросов.

Что такое сервис прокси для веб-скрейпинга?

Сервис прокси для веб-скрейпинга направляет запросы вашего скрейпера через пул реальных IP-адресов, заставляя каждый запрос выглядеть так, будто он исходит от разных легитимных пользователей.

В чём разница между ротационными и статичными прокси для скрейпинга?

Ротационные прокси назначают новый IP-адрес на каждый запрос для обеспечения анонимности в масштабе. Статичные прокси сохраняют один фиксированный IP, подходящий для задач на основе сессий или привязанных к аккаунту.

Могу ли я использовать бесплатный API для веб-скрейпинга без опыта программирования?

Да. Документация localhost Open Scraper предоставляет готовые API-скрипты: просто укажите URL и тип прокси и нажмите запуск. Никакого кастомного кода не требуется.

Какой тип прокси следует использовать для скрейпинга социальных сетей?

Мобильные прокси обеспечивают наивысший уровень доверия и лучше всего подходят для Instagram, TikTok и подобных мобильно-ориентированных платформ, которые агрессивно фильтруют немобильный трафик.

Как избежать блокировки при веб-скрейпинге?

Используйте ротационные резидентские или мобильные прокси, ограничьте количество запросов в секунду (per_domain_rps), включите режим скрытности и ротируйте заголовки user-agent с каждым запросом.

Может ли Open Scraper обрабатывать страницы с рендерингом JavaScript?

Да. Open Scraper построен на Playwright, который рендерит полные браузерные сессии, включая JavaScript, SPA и динамически загружаемый контент.

В чём разница между веб-скрейпингом и веб-краулингом?

Краулинг картографирует и индексирует URL-адреса по всему сайту; скрейпинг извлекает структурированные данные с этих страниц. Open Scraper включает оба инструмента: Open Crawler для обнаружения, Open Scraper для извлечения.

Как настроить прокси для веб-скрейпинга в Open Scraper?

Добавьте свой API-ключ CyberYozh в файл .env под параметром CYBERYOZH_API_KEY, затем установите proxy_type в значение res_rotating в любой команде скрейпинга. Вот и всё.