CyberYozh Open Scraper: Офіційний гайд

CyberYozh має власний безкоштовний інструмент для скрапінгу з відкритим вихідним кодом: Open Scraper. Він доступний на GitHub, встановлюється за допомогою Docker приблизно за 20 хвилин, розгортається на localhost і доступний через будь-який веб-браузер. Потрібні лише мінімальні знання програмування, оскільки Open Scraper включає попередньо визначені скрипти коду для скрапінгу, краулінгу та керування сесіями, і вам потрібно лише визначити проксі та цільовий сайт.

💡

Не гайте часу та перевірте Open Scraper на GitHub прямо зараз.

Підготовка Open Scraper: Вибір проксі

Перш ніж розпочати скрапінг, важливо вибрати правильний тип проксі.

⭐

Зареєструйтеся в CyberYozh зараз, якщо ви ще цього не зробили. Після цього давайте виберемо найкращий проксі для вашого завдання.

Резидентські проксі: Скрапінг цін, навчання ШІ та більшість завдань

Ротаційні резидентські проксі є найпоширенішим варіантом для масштабного скрапінгу та автоматизації. Вони використовують величезні пули IP-адрес реальних домашніх адрес по всьому світу, завдяки чому кожен запит виглядає так, ніби він надходить від різних органічних користувачів. Це робить їх ідеальними для:

Моніторингу цін в електронній комерції
Збору наборів даних для ШІ/машинного навчання
Аналізу конкурентів та бренд-інтелекту
Верифікації реклами та маркетингових досліджень

🏠

Статичні резидентські проксі зазвичай не використовуються для скрапінгу. Вони надають одну ізольовану довгострокову IP-адресу для операцій, таких як керування одним профілем. У деяких випадках можна використовувати кілька статичних IP-адрес, при цьому кожна сесія призначається одній IP-адресі.

Мобільні проксі: Високоточний скрапінг соціальних мереж

Мобільні проксі мають найвищий рівень довіри та оптимізовані для мобільних додатків, що робить їх основним варіантом для таких додатків, як Instagram і TikTok. Вони направляють трафік через реальні мережі операторів LTE/5G, що робить їх невідрізнимими від користувачів смартфонів. Використовуйте їх для:

Скрапінгу даних соціальних мереж
Аналітики інфлюенсерів та аудиторії
Платформ на основі додатків

📚

Перегляньте порівняння мобільних і резидентських проксі для повного розбору.

Проксі датацентру: Скрапінг відкритих даних та тестування

Проксі датацентру дуже швидкі, але асоціюються з нерезидентським, ботоподібним трафіком, тому вони блокуються багатьма захищеними платформами. Використовуйте їх для:

Скрапінгу відкритих баз даних
Тестування та розробки

📚

Прочитайте, чим саме проксі датацентру відрізняються від резидентських і коли використовувати кожен з них.

Завантажте та встановіть Open Scraper за допомогою Docker

Як зазначалося, Open Scraper можна встановити менш ніж за 20 хвилин. Для цього потрібен Docker, і доступ здійснюється через localhost у вашому браузері, що спочатку може здатися незвичним, але насправді це дуже просто.

⭐

CyberYozh має IP Checker: інструмент, який забезпечує якість IP перед розгортанням. Хоча ніхто не може гарантувати 100% успіху, ми можемо максимізувати його, усуваючи навмисно низькоякісні IP.

Використовуйте IP Checker і дізнайтеся, як його автоматизувати, у нашій документації API.

Встановіть Docker

Перейдіть на вебсайт Docker і завантажте Docker Desktop для вашої ОС (Windows, macOS або Linux).

Запустіть інсталятор і дотримуйтесь інструкцій на екрані. Docker Desktop безкоштовний для особистого використання. Після встановлення запустіть Docker Desktop і переконайтеся, що він працює, перш ніж продовжувати.

Завантажте Open Scraper з GitHub

Перейдіть до репозиторію Open Scraper на GitHub. Натисніть зелену кнопку Code і виберіть Download ZIP.

Альтернативно, клонуйте через Git:

bash

git clone https://github.com/CyberYozh-data/yozh-scraper

cd yozh-scraper

Перейдіть у папку перед тим, як переходити до етапу збірки.

Читайте більше про проксі GitHub

Зберіть Open Scraper за допомогою Docker

Створіть файл середовища та додайте свій API-ключ CyberYozh:

bash

cp .env.example .env    # create the environment file

# Open .env and set: CYBERYOZH_API_KEY="your_key_here"

Потім зберіть і запустіть усі сервіси однією командою:

bash

docker compose up --build

Docker завантажить усі залежності та автоматично запустить контейнери Open Scraper і Open Crawler. Відкрийте Docker, щоб побачити, що він працює:

Отримайте доступ до Open Scraper через будь-який браузер

Обидва інструменти тепер працюють на localhost (127.0.0.1) через конкретні порти. Перевірте, що вони активні, використовуючи curl:

bash

curl http://localhost:8000/api/v1/health

# {"status":"ok","workers":2}


curl http://localhost:8001/api/v1/health

# {"status":"ok","workers":2,"scraper_reachable":true,...}

Отримайте доступ до інтерактивної документації API:

Open Scraper: http://localhost:8000/docs#/
Open Crawler: http://localhost:8001/docs#/

Обидві сторінки документації містять готові до запуску скрипти з попередньо визначеними параметрами. Вам не потрібно писати додатковий код — просто заповніть цільові значення. Це можна легко зробити за допомогою команди curl , як показано в наступному розділі.

⚙️

Для просунутого скрапінгу ознайомтеся з гайдом з налаштування Playwright та конфігурацією проксі для Python.

Використання Open Scraper та Open Crawler

Після налаштування у вас є два API-інтерфейси, доступні через браузер. Усі операції можна запускати або через GUI (натисніть Try it out на будь-якій кінцевій точці), або надсилаючи команди curl безпосередньо з терміналу. Нижче наведено всі основні операції.

🔁

Ознайомтеся з найкращими стратегіями ротації IP для конкретних випадків використання, щоб налаштувати проксі найоптимальнішим способом.

1. Додайте проксі до Open Scraper через API-ключ

Відкрийте файл .env у кореневій директорії проєкту та встановіть свій API-ключ CyberYozh:

plaintext

CYBERYOZH_API_KEY="your_key_here"

Потім у API-скриптах (або через команди curl , як ви побачите далі) вкажіть параметр proxy_type , щоб активувати проксі. Значення за замовчуванням — none (пряме з'єднання):

proxy_type	Що це
res_rotating	Резидентські ротаційні — рекомендовано за замовчуванням
res_static	Резидентські статичні (виділена IP-адреса)
mobile	Мобільні / LTE, виділені
mobile_shared	Мобільні / LTE, спільний пул
dc_static	Статичні проксі датацентру
none	Пряме з'єднання, без проксі

Для геотаргетингудодайте словник proxy_geo до будь-якого скрипта з наступними полями:

Поле	Тип	Опис
country_code	string	ISO 3166-1 alpha-2 (наприклад, «US», «GB»)
region	string	Назва регіону/штату
city	string	Назва міста (наприклад, «London»)

Детальніше про геотаргетинг та його особливості у статті CyberYozh.

Усі команди для краулінгу та скрейпінгу можна надсилати через curl з вашого терміналу або виконувати інтерактивно через сторінки документації localhost. Розглянемо детальніше.

2. Запуск операцій краулінгу на цільовому сайті

Використовуйте Create Crawl POST-команда з Open Crawler для запуску повного сканування сайту.

Вкажіть початкову URL-адресу, обмеження області, швидкість запитів та тип проксі:

bash

# Submit a crawl
curl -X POST http://localhost:8001/api/v1/crawl \
  -H "Content-Type: application/json" \
  -d '{
    "seed_url": "https://example.com",
    "scope": {
        "mode": "same-domain", 
        "max_depth": 2, 
        "max_pages": 50, 
        "per_domain_rps": 1.0, 
        "per_domain_concurrency": 1
    },
    "scrape_options": {
        "proxy_type": "res_rotating"
    },
    "crawl_proxy": null,
    "enable_scraping": false

  }'

# {"job_id":"crawl_abc123"}

Ключові параметри для налаштування:

seed_url для початкової URL-адреси цільового сайту
max_pages / max_depth для обмеження області, щоб контролювати охоплення та вартість
per_domain_rps для кількості запитів на секунду; тримайте на рівні 1.0, щоб уникнути спрацювання обмежень швидкості
proxy_type слід встановити на res_rotating для більшості випадків використання

Після запуску ви отримуєте job_id (у цьому прикладі, crawl_abc123). Використовуйте його для моніторингу та керування скануванням:

bash

# Poll crawl status
curl http://localhost:8001/api/v1/crawl/crawl_abc123

# Retrieve full results (all visited pages + stats)
curl http://localhost:8001/api/v1/crawl/crawl_abc123/results

# Live event stream (SSE)
curl -N http://localhost:8001/api/v1/crawl/crawl_abc123/events

# Cancel softly (drains in-flight requests)
curl -X DELETE "http://localhost:8001/api/v1/crawl/crawl_abc123?hard=false"

# Cancel hard (aborts all in-flight tasks immediately)
curl -X DELETE "http://localhost:8001/api/v1/crawl/crawl_abc123?hard=true"

Читайте більше про інструменти веб-парсингу у блозі CyberYozh.

3. Скрейпте та парсьте дані з цільового сайту

Для скрейпінгу однієї сторінки використовуйте команду Scrape Page з Open Scraper

З bпроцес простий:

bash

curl -s -X POST http://localhost:8000/api/v1/scrape/page \

  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com",
    "proxy_type": "res_rotating"
  }'

Для скрейпінгу кількох сторінок в одному завданні використовуйте Scrape Pages:

bash

curl -s -X POST http://localhost:8000/api/v1/scrape/pages \
  -H "Content-Type: application/json" \
  -d '{
    "pages": [
      {"url":"https://example.com","proxy_type":"res_rotating"},
      {"url":"https://example.org","proxy_type":"res_rotating"}
    ]
  }'

Подібно до сканування, обидві команди повертають job_id. Використовуйте його для перевірки статусу та отримання результатів:

bash

# Check scrape status
curl -s http://localhost:8000/api/v1/scrape/<your_job_id>


# Fetch scrape results
curl -s http://localhost:8000/api/v1/scrape/<your_job_id>/results

Для розширених налаштувань повторних спроб та обробки помилок у скрейперах на основі Python дивіться оптимізацію повторних спроб Python requests.

4. Використовуйте пресети для оптимізованого скрейпінгу

Open Scraper включає попередньо налаштовані пресети для популярних джерел даних. Замість ручного налаштування селекторів виберіть назву джерела та передайте необхідний параметр:

назва	джерело	параметри	локалі
amazon_product	amazon	asin	us, uk, de, fr, jp
amazon_search	amazon	query	us, uk, de
google_search	google	query	us, uk, de, fr, ru, jp
google_shopping	google	query	us, uk, de
ebay_search	ebay	query	us, uk, de
walmart_product	walmart	product_id	us
youtube_video	youtube	video_id	global
linkedin_profile	linkedin	username	global (потрібна авторизована сесія)

Щоб виконати скрейпінг за допомогою пресету, використовуйте Scrape Preset Page або Скрейпити попередньо налаштовані сторінки команда:

bash

curl -X POST http://localhost:8000/api/v1/scrape/preset/page \

  -H 'Content-Type: application/json' \
  -d '{
    "source": "amazon_product",
    "preset_params": {"asin": "B08N5WRWNW"},
    "locale": "us",
    "llm": {"model": "openai/gpt-5.4-mini"}
  }'

# -> {"job_id": "..."}  then GET /api/v1/scrape/<job_id>/results

Необов'язковий параметр llm вмикає AI-модель для самокорекції під час парсингу. Щоб використовувати його, потрібно додати відповідний API-ключ LLM-провайдера (наприклад, OPENAI_API_KEY) до вашого файлу .env разом із вашим CYBERYOZH_API_KEY.

🤖

Парсинг із підтримкою LLM може бути корисним для непослідовних або динамічних структур сторінок, де самих CSS-селекторів може бути недостатньо для отримання контенту.

5. Запустити «липкі» сесії

«Липкі» сесії дозволяють Open Scraper підтримувати послідовний стан браузера, включаючи cookies, автентифікацію та IP-адресу, протягом кількох запитів. Використовуйте їх для скрейпінгу за стінами логіну.

Створити сесію:

bash

curl -X POST http://localhost:8000/api/v1/sessions \

  -H 'content-type: application/json' \
  -d '{"device":"desktop","proxy_type":"res_rotating","ttl_seconds":3600}'

Автентифікувати сесію за допомогою скрипту входу:

bash

curl -X POST http://localhost:8000/api/v1/sessions/$ID/login \

  -H 'content-type: application/json' \
  -d '{
    "creds":{"email":"tomsmith","password":"SuperSecretPassword!"},
    "script":{
      "steps":[
        # Your target website
        {"op":"goto","url":"https://the-internet.herokuapp.com/login"}, 
        {"op":"fill","selector":"#username","value":"$creds_email"},
        {"op":"fill","selector":"#password","value":"$creds_password"},
        {"op":"click","selector":"button[type=submit]"},
        {"op":"wait_for_selector","selector":".flash.success"}
      ],
      "success_selector":".flash.success"
    }
  }'

Альтернативно, впровадити cookies сесії безпосередньо:

bash

curl -X POST http://localhost:8000/api/v1/sessions/$ID/cookies \

  -H 'content-type: application/json' \
  -d '{"cookies":[{"name":"sessionid","value":"abc","domain":".example.com","path":"/","expires":1800000000,"httpOnly":true,"secure":true,"sameSite":"Lax"}]}'

Після автентифікації сесії передайте session_id у будь-якій наступній команді Scrape Page або Scrape Pages , щоб продовжити під тим самим автентифікованим станом.

🍪

Sticky Session — це постійний контекст браузера, який зберігає cookies, токени автентифікації та призначення проксі протягом кількох запитів. Критично важливо для скрейпінгу платформ, які вимагають входу або підтримують анти-бот стан між переглядами сторінок.

Висновок: веб-скрейпінг та автоматизація безкоштовно

Open Scraper та Open Crawler — це готові до продакшену, безкоштовні інструменти з відкритим кодом для скрейпінгу, краулінгу та структурованого витягування даних. Встановіть їх за допомогою Docker за 20 хвилин, підключіть ваш проксі CyberYozh двома рядками конфігурації .env і виконуйте всі операції через curl без необхідності програмування.

FAQ про Open Scraper від CyberYozh

Який найкращий безкоштовний інструмент для веб-скрейпінгу сьогодні?

CyberYozh Open Scraper — це топовий безкоштовний варіант з відкритим кодом: він не вимагає підписки, працює локально через Docker і інтегрує ротацію проксі «з коробки».

Чи справді CyberYozh Open Scraper безкоштовний?

Так, сам інструмент повністю безкоштовний і з відкритим кодом. Ви платите лише за проксі, якщо вони вам потрібні для захисту від банів або геотаргетингу.

Які найкращі інструменти для веб-скрейпінгу з відкритим кодом?

Популярні варіанти включають Scrapy, Playwright, Puppeteer та CyberYozh Open Scraper, який унікально поєднує готовий API-інтерфейс із власною проксі-інфраструктурою.

Чи потрібен мені проксі для веб-скрапінгу?

Не завжди, але для масштабного чи комерційного скрапінгу сервіс проксі для веб-скрапінгу є необхідним, щоб уникнути блокування IP-адрес і обійти обмеження швидкості запитів.

Що таке сервіс проксі для веб-скрапінгу?

Сервіс проксі для веб-скрапінгу направляє запити вашого скрапера через пул реальних IP-адрес, завдяки чому кожен запит виглядає так, ніби він надходить від іншого легітимного користувача.

Яка різниця між ротаційними та статичними проксі для скрапінгу?

Ротаційні проксі призначають нову IP-адресу для кожного запиту, забезпечуючи анонімність у масштабі. Статичні проксі зберігають одну фіксовану IP-адресу, що підходить для завдань на основі сесій або специфічних для акаунта.

Чи можу я використовувати безкоштовний API для веб-скрапінгу без досвіду програмування?

Так. Документація localhost Open Scraper надає готові API-скрипти: просто вкажіть URL і тип проксі та натисніть «запустити». Власний код не потрібен.

Який тип проксі мені слід використовувати для скрапінгу соціальних мереж?

Мобільні проксі мають найвищий рівень довіри і найкраще підходять для Instagram, TikTok та подібних мобільно-орієнтованих платформ, які агресивно фільтрують немобільний трафік.

Як уникнути блокування під час веб-скрапінгу?

Використовуйте ротаційні резидентські або мобільні проксі, обмежте кількість запитів за секунду (per_domain_rps), увімкніть режим стелс і ротацію заголовків user-agent з кожним запитом.

Чи може Open Scraper обробляти сторінки, відрендерені JavaScript?

Так. Open Scraper побудований на Playwright, який рендерить повні браузерні сесії, включаючи JavaScript, SPA та динамічно завантажуваний контент.

Яка різниця між веб-скрапінгом і веб-кроулінгом?

Кроулінг відображає та індексує URL-адреси на сайті; скрапінг витягує структуровані дані з цих сторінок. Open Scraper включає обидва інструменти: Open Crawler для виявлення, Open Scraper для витягування.

Як налаштувати проксі для веб-скрапінгу в Open Scraper?

Додайте свій API-ключ CyberYozh до файлу .env під CYBERYOZH_API_KEY, потім встановіть proxy_type на res_rotating у будь-якій команді скрапінгу. Це все.