ВЕЛИКИЙ КУШ

ВЕЛИКИЙ КУШ ВІД CYBERYOZH APP.

Виграй Apple MacBook, 2000$, iPad та море інших призів!

Брати участь










Як використовувати проксі для збору даних з маркетплейсів (парсинг, аналітика, конкурентна розвідка)

У світі e-commerce дані — це нова нафта. Хто володіє інформацією про ціни, асортимент та стратегії конкурентів, той керує ринком. Маркетплейси, такі як Amazon, Ozon, Wildberries або Alibaba, — це гігантські бази даних, що постійно оновлюються і містять цю цінну інформацію. Отримати її — означає здобути вирішальну конкурентну перевагу.

Єдиний спосіб видобувати ці дані у промислових масштабах — це парсинг (або веб-скрапінг). Але є проблема: маркетплейси чудово про це знають і активно захищаються.

У цій статті ми розберемо, як влаштований захист маркетплейсів і як, використовуючи правильні проксі та технології, побудувати ефективну систему збору даних для аналітики та конкурентної розвідки.

Важлива примітка: При автоматизації збору даних переконайтеся, що ваші дії відповідають законодавству (включаючи GDPR та DMCA) і не порушують Умови використання (ToS) цільових платформ. Використовуйте проксі відповідально: уникайте створення критичного навантаження на сервери та дотримуйтесь етики веб-скрапінгу.


Чому маркетплейси не хочуть, щоб їх парсили?

Збір даних вручну — неефективно і повільно. Автоматизований збір (парсинг) дозволяє отримувати величезні масиви даних за короткий час. Саме тому маркетплейси вибудовують цілі ешелони оборони:

  • Блокування за IP. Найбазовіший та найефективніший метод захисту. Якщо з однієї IP-адреси надходить аномально велика кількість запитів, вона негайно потрапляє у тимчасовий або постійний бан.
  • Rate Limiting (обмеження частоти запитів). Система дозволяє зробити, наприклад, не більше 30 запитів на хвилину з одного IP. Усе, що понад ліміт, — блокується.
  • CAPTCHA. Якщо система помічає ознаки автоматизації, вона підсовує користувачеві капчу, яку стандартний парсер пройти не може.
  • Гео-блокування. Ціни, асортимент та умови доставки на одному і тому ж маркетплейсі можуть кардинально відрізнятися для користувачів із США та Німеччини. Без IP-адреси з потрібного регіону ви просто не побачите релевантних даних.
  • Аналіз Fingerprint (цифрового відбитка). Просунуті системи аналізують сотні параметрів вашого браузера. Приклади того, що саме перевіряють маркетплейси:

    • Canvas та WebGL fingerprinting: сайти змушують браузер непомітно відмалювати приховану фігуру. Те, як саме ваша відеокарта та драйвери рендерять пікселі, створює унікальний ідентифікатор пристрою.

    • Аудіо-відбитки: перевірка того, як ваша система обробляє аудіосигнали.

    • Технічні заголовки: невідповідність версії User-Agent та встановлених шрифтів або роздільної здатності екрана моментально позначає вас як бота.


Проксі — ваш ключ до даних. Але не будь-який.

Проксі-сервер — це технологічний фундамент будь-якого професійного парсера. Він виступає інтелектуальним посередником: приховує вашу реальну адресу і дозволяє симулювати запити від тисяч унікальних користувачів з будь-якої точки світу.

Однак варто розуміти: у сучасних реаліях навіть найякісніші проксі не гарантують 100% захисту від блокувань, якщо вони використовуються окремо від інших інструментів. Маркетплейси аналізують сукупність факторів. Якщо ваш IP — «чиста» резидентська адреса, але цифровий відбиток (Fingerprint) видає у вас бота, система все одно накладе обмеження.

Для досягнення максимального результату проксі необхідно комбінувати з антидетект-технологіями, правильним налаштуванням заголовків (headers) та людиноподібними затримками між запитами.

Чому тип проксі має вирішальне значення?

Для парсингу маркетплейсів підходять далеко не всі види з'єднань. Нижче ми розберемо основні типи та визначимо, для яких завдань кожен із них буде найбільш ефективним.

Типи проксі та їх застосовність:

Резидентські ротаційні проксі  — вибір №1 для масового парсингу

Це динамічні IP-адреси реальних домашніх користувачів.

  • Переваги: Величезні пули (мільйони IP) по всьому світу. Запит з такої адреси для маркетплейса виглядає як візит звичайного покупця через домашній Wi-Fi.

  • Вердикт: Ідеальні для збору великих масивів даних: моніторингу цін, залишків та контенту карток товарів.

  • Гнучке налаштування сесій: Залежно від ваших завдань, ви можете вибрати один із трьох режимів роботи:

    1. Випадковий IP: Автоматична зміна адреси на кожен новий запит.

    2. Коротка сесія: Утримання одного IP на період до 1 хвилини (зручно для швидких ланцюжків дій).

    3. Довга сесія (Sticky): Фіксація IP на тривалий термін — суворо до 6 годин (необхідно для імітації довгого перебування користувача на сайті).

Резидентські статичні проксі (ISP)  — для роботи «в довгу»

Це чисті IP від домашніх провайдерів, які закріплюються за вами на весь термін оренди.

  • Переваги: Поєднують у собі траст резидентської адреси та стабільність серверного каналу. IP не змінюється, що критично важливо для систем захисту.

  • Вердикт: Незамінні для ведення акаунтів продавців, управління рекламними кабінетами та роботи з особистими кабінетами, де будь-яка зміна або ротація IP може призвести до миттєвого блокування профілю.

Мобільні приватні проксі  — ультимативне рішення

Використовують IP-адреси стільникових операторів (4G/5G).

  • Переваги: Найвищий рівень довіри. Завдяки технології CGNAT один IP ділять тисячі реальних людей, тому маркетплейси практично ніколи не блокують такі адреси.

  • Виділені порти: Для надскладних кейсів (реєстрація акаунтів, обхід захисту рівня Amazon/Akamai) ми рекомендуємо мобільні виділені порти. Вони дають індивідуальний канал, максимальну швидкість та стабільність без «сусідів».

Серверні проксі (Datacenter)
    • Переваги: Висока швидкість та низька ціна.

    • Вердикт: Підходять тільки для невеликих, слабкозахищених сайтів або роботи через офіційні API. Великі маркетплейси бачать у них «ботів» і блокують цілими підмережами.


Специфіка роботи з Мобільними проксі в інтерфейсі

Управління  мобільними проксі  має свої унікальні особливості в особистому кабінеті. На відміну від інших типів, у картці цього продукту передбачено спеціальне API-посилання для ротації (зміни IP). Вам необхідно знайти його в інтерфейсі, оскільки саме ця адреса використовується для автоматичного оновлення IP всередині вашого програмного коду або скрипта.

Розташування посилання для автоматичної ротації в картці Мобільних проксі

Рис. 1. Розташування посилання для автоматичної ротації в картці Мобільних проксі.

Крім програмної автоматизації, у CyberYozh App реалізована можливість ручного управління. Якщо вам потрібно оновити IP-адресу миттєво, не чекаючи спрацьовування скрипта, ви можете зробити це одним кліком прямо в панелі управління.

Кнопка для примусової ручної зміни IP-адреси в особистому кабінеті

Рис. 2. Кнопка для примусової ручної зміни IP-адреси в особистому кабінеті.


Технічні тонкощі: Сесії, ротація та інфраструктура

Вибір типу проксі — це тільки початок. Для професійного парсингу важливі й інші параметри.

  • Інфраструктура парсингу. Пам'ятайте, що проксі — це лише частина системи. Ефективний парсинг потребує:
  • Надійного парсера: Скрипт або програма (наприклад, на Python з використанням бібліотек Scrapy, BeautifulSoup, Selenium), здатна обробляти HTML-код.
  • Ротації User-Agent та Headers: Ваш парсер повинен прикидатися різними браузерами та пристроями, постійно змінюючи не тільки IP, а й технічні заголовки.
  • Обробки помилок: Механізм, який буде коректно обробляти тимчасові блокування, капчі та помилки, повторюючи невдалі запити через інший проксі.

Управління  резидентськими ротаційними проксі  реалізовано максимально гнучко. Ви можете або налаштовувати параметри вручну через префікси в логіні, або скористатися вбудованим генератором в особистому кабінеті.

Управління через особистий кабінет (Рекомендований спосіб)

Для отримання готових налаштувань достатньо зайти в розділ «Мої проксі» і в картці купленого пакета натиснути кнопку «Згенерувати облікові дані».

У меню, що відкрилося, ви можете візуально вибрати:

  • Геолокацію: країну, регіон/штат та конкретне місто (для довгих сесій тільки країну).

  • Тип сесії: випадковий IP, коротка сесія (ID сесії - до 1 хвилини) або довга сесія (ID довгої сесії - до 6 годин).

  • Протокол: HTTP або SOCKS5.

  • Формат виводу: У нашому генераторі доступні 3 формати виводу для зручного копіювання в будь-який софт:

    • IP:PORT (IP:PORT:USER:PASS)

    • USER:PASS (USER:PASS@IP:PORT)

    • PROTOCOL (http://USER:PASS@IP:PORT)

Генератор автоматично сформує правильний рядок підключення з усіма необхідними префіксами.

Перехід до інтерфейсу створення конфігурацій та параметрів підключення (генератор кредів)

Рис. 3. Перехід до інтерфейсу створення конфігурацій та параметрів підключення (генератор кредів).

 

Використання генератора для налаштування параметра sid, що відповідає за створення нових унікальних сесій

Рис. 4. Використання генератора для налаштування параметра sid, що відповідає за створення нових унікальних сесій.

 

Налаштування параметрів для формування облікових даних з використанням довгих (Sticky) сесій

Рис. 5. Налаштування параметрів для формування облікових даних з використанням довгих (Sticky) сесій.

 

Результат роботи генератора облікових даних (кредів)

Рис. 6. Результат роботи генератора облікових даних (кредів).

Види сесій та ручне управління префіксами

Якщо ви налаштовуєте логіку зміни IP безпосередньо в коді свого скрипта, використовуйте систему префіксів:

Тип сесіїПрефікс у логініГео-таргетингТермін життя IP
Випадковий IP-res-anyКраїнаНовий IP на кожен запит
Коротка сесія-res-any-sid-XXXXXXXXМісто, Регіон, КраїнаДо 1 хвилини
Довга (Sticky)-resfix-XX-nnid-TOKENКраїна (XX — код країни)До 6 годин

Важливі нюанси ручного налаштування:

  • Короткі сесії: У префіксі -sid-47551677 можна використовувати будь-яке рандомне число такої ж довжини для миттєвого створення нової сесії.

  • Гео-префікс у коротких сесіях: Наприклад, -res_sc-us_georgia_macon-sid-12345 спрямує ваш трафік через місто Мейкон, штат Джорджія.

  • Довгі сесії (Sticky): Для роботи вручну потрібно отримати токен X-NN-LLS через пробний curl-запит і підставити його в логін замість 0 після -nnid-. Через генератор в ОК цей токен підставляється автоматично.


Перевірка проксі через термінал (curl)

Найшвидший спосіб переконатися, що все налаштовано вірно — виконати запит у консолі. Це дозволяє побачити технічні заголовки сервера та перевірити коректність роботи префіксів.

1. Перевірка випадкового резидентського IP

Використовуйте цей формат, якщо вам потрібна висока ротація (зміна IP на кожен запит):

 

curl -v -x http://ЛОГІН-res-any:ПАРОЛЬ@51.77.190.247:5959 https://ipv4.icanhazip.com

 

2. Робота з довгою сесією (Sticky до 6 годин)

Для активації довгої сесії вручну необхідно пройти два етапи:

Етап А: Отримання токена сесії Виконайте запит, вказавши 0 у параметрі nnid:

 

curl -v -x http://ЛОГІН-resfix-us-nnid-0:ПАРОЛЬ@51.77.190.247:5959 https://ipv4.icanhazip.com

 

Тут us — префікс країни (USA), який можна замінити на код будь-якої іншої доступної країни.

Етап Б: Вилучення та використання токена

У відповіді сервера знайдіть рядок із заголовком X-NN-LLS: HTTP/1.1 200 Connection established X-NN-LLS: 9d016e262509d3827293

Скопіюйте отриманий токен (9d016e262509d3827293) і підставте його замість 0 у логін для всіх наступних запитів, щоб утримувати один і той самий IP: 51.77.190.247:5959:ЛОГІН-resfix-us-nnid-9d016e262509d3827293:ПАРОЛЬ

💡 Порада: Щоб не виконувати ці дії вручну, скористайтеся Генератором облікових даних в особистому кабінеті CyberYozh App. При виборі «ID довгої сесії» система автоматично згенерує і надасть вам готовий логін з уже активним токеном для вибраної країни.


Висновок: Від даних до стратегії

Конкурентна розвідка на маркетплейсах — це не магія, а технологія. В її основі лежить грамотно побудований процес збору даних, а фундамент цього процесу — якісні, правильно підібрані проксі.

Економія на проксі при парсингу — це найдорожча помилка, яка призводить до неповних даних, заблокованих інструментів і, зрештою, до невірних бізнес-рішень. Інвестуйте в надійну інфраструктуру, і ви отримаєте доступ к інформації, яка стане вашим головним козирем у конкурентній боротьбі.

👉 Шукаєте надійне рішення для парсингу?  Наші ротаційні резидентські проксі  надають доступ до мільйонів чистих IP-адрес по всьому світу з гнучким управлінням сесіями. Це ідеальний інструмент для збору даних з будь-яких, навіть найбільш захищених маркетплейсів.