CyberYozh Open Scraper: Guía oficial

CyberYozh tiene su propia herramienta de scraping gratuita y de código abierto: Open Scraper. Está disponible en GitHub, se instala con Docker en ~20 minutos, se despliega en localhost y es accesible desde cualquier navegador web. Solo se requieren conocimientos mínimos de programación, ya que Open Scraper incluye scripts de código predefinidos para operaciones de scraping, crawling y gestión de sesiones, y solo tienes que definir un proxy y un sitio objetivo.

💡

No pierdas tiempo y consulta Open Scraper en GitHub ahora mismo.

Preparando Open Scraper: Elegir un proxy

Antes de comenzar tu scraping, es esencial seleccionar el tipo de proxy adecuado.

⭐

Regístrate en CyberYozh ahora si aún no lo has hecho. Después de eso, seleccionemos el mejor proxy para tu tarea.

Proxies residenciales: Scraping de precios, entrenamiento de IA y la mayoría de tareas

Los proxies residenciales rotativos constituyen la opción más común para scraping y automatización a gran escala. Se basan en enormes pools de IPs de direcciones domésticas reales en todo el mundo, haciendo que cada solicitud parezca provenir de un usuario orgánico diferente. Esto los hace ideales para:

Monitoreo de precios de comercio electrónico
Recopilación de conjuntos de datos para IA/ML
Inteligencia competitiva y de marca
Verificación de anuncios e investigación de mercado

🏠

Los proxies residenciales estáticos no se utilizan habitualmente para scraping. Proporcionan una única dirección IP aislada y a largo plazo para operaciones como la gestión de perfiles individuales. En algunos casos, se pueden usar varios IPs estáticos, asignando cada sesión a un solo IP.

Proxies móviles: Scraping social de alta precisión

Los proxies móviles tienen el nivel de confianza más alto y están optimizados para aplicaciones mobile-first, lo que los convierte en la opción principal para aplicaciones como Instagram y TikTok. Enrutan el tráfico a través de redes reales de operadores LTE/5G, haciéndolos indistinguibles de los usuarios de smartphones. Úsalos para:

Scraping de datos de redes sociales
Analítica de influencers y audiencias
Plataformas basadas en aplicaciones

📚

Consulta la comparación entre proxies móviles y residenciales para un desglose completo.

Proxies de datacenter: Scraping de datos abiertos y pruebas

Los proxies de datacenter son muy rápidos pero están asociados con tráfico no residencial, similar a bots, por lo que muchas plataformas protegidas los bloquean. Úsalos para:

Scraping de bases de datos abiertas
Pruebas y desarrollo

📚

Lee exactamente cómo los proxies de datacenter difieren de los residenciales y cuándo usar cada uno.

Descargar e instalar Open Scraper con Docker

Como se mencionó, Open Scraper puede instalarse en menos de 20 minutos. Requiere Docker y se puede acceder a través de localhost usando tu navegador, lo cual puede resultar inusual al principio, pero es muy fácil.

⭐

CyberYozh tiene IP Checker: una herramienta que garantiza la calidad de las IP antes de su implementación. Si bien nadie puede garantizar una tasa de éxito del 100%, podemos maximizarla eliminando las IP deliberadamente de baja calidad.

Usa IP Checker y aprende cómo automatizarlo en nuestra documentación de API.

Instalar Docker

Ve al sitio web de Docker y descarga Docker Desktop para tu sistema operativo (Windows, macOS o Linux).

Ejecuta el instalador y sigue los pasos en pantalla. Docker Desktop es gratuito para uso personal. Una vez instalado, inicia Docker Desktop y confirma que esté en ejecución antes de continuar.

Descargar Open Scraper desde GitHub

Ve al repositorio de Open Scraper en GitHub. Haz clic en el botón verde Code y selecciona Download ZIP.

Alternativamente, clona mediante Git:

bash

git clone https://github.com/CyberYozh-data/yozh-scraper

cd yozh-scraper

Navega dentro de la carpeta antes de proceder al paso de compilación.

Lee más sobre proxy de GitHub

Compilar Open Scraper con Docker

Crea el archivo de entorno y añade tu clave API de CyberYozh:

bash

cp .env.example .env    # create the environment file

# Open .env and set: CYBERYOZH_API_KEY="your_key_here"

Luego compila e inicia todos los servicios con un solo comando:

bash

docker compose up --build

Docker descargará todas las dependencias e iniciará los contenedores de Open Scraper y Open Crawler automáticamente. Abre Docker para ver que está en ejecución:

Acceder a Open Scraper mediante cualquier navegador

Ambas herramientas están ahora ejecutándose en localhost (127.0.0.1) a través de puertos específicos. Verifica que estén activas usando curl:

bash

curl http://localhost:8000/api/v1/health

# {"status":"ok","workers":2}


curl http://localhost:8001/api/v1/health

# {"status":"ok","workers":2,"scraper_reachable":true,...}

Accede a la documentación interactiva de la API:

Open Scraper: http://localhost:8000/docs#/
Abrir Crawler: http://localhost:8001/docs#/

Ambas páginas de documentación contienen scripts ejecutables con parámetros predefinidos. No necesitas escribir código adicional; solo completa tus valores objetivo. Esto se puede hacer fácilmente usando el comando curl , como se muestra en la siguiente sección.

⚙️

Para scraping avanzado, explora la guía de configuración de Playwright y la configuración de proxy en Python.

Usar Open Scraper y Open Crawler

Después de la configuración, tienes dos interfaces API accesibles desde el navegador. Todas las operaciones se pueden activar ya sea lanzando comandos API a través de la GUI (haz clic en Try it out en cualquier endpoint) o enviando comandos curl directamente desde tu terminal. A continuación se muestran todas las operaciones principales.

🔁

Explora las mejores estrategias de rotación de IP para casos de uso específicos y configura tus proxies de la mejor manera.

1. Agregar un proxy a Open Scraper mediante clave API

Abre el archivo .env en la raíz del proyecto y configura tu clave API de CyberYozh:

plaintext

CYBERYOZH_API_KEY="your_key_here"

Luego, en los scripts API (o mediante comandos curl , como verás más adelante), especifica el parámetro proxy_type para activar un proxy. El valor predeterminado es none (conexión directa):

proxy_type	Qué es
res_rotating	Residencial rotativo — predeterminado recomendado
res_static	Residencial estático (IP dedicada)
mobile	Móvil / LTE, dedicado
mobile_shared	Móvil / LTE, grupo compartido
dc_static	Centro de datos estático
none	Conexión directa, sin proxy

Para geolocalización, añade el diccionario proxy_geo a cualquier script con los siguientes campos:

Campo	Tipo	Descripción
country_code	string	ISO 3166-1 alfa-2 (ej. «US», «GB»)
region	string	Nombre de región/estado
city	string	Nombre de ciudad (ej. «London»)

Lee más sobre geolocalización y sus características en el artículo de CyberYozh.

Todos los comandos de rastreo y scraping pueden enviarse mediante curl desde tu terminal o ejecutarse de forma interactiva a través de las páginas de documentación de localhost. Veamos más de cerca.

2. Lanza operaciones de rastreo en el sitio objetivo

Usa Crear Rastreo comando POST del Open Crawler para iniciar un rastreo completo del sitio.

Especifica la URL semilla, límites de alcance, tasa de solicitudes y tipo de proxy:

bash

# Submit a crawl
curl -X POST http://localhost:8001/api/v1/crawl \
  -H "Content-Type: application/json" \
  -d '{
    "seed_url": "https://example.com",
    "scope": {
        "mode": "same-domain", 
        "max_depth": 2, 
        "max_pages": 50, 
        "per_domain_rps": 1.0, 
        "per_domain_concurrency": 1
    },
    "scrape_options": {
        "proxy_type": "res_rotating"
    },
    "crawl_proxy": null,
    "enable_scraping": false

  }'

# {"job_id":"crawl_abc123"}

Parámetros clave a configurar:

seed_url para la URL inicial del sitio objetivo
max_pages / max_depth para límites de alcance que controlan la amplitud y el costo
per_domain_rps para solicitudes por segundo; mantén en 1.0 para evitar activar límites de tasa
proxy_type debe establecerse en res_rotating para la mayoría de los casos de uso

Una vez iniciado, recibes un job_id (en este ejemplo, crawl_abc123). Úsalo para monitorear y gestionar el rastreo:

bash

# Poll crawl status
curl http://localhost:8001/api/v1/crawl/crawl_abc123

# Retrieve full results (all visited pages + stats)
curl http://localhost:8001/api/v1/crawl/crawl_abc123/results

# Live event stream (SSE)
curl -N http://localhost:8001/api/v1/crawl/crawl_abc123/events

# Cancel softly (drains in-flight requests)
curl -X DELETE "http://localhost:8001/api/v1/crawl/crawl_abc123?hard=false"

# Cancel hard (aborts all in-flight tasks immediately)
curl -X DELETE "http://localhost:8001/api/v1/crawl/crawl_abc123?hard=true"

Lee más sobre herramientas de análisis web en el blog de CyberYozh.

3. Extrae y analiza datos del sitio objetivo

Para extracción de una sola página, usa el comando Scrape Page del Open Scraper

Con b, el proceso es fácil:

bash

curl -s -X POST http://localhost:8000/api/v1/scrape/page \

  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com",
    "proxy_type": "res_rotating"
  }'

Para extraer múltiples páginas en un solo trabajo, usa Scrape Pages:

bash

curl -s -X POST http://localhost:8000/api/v1/scrape/pages \
  -H "Content-Type: application/json" \
  -d '{
    "pages": [
      {"url":"https://example.com","proxy_type":"res_rotating"},
      {"url":"https://example.org","proxy_type":"res_rotating"}
    ]
  }'

De manera similar al rastreo, ambos comandos devuelven un job_id. Úsalo para verificar el estado y recuperar resultados:

bash

# Check scrape status
curl -s http://localhost:8000/api/v1/scrape/<your_job_id>


# Fetch scrape results
curl -s http://localhost:8000/api/v1/scrape/<your_job_id>/results

Para configuraciones avanzadas de reintentos y manejo de errores en scrapers basados en Python, consulta Optimización de reintentos de Python requests.

4. Usa preajustes para extracción optimizada

Open Scraper incluye preajustes predefinidos para fuentes de datos populares. En lugar de configurar selectores manualmente, selecciona un nombre de fuente y pasa el parámetro requerido:

nombre	fuente	parámetros	locales
amazon_product	amazon	asin	us, uk, de, fr, jp
amazon_search	amazon	consulta	us, uk, de
google_search	google	consulta	us, uk, de, fr, ru, jp
google_shopping	google	consulta	us, uk, de
ebay_search	ebay	consulta	us, uk, de
walmart_product	walmart	product_id	us
youtube_video	youtube	video_id	global
linkedin_profile	linkedin	nombre de usuario	global (requiere sesión autenticada)

Para extraer datos usando un preajuste, utiliza la Página de Preajuste de Extracción o Páginas de ajustes preestablecidos de scraping comando:

bash

curl -X POST http://localhost:8000/api/v1/scrape/preset/page \

  -H 'Content-Type: application/json' \
  -d '{
    "source": "amazon_product",
    "preset_params": {"asin": "B08N5WRWNW"},
    "locale": "us",
    "llm": {"model": "openai/gpt-5.4-mini"}
  }'

# -> {"job_id": "..."}  then GET /api/v1/scrape/<job_id>/results

El parámetro opcional llm habilita un modelo de IA para autocorregirse durante el análisis. Para usarlo, debes agregar la clave API del proveedor de LLM correspondiente (por ejemplo, OPENAI_API_KEY) a tu archivo .env junto con tu CYBERYOZH_API_KEY.

🤖

El análisis asistido por LLM puede ser útil para estructuras de páginas inconsistentes o dinámicas donde los selectores CSS por sí solos pueden perder contenido.

5. Iniciar sesiones persistentes

Las sesiones persistentes permiten a Open Scraper mantener un estado de navegador consistente, incluyendo cookies, autenticación y dirección IP, a través de múltiples solicitudes. Úsalas para hacer scraping detrás de muros de inicio de sesión.

Crear una sesión:

bash

curl -X POST http://localhost:8000/api/v1/sessions \

  -H 'content-type: application/json' \
  -d '{"device":"desktop","proxy_type":"res_rotating","ttl_seconds":3600}'

Autenticar la sesión con un script de inicio de sesión:

bash

curl -X POST http://localhost:8000/api/v1/sessions/$ID/login \

  -H 'content-type: application/json' \
  -d '{
    "creds":{"email":"tomsmith","password":"SuperSecretPassword!"},
    "script":{
      "steps":[
        # Your target website
        {"op":"goto","url":"https://the-internet.herokuapp.com/login"}, 
        {"op":"fill","selector":"#username","value":"$creds_email"},
        {"op":"fill","selector":"#password","value":"$creds_password"},
        {"op":"click","selector":"button[type=submit]"},
        {"op":"wait_for_selector","selector":".flash.success"}
      ],
      "success_selector":".flash.success"
    }
  }'

Alternativamente, inyectar cookies de sesión directamente:

bash

curl -X POST http://localhost:8000/api/v1/sessions/$ID/cookies \

  -H 'content-type: application/json' \
  -d '{"cookies":[{"name":"sessionid","value":"abc","domain":".example.com","path":"/","expires":1800000000,"httpOnly":true,"secure":true,"sameSite":"Lax"}]}'

Una vez que la sesión esté autenticada, pasa el session_id en cualquier comando subsiguiente de Scrape Page o Scrape Pages para continuar bajo el mismo estado autenticado.

🍪

Sticky Session es un contexto de navegador persistente que retiene cookies, tokens de autenticación y asignación de proxy a través de múltiples solicitudes. Crítico para hacer scraping en plataformas que requieren inicio de sesión o mantienen estado anti-bot a través de vistas de página.

Conclusión: Web scraping y automatización gratis

Open Scraper y Open Crawler son herramientas listas para producción, gratuitas y de código abierto para scraping, rastreo y extracción de datos estructurados. Instálalas con Docker en 20 minutos, conecta tu proxy de CyberYozh en dos líneas de configuración .env y ejecuta todas las operaciones vía curl sin necesidad de programar.

Preguntas frecuentes sobre Open Scraper de CyberYozh

¿Cuál es la mejor herramienta gratuita de web scraping disponible hoy?

CyberYozh Open Scraper es una opción gratuita y de código abierto de primer nivel: no requiere suscripción, se ejecuta localmente vía Docker e integra rotación de proxies desde el inicio.

¿CyberYozh Open Scraper es realmente gratis?

Sí, la herramienta en sí es completamente gratuita y de código abierto. Solo pagas por proxies si los necesitas para protección anti-baneo o geolocalización.

¿Cuáles son las mejores herramientas de web scraping de código abierto?

Las opciones populares incluyen Scrapy, Playwright, Puppeteer y CyberYozh Open Scraper, que combina de manera única una interfaz API lista para usar con infraestructura de proxy nativa.

¿Necesito un proxy para web scraping?

No siempre, pero para scraping a gran escala o comercial, un servicio de proxy para web scraping es esencial para evitar bloqueos de IP y sortear límites de velocidad.

¿Qué es un servicio de proxy para web scraping?

Un servicio de proxy para web scraping enruta las solicitudes de tu scraper a través de un conjunto de IPs reales, haciendo que cada solicitud parezca provenir de un usuario legítimo diferente.

¿Cuál es la diferencia entre proxies rotativos y estáticos para scraping?

Los proxies rotativos asignan una nueva dirección IP por solicitud para proporcionar anonimato a escala. Los proxies estáticos mantienen una IP fija, adecuados para tareas basadas en sesiones o específicas de cuentas.

¿Puedo usar una API gratuita de web scraping sin experiencia en programación?

Sí. La documentación localhost de Open Scraper proporciona scripts API preconfigurados: solo completa una URL y el tipo de proxy y haz clic en ejecutar. No se requiere código personalizado.

¿Qué tipo de proxy debo usar para scraping de redes sociales?

Los proxies móviles ofrecen el mayor nivel de confianza y son ideales para Instagram, TikTok y plataformas similares orientadas a móviles que filtran agresivamente el tráfico no móvil.

¿Cómo evito ser bloqueado mientras hago web scraping?

Usa proxies residenciales o móviles rotativos, limita las solicitudes por segundo (per_domain_rps), activa el modo sigiloso y rota los encabezados user-agent con cada solicitud.

¿Puede Open Scraper manejar páginas renderizadas con JavaScript?

Sí. Open Scraper está construido sobre Playwright, que renderiza sesiones completas de navegador incluyendo JavaScript, SPAs y contenido cargado dinámicamente.

¿Cuál es la diferencia entre web scraping y web crawling?

El crawling mapea e indexa URLs a través de un sitio; el scraping extrae datos estructurados de esas páginas. Open Scraper incluye ambas herramientas: Open Crawler para descubrimiento, Open Scraper para extracción.

¿Cómo configuro un proxy de web scraping para Open Scraper?

Agrega tu clave API de CyberYozh al archivo .env bajo CYBERYOZH_API_KEY, luego establece proxy_type en res_rotating en cualquier comando de scraping. Eso es todo.