GRAN PREMIO DE LA APLICACIÓN CYBERYOZH.

GRAN PREMIO DE LA APLICACIÓN CYBERYOZH.

¡Gane Apple MacBook, $2000, iPad y muchos otros premios!

CyberYozh Open Scraper: Guía oficial

CyberYozh tiene su propia herramienta de scraping gratuita y de código abierto: Open Scraper. Está disponible en GitHub, se instala con Docker en ~20 minutos, se despliega en localhost y es accesible desde cualquier navegador web. Solo se requieren conocimientos mínimos de programación, ya que Open Scraper incluye scripts de código predefinidos para operaciones de scraping, crawling y gestión de sesiones, y solo tienes que definir un proxy y un sitio objetivo.

💡

No pierdas tiempo y consulta Open Scraper en GitHub ahora mismo.

Preparando Open Scraper: Elegir un proxy

Antes de comenzar tu scraping, es esencial seleccionar el tipo de proxy adecuado.

Regístrate en CyberYozh ahora si aún no lo has hecho. Después de eso, seleccionemos el mejor proxy para tu tarea.

Proxies residenciales: Scraping de precios, entrenamiento de IA y la mayoría de tareas

Los proxies residenciales rotativos constituyen la opción más común para scraping y automatización a gran escala. Se basan en enormes pools de IPs de direcciones domésticas reales en todo el mundo, haciendo que cada solicitud parezca provenir de un usuario orgánico diferente. Esto los hace ideales para:

  • Monitoreo de precios de comercio electrónico

  • Recopilación de conjuntos de datos para IA/ML

  • Inteligencia competitiva y de marca 

  • Verificación de anuncios e investigación de mercado

🏠

Los proxies residenciales estáticos no se utilizan habitualmente para scraping. Proporcionan una única dirección IP aislada y a largo plazo para operaciones como la gestión de perfiles individuales. En algunos casos, se pueden usar varios IPs estáticos, asignando cada sesión a un solo IP.

Proxies móviles: Scraping social de alta precisión

Los proxies móviles tienen el nivel de confianza más alto y están optimizados para aplicaciones mobile-first, lo que los convierte en la opción principal para aplicaciones como Instagram y TikTok. Enrutan el tráfico a través de redes reales de operadores LTE/5G, haciéndolos indistinguibles de los usuarios de smartphones. Úsalos para:

  • Scraping de datos de redes sociales

  • Analítica de influencers y audiencias

  • Plataformas basadas en aplicaciones

📚

Consulta la comparación entre proxies móviles y residenciales para un desglose completo.

Proxies de datacenter: Scraping de datos abiertos y pruebas

Los proxies de datacenter son muy rápidos pero están asociados con tráfico no residencial, similar a bots, por lo que muchas plataformas protegidas los bloquean. Úsalos para:

  • Scraping de bases de datos abiertas

  • Pruebas y desarrollo  

📚

Lee exactamente cómo los proxies de datacenter difieren de los residenciales y cuándo usar cada uno.

Descargar e instalar Open Scraper con Docker

Como se mencionó, Open Scraper puede instalarse en menos de 20 minutos. Requiere Docker y se puede acceder a través de localhost usando tu navegador, lo cual puede resultar inusual al principio, pero es muy fácil.

CyberYozh tiene IP Checker: una herramienta que garantiza la calidad de las IP antes de su implementación. Si bien nadie puede garantizar una tasa de éxito del 100%, podemos maximizarla eliminando las IP deliberadamente de baja calidad.

Usa IP Checker y aprende cómo automatizarlo en nuestra documentación de API.

Instalar Docker

Ve al sitio web de Docker y descarga Docker Desktop para tu sistema operativo (Windows, macOS o Linux).

Docker downloading

Ejecuta el instalador y sigue los pasos en pantalla. Docker Desktop es gratuito para uso personal. Una vez instalado, inicia Docker Desktop y confirma que esté en ejecución antes de continuar.

Docker

Descargar Open Scraper desde GitHub

Ve al repositorio de Open Scraper en GitHub. Haz clic en el botón verde Code y selecciona Download ZIP

CyberYozh's Open Scraper on GitHub

Alternativamente, clona mediante Git:

bash
git clone https://github.com/CyberYozh-data/yozh-scraper

cd yozh-scraper 

Navega dentro de la carpeta antes de proceder al paso de compilación.

Lee más sobre proxy de GitHub

Compilar Open Scraper con Docker

Crea el archivo de entorno y añade tu clave API de CyberYozh:

bash
cp .env.example .env    # create the environment file

# Open .env and set: CYBERYOZH_API_KEY="your_key_here" 

Luego compila e inicia todos los servicios con un solo comando:

bash
docker compose up --build

Docker descargará todas las dependencias e iniciará los contenedores de Open Scraper y Open Crawler automáticamente. Abre Docker para ver que está en ejecución:

Open Scraper is running in Docker

Acceder a Open Scraper mediante cualquier navegador

Ambas herramientas están ahora ejecutándose en localhost (127.0.0.1) a través de puertos específicos. Verifica que estén activas usando curl:

bash
curl http://localhost:8000/api/v1/health

# {"status":"ok","workers":2}


curl http://localhost:8001/api/v1/health

# {"status":"ok","workers":2,"scraper_reachable":true,...} 

Accede a la documentación interactiva de la API:

Ambas páginas de documentación contienen scripts ejecutables con parámetros predefinidos. No necesitas escribir código adicional; solo completa tus valores objetivo. Esto se puede hacer fácilmente usando el comando curl , como se muestra en la siguiente sección.

⚙️

Usar Open Scraper y Open Crawler

Después de la configuración, tienes dos interfaces API accesibles desde el navegador. Todas las operaciones se pueden activar ya sea lanzando comandos API a través de la GUI (haz clic en Try it out en cualquier endpoint) o enviando comandos curl directamente desde tu terminal. A continuación se muestran todas las operaciones principales.

🔁

Explora las mejores estrategias de rotación de IP para casos de uso específicos y configura tus proxies de la mejor manera.

1. Agregar un proxy a Open Scraper mediante clave API

Abre el archivo .env en la raíz del proyecto y configura tu clave API de CyberYozh:

plaintext
CYBERYOZH_API_KEY="your_key_here"

Luego, en los scripts API (o mediante comandos curl , como verás más adelante), especifica el parámetro proxy_type para activar un proxy. El valor predeterminado es none (conexión directa):

proxy_type

Qué es

res_rotating

Residencial rotativo — predeterminado recomendado

res_static

Residencial estático (IP dedicada)

mobile

Móvil / LTE, dedicado

mobile_shared

Móvil / LTE, grupo compartido

dc_static

Centro de datos estático

none

Conexión directa, sin proxy

Para geolocalización, añade el diccionario proxy_geo a cualquier script con los siguientes campos:

Campo

Tipo

Descripción

country_code

string

ISO 3166-1 alfa-2 (ej. «US», «GB»)

region

string

Nombre de región/estado

city

string

Nombre de ciudad (ej. «London»)

Lee más sobre geolocalización y sus características en el artículo de CyberYozh.

Todos los comandos de rastreo y scraping pueden enviarse mediante curl desde tu terminal o ejecutarse de forma interactiva a través de las páginas de documentación de localhost. Veamos más de cerca.

2. Lanza operaciones de rastreo en el sitio objetivo

Usa Crear Rastreo comando POST del Open Crawler para iniciar un rastreo completo del sitio.

open-crawler-create

Especifica la URL semilla, límites de alcance, tasa de solicitudes y tipo de proxy:

bash
# Submit a crawl
curl -X POST http://localhost:8001/api/v1/crawl \
  -H "Content-Type: application/json" \
  -d '{
    "seed_url": "https://example.com",
    "scope": {
        "mode": "same-domain", 
        "max_depth": 2, 
        "max_pages": 50, 
        "per_domain_rps": 1.0, 
        "per_domain_concurrency": 1
    },
    "scrape_options": {
        "proxy_type": "res_rotating"
    },
    "crawl_proxy": null,
    "enable_scraping": false

  }'

# {"job_id":"crawl_abc123"} 

Parámetros clave a configurar:

  • seed_url para la URL inicial del sitio objetivo

  • max_pages / max_depth  para límites de alcance que controlan la amplitud y el costo

  • per_domain_rps para solicitudes por segundo; mantén en 1.0 para evitar activar límites de tasa

  • proxy_type debe establecerse en res_rotating para la mayoría de los casos de uso

Una vez iniciado, recibes un job_id (en este ejemplo, crawl_abc123). Úsalo para monitorear y gestionar el rastreo:

bash
# Poll crawl status
curl http://localhost:8001/api/v1/crawl/crawl_abc123

# Retrieve full results (all visited pages + stats)
curl http://localhost:8001/api/v1/crawl/crawl_abc123/results

# Live event stream (SSE)
curl -N http://localhost:8001/api/v1/crawl/crawl_abc123/events

# Cancel softly (drains in-flight requests)
curl -X DELETE "http://localhost:8001/api/v1/crawl/crawl_abc123?hard=false"

# Cancel hard (aborts all in-flight tasks immediately)
curl -X DELETE "http://localhost:8001/api/v1/crawl/crawl_abc123?hard=true" 

Lee más sobre herramientas de análisis web en el blog de CyberYozh.

3. Extrae y analiza datos del sitio objetivo

Para extracción de una sola página, usa el comando Scrape Page del Open Scraper

open-scraper-scrape-page

Con b, el proceso es fácil:

bash
curl -s -X POST http://localhost:8000/api/v1/scrape/page \

  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com",
    "proxy_type": "res_rotating"
  }' 

Para extraer múltiples páginas en un solo trabajo, usa Scrape Pages:

bash
curl -s -X POST http://localhost:8000/api/v1/scrape/pages \
  -H "Content-Type: application/json" \
  -d '{
    "pages": [
      {"url":"https://example.com","proxy_type":"res_rotating"},
      {"url":"https://example.org","proxy_type":"res_rotating"}
    ]
  }' 

De manera similar al rastreo, ambos comandos devuelven un job_id. Úsalo para verificar el estado y recuperar resultados:

bash
# Check scrape status
curl -s http://localhost:8000/api/v1/scrape/<your_job_id>


# Fetch scrape results
curl -s http://localhost:8000/api/v1/scrape/<your_job_id>/results 

Para configuraciones avanzadas de reintentos y manejo de errores en scrapers basados en Python, consulta Optimización de reintentos de Python requests.

4. Usa preajustes para extracción optimizada

Open Scraper incluye preajustes predefinidos para fuentes de datos populares. En lugar de configurar selectores manualmente, selecciona un nombre de fuente y pasa el parámetro requerido:

nombre

fuente

parámetros

locales

amazon_product

amazon

asin

us, uk, de, fr, jp

amazon_search

amazon

consulta

us, uk, de

google_search

google

consulta

us, uk, de, fr, ru, jp

google_shopping

google

consulta

us, uk, de

ebay_search

ebay

consulta

us, uk, de

walmart_product

walmart

product_id

us

youtube_video

youtube

video_id

global

linkedin_profile

linkedin

nombre de usuario

global (requiere sesión autenticada)

Para extraer datos usando un preajuste, utiliza la Página de Preajuste de Extracción o Páginas de ajustes preestablecidos de scraping comando:

bash
curl -X POST http://localhost:8000/api/v1/scrape/preset/page \

  -H 'Content-Type: application/json' \
  -d '{
    "source": "amazon_product",
    "preset_params": {"asin": "B08N5WRWNW"},
    "locale": "us",
    "llm": {"model": "openai/gpt-5.4-mini"}
  }'

# -> {"job_id": "..."}  then GET /api/v1/scrape/<job_id>/results 

El parámetro opcional llm habilita un modelo de IA para autocorregirse durante el análisis. Para usarlo, debes agregar la clave API del proveedor de LLM correspondiente (por ejemplo, OPENAI_API_KEY) a tu archivo .env junto con tu CYBERYOZH_API_KEY.

🤖

El análisis asistido por LLM puede ser útil para estructuras de páginas inconsistentes o dinámicas donde los selectores CSS por sí solos pueden perder contenido.

5. Iniciar sesiones persistentes

Las sesiones persistentes permiten a Open Scraper mantener un estado de navegador consistente, incluyendo cookies, autenticación y dirección IP, a través de múltiples solicitudes. Úsalas para hacer scraping detrás de muros de inicio de sesión.

Crear una sesión:

bash
curl -X POST http://localhost:8000/api/v1/sessions \

  -H 'content-type: application/json' \
  -d '{"device":"desktop","proxy_type":"res_rotating","ttl_seconds":3600}'

Autenticar la sesión con un script de inicio de sesión:

bash
curl -X POST http://localhost:8000/api/v1/sessions/$ID/login \

  -H 'content-type: application/json' \
  -d '{
    "creds":{"email":"tomsmith","password":"SuperSecretPassword!"},
    "script":{
      "steps":[
        # Your target website
        {"op":"goto","url":"https://the-internet.herokuapp.com/login"}, 
        {"op":"fill","selector":"#username","value":"$creds_email"},
        {"op":"fill","selector":"#password","value":"$creds_password"},
        {"op":"click","selector":"button[type=submit]"},
        {"op":"wait_for_selector","selector":".flash.success"}
      ],
      "success_selector":".flash.success"
    }
  }' 

Alternativamente, inyectar cookies de sesión directamente:

bash
curl -X POST http://localhost:8000/api/v1/sessions/$ID/cookies \

  -H 'content-type: application/json' \
  -d '{"cookies":[{"name":"sessionid","value":"abc","domain":".example.com","path":"/","expires":1800000000,"httpOnly":true,"secure":true,"sameSite":"Lax"}]}' 

Una vez que la sesión esté autenticada, pasa el session_id en cualquier comando subsiguiente de Scrape Page o Scrape Pages para continuar bajo el mismo estado autenticado.

🍪

Sticky Session es un contexto de navegador persistente que retiene cookies, tokens de autenticación y asignación de proxy a través de múltiples solicitudes. Crítico para hacer scraping en plataformas que requieren inicio de sesión o mantienen estado anti-bot a través de vistas de página.

Conclusión: Web scraping y automatización gratis

Open Scraper y Open Crawler son herramientas listas para producción, gratuitas y de código abierto para scraping, rastreo y extracción de datos estructurados. Instálalas con Docker en 20 minutos, conecta tu proxy de CyberYozh en dos líneas de configuración .env y ejecuta todas las operaciones vía curl sin necesidad de programar.

Preguntas frecuentes sobre Open Scraper de CyberYozh

¿Cuál es la mejor herramienta gratuita de web scraping disponible hoy?

CyberYozh Open Scraper es una opción gratuita y de código abierto de primer nivel: no requiere suscripción, se ejecuta localmente vía Docker e integra rotación de proxies desde el inicio.

¿CyberYozh Open Scraper es realmente gratis?

Sí, la herramienta en sí es completamente gratuita y de código abierto. Solo pagas por proxies si los necesitas para protección anti-baneo o geolocalización.

¿Cuáles son las mejores herramientas de web scraping de código abierto?

Las opciones populares incluyen Scrapy, Playwright, Puppeteer y CyberYozh Open Scraper, que combina de manera única una interfaz API lista para usar con infraestructura de proxy nativa.

¿Necesito un proxy para web scraping?

No siempre, pero para scraping a gran escala o comercial, un servicio de proxy para web scraping es esencial para evitar bloqueos de IP y sortear límites de velocidad.

¿Qué es un servicio de proxy para web scraping?

Un servicio de proxy para web scraping enruta las solicitudes de tu scraper a través de un conjunto de IPs reales, haciendo que cada solicitud parezca provenir de un usuario legítimo diferente.

¿Cuál es la diferencia entre proxies rotativos y estáticos para scraping?

Los proxies rotativos asignan una nueva dirección IP por solicitud para proporcionar anonimato a escala. Los proxies estáticos mantienen una IP fija, adecuados para tareas basadas en sesiones o específicas de cuentas.

¿Puedo usar una API gratuita de web scraping sin experiencia en programación?

Sí. La documentación localhost de Open Scraper proporciona scripts API preconfigurados: solo completa una URL y el tipo de proxy y haz clic en ejecutar. No se requiere código personalizado.

¿Qué tipo de proxy debo usar para scraping de redes sociales?

Los proxies móviles ofrecen el mayor nivel de confianza y son ideales para Instagram, TikTok y plataformas similares orientadas a móviles que filtran agresivamente el tráfico no móvil.

¿Cómo evito ser bloqueado mientras hago web scraping?

Usa proxies residenciales o móviles rotativos, limita las solicitudes por segundo (per_domain_rps), activa el modo sigiloso y rota los encabezados user-agent con cada solicitud.

¿Puede Open Scraper manejar páginas renderizadas con JavaScript?

Sí. Open Scraper está construido sobre Playwright, que renderiza sesiones completas de navegador incluyendo JavaScript, SPAs y contenido cargado dinámicamente.

¿Cuál es la diferencia entre web scraping y web crawling?

El crawling mapea e indexa URLs a través de un sitio; el scraping extrae datos estructurados de esas páginas. Open Scraper incluye ambas herramientas: Open Crawler para descubrimiento, Open Scraper para extracción.

¿Cómo configuro un proxy de web scraping para Open Scraper?

Agrega tu clave API de CyberYozh al archivo .env bajo CYBERYOZH_API_KEY, luego establece proxy_type en res_rotating en cualquier comando de scraping. Eso es todo.