GRANDE PRÊMIO DO APP CYBERYOZH.

GRANDE PRÊMIO DO APP CYBERYOZH.

Ganhe Apple MacBook, US$ 2.000, iPad e muitos outros prêmios!

CyberYozh Open Scraper: Guia oficial

O CyberYozh possui sua própria ferramenta de scraping gratuita e de código aberto: Open Scraper. Está disponível no GitHub, instala-se com Docker em aproximadamente 20 minutos, implementa-se em localhost e é acessível através de qualquer navegador web. Apenas conhecimentos mínimos de programação são necessários, pois o Open Scraper inclui scripts de código pré-definidos para operações de scraping, crawling e gestão de sessões, e você só precisa definir um proxy e um site de destino.

💡

Não perca tempo e confira o Open Scraper no GitHub agora mesmo.

Preparando o Open Scraper: Escolhendo um proxy

Antes de começar o seu scraping, é essencial selecionar o tipo de proxy adequado.

Registe-se no CyberYozh agora se ainda não o fez. Depois disso, vamos selecionar o melhor proxy para a sua tarefa.

Proxies residenciais: Scraping de preços, treino de IA e a maioria das tarefas

Proxies residenciais rotativos constituem a opção mais comum para scraping e automação em larga escala. Utilizam pools massivos de IPs de endereços residenciais reais em todo o mundo, fazendo com que cada pedido pareça vir de um utilizador orgânico diferente. Isto torna-os ideais para:

  • Monitorização de preços de e-commerce

  • Recolha de conjuntos de dados para IA/ML

  • Inteligência competitiva e de marca 

  • Verificação de anúncios e pesquisa de mercado

🏠

Proxies residenciais estáticos normalmente não são utilizados para scraping. Fornecem um único endereço IP isolado e de longo prazo para operações como gestão de perfil único. Em alguns casos, vários IPs estáticos podem ser utilizados, com cada sessão atribuída a um único IP.

Proxies móveis: Scraping social de alta precisão

Proxies móveis têm a pontuação de confiança mais elevada e são otimizados para aplicações mobile-first, tornando-os a opção principal para aplicações como Instagram e TikTok. Encaminham o tráfego através de redes de operadoras LTE/5G reais, tornando-os indistinguíveis de utilizadores de smartphones. Utilize-os para:

  • Scraping de dados de redes sociais

  • Análises de influenciadores e audiências

  • Plataformas baseadas em aplicações

📚

Veja a comparação entre proxies móveis e residenciais para uma análise completa.

Proxies de datacenter: Scraping de dados abertos e testes

Proxies de datacenter são muito rápidos, mas estão associados a tráfego não residencial, semelhante a bots, pelo que são bloqueados por muitas plataformas protegidas. Utilize-os para:

  • Scraping de bases de dados abertas

  • Testes e desenvolvimento  

📚

Leia exatamente como os proxies de datacenter diferem dos residenciais e quando usar cada um.

Descarregar e instalar o Open Scraper com Docker

Como mencionado, o Open Scraper pode ser instalado em menos de 20 minutos. Requer Docker e pode ser acedido via localhost usando o seu navegador, o que pode parecer estranho no início, mas é muito fácil.

O CyberYozh tem o IP Checker: uma ferramenta que garante a qualidade dos IPs antes da implementação. Embora ninguém possa garantir uma taxa de sucesso de 100%, podemos maximizá-la eliminando IPs deliberadamente de baixa qualidade.

Use o IP Checker e aprenda a automatizá-lo na nossa documentação da API.

Instalar o Docker

Aceda ao site do Docker e descarregue o Docker Desktop para o seu sistema operativo (Windows, macOS ou Linux).

Docker downloading

Execute o instalador e siga os passos no ecrã. O Docker Desktop é gratuito para uso pessoal. Após a instalação, inicie o Docker Desktop e confirme que está em execução antes de prosseguir.

Docker

Descarregar o Open Scraper do GitHub

Aceda ao repositório do Open Scraper no GitHub. Clique no botão verde Code e selecione Download ZIP

CyberYozh's Open Scraper on GitHub

Em alternativa, clone via Git:

bash
git clone https://github.com/CyberYozh-data/yozh-scraper

cd yozh-scraper 

Navegue para a pasta antes de prosseguir para o passo de construção.

Leia mais sobre proxy do GitHub

Construir o Open Scraper com Docker

Crie o ficheiro de ambiente e adicione a sua chave API do CyberYozh:

bash
cp .env.example .env    # create the environment file

# Open .env and set: CYBERYOZH_API_KEY="your_key_here" 

Depois, construa e inicie todos os serviços com um único comando:

bash
docker compose up --build

O Docker irá obter todas as dependências e iniciar os contentores do Open Scraper e Open Crawler automaticamente. Abra o Docker para verificar que está em execução:

Open Scraper is running in Docker

Aceder ao Open Scraper através de qualquer navegador

Ambas as ferramentas estão agora em execução no localhost (127.0.0.1) através de portas específicas. Verifique se estão ativas usando curl:

bash
curl http://localhost:8000/api/v1/health

# {"status":"ok","workers":2}


curl http://localhost:8001/api/v1/health

# {"status":"ok","workers":2,"scraper_reachable":true,...} 

Aceda à documentação interativa da API:

Ambas as páginas de documentação contêm scripts executáveis com parâmetros pré-definidos. Você não precisa escrever nenhum código adicional; apenas preencha seus valores de destino. Isso pode ser feito facilmente usando o comando curl , conforme mostrado na próxima seção.

⚙️

Usar Open Scraper e Open Crawler

Após a configuração, você tem duas interfaces de API acessíveis pelo navegador. Todas as operações podem ser acionadas lançando comandos de API através da GUI (clique em Try it out em qualquer endpoint) ou enviando comandos curl diretamente do seu terminal. Abaixo estão todas as operações principais.

🔁

Explore as melhores estratégias de rotação de IP para casos de uso específicos para configurar seus proxies da melhor forma.

1. Adicionar um proxy ao Open Scraper via chave de API

Abra o arquivo .env na raiz do projeto e defina sua chave de API do CyberYozh:

plaintext
CYBERYOZH_API_KEY="your_key_here"

Em seguida, nos scripts de API (ou via comandos curl , como você verá adiante), especifique o parâmetro proxy_type para ativar um proxy. O valor padrão é none (conexão direta):

proxy_type

O que é

res_rotating

Residencial rotativo — padrão recomendado

res_static

Residencial estático (IP dedicado)

mobile

Móvel / LTE, dedicado

mobile_shared

Móvel / LTE, pool partilhado

dc_static

Datacenter estático

none

Ligação direta, sem proxy

Para geotargeting, adicione o dicionário proxy_geo a qualquer script com os seguintes campos:

Campo

Tipo

Descrição

country_code

string

ISO 3166-1 alpha-2 (por exemplo, «US», «GB»)

region

string

Nome da região/estado

city

string

Nome da cidade (por exemplo, «London»)

Leia mais sobre geotargeting e as suas especificidades no artigo do CyberYozh.

Todos os comandos de crawling e scraping podem ser submetidos via curl a partir do seu terminal ou executados interativamente através das páginas de documentação localhost. Vejamos mais de perto.

2. Iniciar operações de crawling no site de destino

Use o comando Create Crawl comando POST do Open Crawler para iniciar um rastreamento completo do site.

open-crawler-create

Especifique o URL inicial, limites de escopo, taxa de requisições e tipo de proxy:

bash
# Submit a crawl
curl -X POST http://localhost:8001/api/v1/crawl \
  -H "Content-Type: application/json" \
  -d '{
    "seed_url": "https://example.com",
    "scope": {
        "mode": "same-domain", 
        "max_depth": 2, 
        "max_pages": 50, 
        "per_domain_rps": 1.0, 
        "per_domain_concurrency": 1
    },
    "scrape_options": {
        "proxy_type": "res_rotating"
    },
    "crawl_proxy": null,
    "enable_scraping": false

  }'

# {"job_id":"crawl_abc123"} 

Parâmetros principais a configurar:

  • seed_url para o URL inicial do site de destino

  • max_pages / max_depth  para limites de escopo que controlam a abrangência e o custo

  • per_domain_rps para requisições por segundo; mantenha em 1.0 para evitar acionamento de limites de taxa

  • proxy_type deve ser definido como res_rotating para a maioria dos casos de uso

Uma vez iniciado, você recebe um job_id (neste exemplo, crawl_abc123). Use-o para monitorar e gerenciar o rastreamento:

bash
# Poll crawl status
curl http://localhost:8001/api/v1/crawl/crawl_abc123

# Retrieve full results (all visited pages + stats)
curl http://localhost:8001/api/v1/crawl/crawl_abc123/results

# Live event stream (SSE)
curl -N http://localhost:8001/api/v1/crawl/crawl_abc123/events

# Cancel softly (drains in-flight requests)
curl -X DELETE "http://localhost:8001/api/v1/crawl/crawl_abc123?hard=false"

# Cancel hard (aborts all in-flight tasks immediately)
curl -X DELETE "http://localhost:8001/api/v1/crawl/crawl_abc123?hard=true" 

Leia mais sobre ferramentas de análise web no blog do CyberYozh.

3. Extraia e analise dados do site de destino

Para extração de página única, use o comando Scrape Page do Open Scraper

open-scraper-scrape-page

Com b, o processo é fácil:

bash
curl -s -X POST http://localhost:8000/api/v1/scrape/page \

  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com",
    "proxy_type": "res_rotating"
  }' 

Para extrair múltiplas páginas em um único trabalho, use Scrape Pages:

bash
curl -s -X POST http://localhost:8000/api/v1/scrape/pages \
  -H "Content-Type: application/json" \
  -d '{
    "pages": [
      {"url":"https://example.com","proxy_type":"res_rotating"},
      {"url":"https://example.org","proxy_type":"res_rotating"}
    ]
  }' 

De forma semelhante ao rastreamento, ambos os comandos retornam um job_id. Use-o para verificar o status e recuperar os resultados:

bash
# Check scrape status
curl -s http://localhost:8000/api/v1/scrape/<your_job_id>


# Fetch scrape results
curl -s http://localhost:8000/api/v1/scrape/<your_job_id>/results 

Para configurações avançadas de repetição e tratamento de erros em scrapers baseados em Python, consulte Otimização de repetição de requisições Python.

4. Use predefinições para extração otimizada

O Open Scraper inclui predefinições pré-construídas para fontes de dados populares. Em vez de configurar seletores manualmente, selecione um nome de fonte e passe o parâmetro necessário:

nome

fonte

parâmetros

locais

amazon_product

amazon

asin

us, uk, de, fr, jp

amazon_search

amazon

consulta

us, uk, de

google_search

google

consulta

us, uk, de, fr, ru, jp

google_shopping

google

consulta

us, uk, de

ebay_search

ebay

consulta

us, uk, de

walmart_product

walmart

product_id

us

youtube_video

youtube

video_id

global

linkedin_profile

linkedin

nome de usuário

global (necessita sessão autenticada)

Para extrair dados usando uma predefinição, use a Página de Predefinição de Extração ou Páginas de Preset de Scraping comando:

bash
curl -X POST http://localhost:8000/api/v1/scrape/preset/page \

  -H 'Content-Type: application/json' \
  -d '{
    "source": "amazon_product",
    "preset_params": {"asin": "B08N5WRWNW"},
    "locale": "us",
    "llm": {"model": "openai/gpt-5.4-mini"}
  }'

# -> {"job_id": "..."}  then GET /api/v1/scrape/<job_id>/results 

O parâmetro opcional llm ativa um modelo de IA para autocorreção durante a análise. Para usá-lo, você deve adicionar a chave de API do provedor de LLM correspondente (por exemplo, OPENAI_API_KEY) ao seu arquivo .env junto com sua CYBERYOZH_API_KEY.

🤖

A análise assistida por LLM pode ser útil para estruturas de página inconsistentes ou dinâmicas onde os seletores CSS sozinhos podem perder conteúdo.

5. Iniciar sessões persistentes

Sessões persistentes permitem que o Open Scraper mantenha um estado consistente do navegador, incluindo cookies, autenticação e endereço IP, em várias solicitações. Use-as para scraping por trás de muros de login.

Criar uma sessão:

bash
curl -X POST http://localhost:8000/api/v1/sessions \

  -H 'content-type: application/json' \
  -d '{"device":"desktop","proxy_type":"res_rotating","ttl_seconds":3600}'

Autenticar a sessão com um script de login:

bash
curl -X POST http://localhost:8000/api/v1/sessions/$ID/login \

  -H 'content-type: application/json' \
  -d '{
    "creds":{"email":"tomsmith","password":"SuperSecretPassword!"},
    "script":{
      "steps":[
        # Your target website
        {"op":"goto","url":"https://the-internet.herokuapp.com/login"}, 
        {"op":"fill","selector":"#username","value":"$creds_email"},
        {"op":"fill","selector":"#password","value":"$creds_password"},
        {"op":"click","selector":"button[type=submit]"},
        {"op":"wait_for_selector","selector":".flash.success"}
      ],
      "success_selector":".flash.success"
    }
  }' 

Alternativamente, injete cookies de sessão diretamente:

bash
curl -X POST http://localhost:8000/api/v1/sessions/$ID/cookies \

  -H 'content-type: application/json' \
  -d '{"cookies":[{"name":"sessionid","value":"abc","domain":".example.com","path":"/","expires":1800000000,"httpOnly":true,"secure":true,"sameSite":"Lax"}]}' 

Uma vez que a sessão esteja autenticada, passe o session_id em qualquer comando subsequente Scrape Page ou Scrape Pages para continuar sob o mesmo estado autenticado.

🍪

Sessão Persistente é um contexto de navegador persistente que retém cookies, tokens de autenticação e atribuição de proxy em várias solicitações. Crítico para scraping de plataformas que exigem login ou mantêm estado anti-bot em visualizações de página.

Conclusão: Web scraping e automação gratuitamente

Open Scraper e Open Crawler são ferramentas prontas para produção, gratuitas e de código aberto para scraping, crawling e extração de dados estruturados. Instale-as com Docker em 20 minutos, conecte seu proxy CyberYozh em duas linhas de configuração .env e execute todas as operações via curl sem necessidade de programação.

FAQ sobre o Open Scraper da CyberYozh

Qual é a melhor ferramenta gratuita de web scraping disponível hoje?

CyberYozh Open Scraper é uma das melhores opções gratuitas e de código aberto: não requer assinatura, roda localmente via Docker e integra rotação de proxy pronta para uso.

O CyberYozh Open Scraper é realmente gratuito?

Sim, a ferramenta em si é totalmente gratuita e de código aberto. Você só paga por proxies se precisar deles para proteção anti-banimento ou geotargeting.

Quais são as melhores ferramentas de web scraping de código aberto?

As opções populares incluem Scrapy, Playwright, Puppeteer e CyberYozh Open Scraper, que combina de forma única uma interface API pronta com infraestrutura de proxy nativa.

Preciso de um proxy para web scraping?

Nem sempre, mas para scraping em grande escala ou comercial, um serviço de proxy para web scraping é essencial para evitar bloqueios de IP e contornar limites de taxa.

O que é um serviço de proxy para web scraping?

Um serviço de proxy para web scraping encaminha as solicitações do seu scraper através de um conjunto de IPs reais, fazendo com que cada solicitação pareça originar-se de um utilizador legítimo diferente.

Qual é a diferença entre proxies rotativos e estáticos para scraping?

Os proxies rotativos atribuem um novo endereço IP por solicitação para fornecer anonimato em escala. Os proxies estáticos mantêm um IP fixo, adequados para tarefas baseadas em sessão ou específicas de conta.

Posso usar uma API gratuita de web scraping sem experiência em programação?

Sim. A documentação localhost do Open Scraper fornece scripts API pré-construídos: basta preencher um URL e o tipo de proxy e clicar em executar. Nenhum código personalizado é necessário.

Que tipo de proxy devo usar para scraping de redes sociais?

Os proxies móveis oferecem a pontuação de confiança mais alta e são os melhores para Instagram, TikTok e plataformas semelhantes centradas em dispositivos móveis que filtram agressivamente o tráfego não móvel.

Como evito ser bloqueado durante o web scraping?

Use proxies residenciais ou móveis rotativos, limite as solicitações por segundo (per_domain_rps), ative o modo stealth e alterne os cabeçalhos user-agent com cada solicitação.

O Open Scraper consegue lidar com páginas renderizadas em JavaScript?

Sim. O Open Scraper é construído sobre o Playwright, que renderiza sessões completas de navegador incluindo JavaScript, SPAs e conteúdo carregado dinamicamente.

Qual é a diferença entre web scraping e web crawling?

O crawling mapeia e indexa URLs num site; o scraping extrai dados estruturados dessas páginas. O Open Scraper inclui ambas as ferramentas: Open Crawler para descoberta, Open Scraper para extração.

Como configuro um proxy de web scraping para o Open Scraper?

Adicione a sua chave API CyberYozh ao ficheiro .env sob CYBERYOZH_API_KEY, depois defina proxy_type como res_rotating em qualquer comando de scraping. É tudo.