CyberYozh Open Scraper: Guia oficial

O CyberYozh possui sua própria ferramenta de scraping gratuita e de código aberto: Open Scraper. Está disponível no GitHub, instala-se com Docker em aproximadamente 20 minutos, implementa-se em localhost e é acessível através de qualquer navegador web. Apenas conhecimentos mínimos de programação são necessários, pois o Open Scraper inclui scripts de código pré-definidos para operações de scraping, crawling e gestão de sessões, e você só precisa definir um proxy e um site de destino.

💡

Não perca tempo e confira o Open Scraper no GitHub agora mesmo.

Preparando o Open Scraper: Escolhendo um proxy

Antes de começar o seu scraping, é essencial selecionar o tipo de proxy adequado.

⭐

Registe-se no CyberYozh agora se ainda não o fez. Depois disso, vamos selecionar o melhor proxy para a sua tarefa.

Proxies residenciais: Scraping de preços, treino de IA e a maioria das tarefas

Proxies residenciais rotativos constituem a opção mais comum para scraping e automação em larga escala. Utilizam pools massivos de IPs de endereços residenciais reais em todo o mundo, fazendo com que cada pedido pareça vir de um utilizador orgânico diferente. Isto torna-os ideais para:

Monitorização de preços de e-commerce
Recolha de conjuntos de dados para IA/ML
Inteligência competitiva e de marca
Verificação de anúncios e pesquisa de mercado

🏠

Proxies residenciais estáticos normalmente não são utilizados para scraping. Fornecem um único endereço IP isolado e de longo prazo para operações como gestão de perfil único. Em alguns casos, vários IPs estáticos podem ser utilizados, com cada sessão atribuída a um único IP.

Proxies móveis: Scraping social de alta precisão

Proxies móveis têm a pontuação de confiança mais elevada e são otimizados para aplicações mobile-first, tornando-os a opção principal para aplicações como Instagram e TikTok. Encaminham o tráfego através de redes de operadoras LTE/5G reais, tornando-os indistinguíveis de utilizadores de smartphones. Utilize-os para:

Scraping de dados de redes sociais
Análises de influenciadores e audiências
Plataformas baseadas em aplicações

📚

Veja a comparação entre proxies móveis e residenciais para uma análise completa.

Proxies de datacenter: Scraping de dados abertos e testes

Proxies de datacenter são muito rápidos, mas estão associados a tráfego não residencial, semelhante a bots, pelo que são bloqueados por muitas plataformas protegidas. Utilize-os para:

Scraping de bases de dados abertas
Testes e desenvolvimento

📚

Leia exatamente como os proxies de datacenter diferem dos residenciais e quando usar cada um.

Descarregar e instalar o Open Scraper com Docker

Como mencionado, o Open Scraper pode ser instalado em menos de 20 minutos. Requer Docker e pode ser acedido via localhost usando o seu navegador, o que pode parecer estranho no início, mas é muito fácil.

⭐

O CyberYozh tem o IP Checker: uma ferramenta que garante a qualidade dos IPs antes da implementação. Embora ninguém possa garantir uma taxa de sucesso de 100%, podemos maximizá-la eliminando IPs deliberadamente de baixa qualidade.

Use o IP Checker e aprenda a automatizá-lo na nossa documentação da API.

Instalar o Docker

Aceda ao site do Docker e descarregue o Docker Desktop para o seu sistema operativo (Windows, macOS ou Linux).

Execute o instalador e siga os passos no ecrã. O Docker Desktop é gratuito para uso pessoal. Após a instalação, inicie o Docker Desktop e confirme que está em execução antes de prosseguir.

Descarregar o Open Scraper do GitHub

Aceda ao repositório do Open Scraper no GitHub. Clique no botão verde Code e selecione Download ZIP.

Em alternativa, clone via Git:

bash

git clone https://github.com/CyberYozh-data/yozh-scraper

cd yozh-scraper

Navegue para a pasta antes de prosseguir para o passo de construção.

Leia mais sobre proxy do GitHub

Construir o Open Scraper com Docker

Crie o ficheiro de ambiente e adicione a sua chave API do CyberYozh:

bash

cp .env.example .env    # create the environment file

# Open .env and set: CYBERYOZH_API_KEY="your_key_here"

Depois, construa e inicie todos os serviços com um único comando:

bash

docker compose up --build

O Docker irá obter todas as dependências e iniciar os contentores do Open Scraper e Open Crawler automaticamente. Abra o Docker para verificar que está em execução:

Aceder ao Open Scraper através de qualquer navegador

Ambas as ferramentas estão agora em execução no localhost (127.0.0.1) através de portas específicas. Verifique se estão ativas usando curl:

bash

curl http://localhost:8000/api/v1/health

# {"status":"ok","workers":2}


curl http://localhost:8001/api/v1/health

# {"status":"ok","workers":2,"scraper_reachable":true,...}

Aceda à documentação interativa da API:

Open Scraper: http://localhost:8000/docs#/
Abrir Crawler: http://localhost:8001/docs#/

Ambas as páginas de documentação contêm scripts executáveis com parâmetros pré-definidos. Você não precisa escrever nenhum código adicional; apenas preencha seus valores de destino. Isso pode ser feito facilmente usando o comando curl , conforme mostrado na próxima seção.

⚙️

Para scraping avançado, explore o guia de configuração do Playwright e configuração de proxy em Python.

Usar Open Scraper e Open Crawler

Após a configuração, você tem duas interfaces de API acessíveis pelo navegador. Todas as operações podem ser acionadas lançando comandos de API através da GUI (clique em Try it out em qualquer endpoint) ou enviando comandos curl diretamente do seu terminal. Abaixo estão todas as operações principais.

🔁

Explore as melhores estratégias de rotação de IP para casos de uso específicos para configurar seus proxies da melhor forma.

1. Adicionar um proxy ao Open Scraper via chave de API

Abra o arquivo .env na raiz do projeto e defina sua chave de API do CyberYozh:

plaintext

CYBERYOZH_API_KEY="your_key_here"

Em seguida, nos scripts de API (ou via comandos curl , como você verá adiante), especifique o parâmetro proxy_type para ativar um proxy. O valor padrão é none (conexão direta):

proxy_type	O que é
res_rotating	Residencial rotativo — padrão recomendado
res_static	Residencial estático (IP dedicado)
mobile	Móvel / LTE, dedicado
mobile_shared	Móvel / LTE, pool partilhado
dc_static	Datacenter estático
none	Ligação direta, sem proxy

Para geotargeting, adicione o dicionário proxy_geo a qualquer script com os seguintes campos:

Campo	Tipo	Descrição
country_code	string	ISO 3166-1 alpha-2 (por exemplo, «US», «GB»)
region	string	Nome da região/estado
city	string	Nome da cidade (por exemplo, «London»)

Leia mais sobre geotargeting e as suas especificidades no artigo do CyberYozh.

Todos os comandos de crawling e scraping podem ser submetidos via curl a partir do seu terminal ou executados interativamente através das páginas de documentação localhost. Vejamos mais de perto.

2. Iniciar operações de crawling no site de destino

Use o comando Create Crawl comando POST do Open Crawler para iniciar um rastreamento completo do site.

Especifique o URL inicial, limites de escopo, taxa de requisições e tipo de proxy:

bash

# Submit a crawl
curl -X POST http://localhost:8001/api/v1/crawl \
  -H "Content-Type: application/json" \
  -d '{
    "seed_url": "https://example.com",
    "scope": {
        "mode": "same-domain", 
        "max_depth": 2, 
        "max_pages": 50, 
        "per_domain_rps": 1.0, 
        "per_domain_concurrency": 1
    },
    "scrape_options": {
        "proxy_type": "res_rotating"
    },
    "crawl_proxy": null,
    "enable_scraping": false

  }'

# {"job_id":"crawl_abc123"}

Parâmetros principais a configurar:

seed_url para o URL inicial do site de destino
max_pages / max_depth para limites de escopo que controlam a abrangência e o custo
per_domain_rps para requisições por segundo; mantenha em 1.0 para evitar acionamento de limites de taxa
proxy_type deve ser definido como res_rotating para a maioria dos casos de uso

Uma vez iniciado, você recebe um job_id (neste exemplo, crawl_abc123). Use-o para monitorar e gerenciar o rastreamento:

bash

# Poll crawl status
curl http://localhost:8001/api/v1/crawl/crawl_abc123

# Retrieve full results (all visited pages + stats)
curl http://localhost:8001/api/v1/crawl/crawl_abc123/results

# Live event stream (SSE)
curl -N http://localhost:8001/api/v1/crawl/crawl_abc123/events

# Cancel softly (drains in-flight requests)
curl -X DELETE "http://localhost:8001/api/v1/crawl/crawl_abc123?hard=false"

# Cancel hard (aborts all in-flight tasks immediately)
curl -X DELETE "http://localhost:8001/api/v1/crawl/crawl_abc123?hard=true"

Leia mais sobre ferramentas de análise web no blog do CyberYozh.

3. Extraia e analise dados do site de destino

Para extração de página única, use o comando Scrape Page do Open Scraper

Com b, o processo é fácil:

bash

curl -s -X POST http://localhost:8000/api/v1/scrape/page \

  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com",
    "proxy_type": "res_rotating"
  }'

Para extrair múltiplas páginas em um único trabalho, use Scrape Pages:

bash

curl -s -X POST http://localhost:8000/api/v1/scrape/pages \
  -H "Content-Type: application/json" \
  -d '{
    "pages": [
      {"url":"https://example.com","proxy_type":"res_rotating"},
      {"url":"https://example.org","proxy_type":"res_rotating"}
    ]
  }'

De forma semelhante ao rastreamento, ambos os comandos retornam um job_id. Use-o para verificar o status e recuperar os resultados:

bash

# Check scrape status
curl -s http://localhost:8000/api/v1/scrape/<your_job_id>


# Fetch scrape results
curl -s http://localhost:8000/api/v1/scrape/<your_job_id>/results

Para configurações avançadas de repetição e tratamento de erros em scrapers baseados em Python, consulte Otimização de repetição de requisições Python.

4. Use predefinições para extração otimizada

O Open Scraper inclui predefinições pré-construídas para fontes de dados populares. Em vez de configurar seletores manualmente, selecione um nome de fonte e passe o parâmetro necessário:

nome	fonte	parâmetros	locais
amazon_product	amazon	asin	us, uk, de, fr, jp
amazon_search	amazon	consulta	us, uk, de
google_search	google	consulta	us, uk, de, fr, ru, jp
google_shopping	google	consulta	us, uk, de
ebay_search	ebay	consulta	us, uk, de
walmart_product	walmart	product_id	us
youtube_video	youtube	video_id	global
linkedin_profile	linkedin	nome de usuário	global (necessita sessão autenticada)

Para extrair dados usando uma predefinição, use a Página de Predefinição de Extração ou Páginas de Preset de Scraping comando:

bash

curl -X POST http://localhost:8000/api/v1/scrape/preset/page \

  -H 'Content-Type: application/json' \
  -d '{
    "source": "amazon_product",
    "preset_params": {"asin": "B08N5WRWNW"},
    "locale": "us",
    "llm": {"model": "openai/gpt-5.4-mini"}
  }'

# -> {"job_id": "..."}  then GET /api/v1/scrape/<job_id>/results

O parâmetro opcional llm ativa um modelo de IA para autocorreção durante a análise. Para usá-lo, você deve adicionar a chave de API do provedor de LLM correspondente (por exemplo, OPENAI_API_KEY) ao seu arquivo .env junto com sua CYBERYOZH_API_KEY.

🤖

A análise assistida por LLM pode ser útil para estruturas de página inconsistentes ou dinâmicas onde os seletores CSS sozinhos podem perder conteúdo.

5. Iniciar sessões persistentes

Sessões persistentes permitem que o Open Scraper mantenha um estado consistente do navegador, incluindo cookies, autenticação e endereço IP, em várias solicitações. Use-as para scraping por trás de muros de login.

Criar uma sessão:

bash

curl -X POST http://localhost:8000/api/v1/sessions \

  -H 'content-type: application/json' \
  -d '{"device":"desktop","proxy_type":"res_rotating","ttl_seconds":3600}'

Autenticar a sessão com um script de login:

bash

curl -X POST http://localhost:8000/api/v1/sessions/$ID/login \

  -H 'content-type: application/json' \
  -d '{
    "creds":{"email":"tomsmith","password":"SuperSecretPassword!"},
    "script":{
      "steps":[
        # Your target website
        {"op":"goto","url":"https://the-internet.herokuapp.com/login"}, 
        {"op":"fill","selector":"#username","value":"$creds_email"},
        {"op":"fill","selector":"#password","value":"$creds_password"},
        {"op":"click","selector":"button[type=submit]"},
        {"op":"wait_for_selector","selector":".flash.success"}
      ],
      "success_selector":".flash.success"
    }
  }'

Alternativamente, injete cookies de sessão diretamente:

bash

curl -X POST http://localhost:8000/api/v1/sessions/$ID/cookies \

  -H 'content-type: application/json' \
  -d '{"cookies":[{"name":"sessionid","value":"abc","domain":".example.com","path":"/","expires":1800000000,"httpOnly":true,"secure":true,"sameSite":"Lax"}]}'

Uma vez que a sessão esteja autenticada, passe o session_id em qualquer comando subsequente Scrape Page ou Scrape Pages para continuar sob o mesmo estado autenticado.

🍪

Sessão Persistente é um contexto de navegador persistente que retém cookies, tokens de autenticação e atribuição de proxy em várias solicitações. Crítico para scraping de plataformas que exigem login ou mantêm estado anti-bot em visualizações de página.

Conclusão: Web scraping e automação gratuitamente

Open Scraper e Open Crawler são ferramentas prontas para produção, gratuitas e de código aberto para scraping, crawling e extração de dados estruturados. Instale-as com Docker em 20 minutos, conecte seu proxy CyberYozh em duas linhas de configuração .env e execute todas as operações via curl sem necessidade de programação.

FAQ sobre o Open Scraper da CyberYozh

Qual é a melhor ferramenta gratuita de web scraping disponível hoje?

CyberYozh Open Scraper é uma das melhores opções gratuitas e de código aberto: não requer assinatura, roda localmente via Docker e integra rotação de proxy pronta para uso.

O CyberYozh Open Scraper é realmente gratuito?

Sim, a ferramenta em si é totalmente gratuita e de código aberto. Você só paga por proxies se precisar deles para proteção anti-banimento ou geotargeting.

Quais são as melhores ferramentas de web scraping de código aberto?

As opções populares incluem Scrapy, Playwright, Puppeteer e CyberYozh Open Scraper, que combina de forma única uma interface API pronta com infraestrutura de proxy nativa.

Preciso de um proxy para web scraping?

Nem sempre, mas para scraping em grande escala ou comercial, um serviço de proxy para web scraping é essencial para evitar bloqueios de IP e contornar limites de taxa.

O que é um serviço de proxy para web scraping?

Um serviço de proxy para web scraping encaminha as solicitações do seu scraper através de um conjunto de IPs reais, fazendo com que cada solicitação pareça originar-se de um utilizador legítimo diferente.

Qual é a diferença entre proxies rotativos e estáticos para scraping?

Os proxies rotativos atribuem um novo endereço IP por solicitação para fornecer anonimato em escala. Os proxies estáticos mantêm um IP fixo, adequados para tarefas baseadas em sessão ou específicas de conta.

Posso usar uma API gratuita de web scraping sem experiência em programação?

Sim. A documentação localhost do Open Scraper fornece scripts API pré-construídos: basta preencher um URL e o tipo de proxy e clicar em executar. Nenhum código personalizado é necessário.

Que tipo de proxy devo usar para scraping de redes sociais?

Os proxies móveis oferecem a pontuação de confiança mais alta e são os melhores para Instagram, TikTok e plataformas semelhantes centradas em dispositivos móveis que filtram agressivamente o tráfego não móvel.

Como evito ser bloqueado durante o web scraping?

Use proxies residenciais ou móveis rotativos, limite as solicitações por segundo (per_domain_rps), ative o modo stealth e alterne os cabeçalhos user-agent com cada solicitação.

O Open Scraper consegue lidar com páginas renderizadas em JavaScript?

Sim. O Open Scraper é construído sobre o Playwright, que renderiza sessões completas de navegador incluindo JavaScript, SPAs e conteúdo carregado dinamicamente.

Qual é a diferença entre web scraping e web crawling?

O crawling mapeia e indexa URLs num site; o scraping extrai dados estruturados dessas páginas. O Open Scraper inclui ambas as ferramentas: Open Crawler para descoberta, Open Scraper para extração.

Como configuro um proxy de web scraping para o Open Scraper?

Adicione a sua chave API CyberYozh ao ficheiro .env sob CYBERYOZH_API_KEY, depois defina proxy_type como res_rotating em qualquer comando de scraping. É tudo.