Prêmio Principal

GRANDE PRÊMIO DO CYBERYOZH APP.

Ganhe um Apple MacBook, $2000, iPad e um montão de outros prêmios!

Participar










Como usar proxies para recolher dados de marketplaces (análise, pesquisa, inteligência competitiva)

No mundo do e-commerce, os dados são o novo petróleo. Quem detém a informação sobre preços, sortido e estratégias dos concorrentes, domina o mercado. Marketplaces como Amazon, Ozon, Wildberries ou Alibaba são bases de dados gigantescas e constantemente atualizadas que contêm esta informação valiosa. Obtê-la significa ganhar uma vantagem competitiva decisiva.

A única forma de extrair estes dados em escala industrial é através do parsing (ou web scraping). Mas há um problema: os marketplaces sabem perfeitamente disso e protegem-se ativamente.

Neste artigo, vamos analisar como funciona a proteção dos marketplaces e como, utilizando os proxies e as tecnologias adequadas, é possível construir um sistema eficaz de recolha de dados para análise e inteligência competitiva.

Nota importante: Ao automatizar a recolha de dados, certifique-se de que as suas ações estão em conformidade com a legislação (incluindo GDPR e DMCA) e não violam os Termos de Uso (ToS) das plataformas de destino. Utilize os proxies de forma responsável: evite criar uma carga crítica nos servidores e respeite a ética do web scraping.


Por que os marketplaces não querem ser monitorizados por parsing?

A recolha manual de dados é ineficiente e lenta. A recolha automatizada (parsing) permite obter enormes volumes de dados em pouco tempo. É por isso que os marketplaces constroem verdadeiras linhas de defesa:

  • Bloqueio por IP. O método de proteção mais básico e eficaz. Se uma quantidade anomalamente grande de pedidos vier de um único endereço IP, este entra imediatamente numa lista de bloqueio temporária ou permanente.
  • Rate Limiting (limitação de frequência). O sistema permite, por exemplo, não mais de 30 pedidos por minuto de um único IP. Tudo o que exceder o limite é bloqueado.
  • CAPTCHA. Se o sistema detetar sinais de automatização, apresenta ao utilizador um captcha que um parser padrão não consegue resolver.
  • Geobloqueios. Preços, stock e condições de entrega no mesmo marketplace podem variar drasticamente para utilizadores nos EUA ou em Portugal. Sem um endereço IP da região correta, simplesmente não verá os dados relevantes.
  • Análise de Fingerprint (impressão digital). Sistemas avançados analisam centenas de parâmetros do seu navegador. Exemplos do que os marketplaces verificam:

    • Canvas e WebGL fingerprinting: os sites obrigam o navegador a desenhar uma figura invisível. A forma exata como a sua placa de vídeo e drivers renderizam os píxeis cria um identificador único do dispositivo.

    • Impressões digitais de áudio: verificação de como o seu sistema processa sinais de áudio.

    • Cabeçalhos técnicos: a discrepância entre a versão do User-Agent e as fontes instaladas ou a resolução do ecrã marca-o instantaneamente como um bot.


Proxy — a sua chave para os dados. Mas não um qualquer.

Um servidor proxy é a base tecnológica de qualquer parser profissional. Atua como um intermediário inteligente: oculta o seu endereço real e permite simular pedidos de milhares de utilizadores únicos de qualquer parte do mundo.

No entanto, vale a pena entender: na realidade atual, mesmo os proxies de melhor qualidade não garantem 100% de proteção contra bloqueios se forem usados isoladamente. Os marketplaces analisam um conjunto de fatores. Se o seu IP for um endereço residencial "limpo", mas a impressão digital (Fingerprint) revelar que é um bot, o sistema aplicará restrições.

Para obter o máximo resultado, os proxies devem ser combinados com tecnologias anti-deteção, configuração correta de cabeçalhos (headers) e intervalos entre pedidos que imitem o comportamento humano.

Por que o tipo de proxy é crucial?

Nem todos os tipos de conexão são adequados para o parsing de marketplaces. Abaixo, analisaremos os principais tipos e determinaremos para quais tarefas cada um será mais eficaz.

Tipos de proxy e a sua aplicabilidade:

Proxies residenciais rotativos  — escolha nº 1 para parsing em massa

São endereços IP dinâmicos de utilizadores domésticos reais.

  • Vantagens: Enormes pools (milhões de IPs) em todo o mundo. Um pedido de tal endereço parece, para o marketplace, a visita de um comprador comum através do seu Wi-Fi doméstico.

  • Veredicto: Ideais para a recolha de grandes volumes de dados: monitorização de preços, stocks e conteúdo de fichas de produtos.

  • Configuração flexível de sessões: Dependendo das suas necessidades, pode escolher um dos três modos de funcionamento:

    1. IP Aleatório: Mudança automática de endereço para cada novo pedido.

    2. Sessão Curta: Retenção de um IP por um período de até 1 minuto (útil para cadeias rápidas de ações).

    3. Sessão Longa (Sticky): Fixação do IP por um longo período — estritamente até 6 horas (necessário para simular uma permanência longa do utilizador no site).

Proxies residenciais estáticos (ISP)  — para trabalhar a longo prazo

São IPs limpos de provedores domésticos que ficam atribuídos a si durante todo o período de aluguer.

  • Vantagens: Combinam a confiança de um endereço residencial com a estabilidade de um canal de servidor. O IP não muda, o que é crucial para sistemas de proteção.

  • Veredicto: Indispensáveis para gestão de contas de vendedor, administração de painéis publicitários e trabalho em áreas pessoais, onde qualquer mudança ou rotação de IP pode levar ao bloqueio instantâneo do perfil.

Proxies móveis privados  — a solução definitiva

Utilizam endereços IP de operadoras móveis (4G/5G).

  • Vantagens: Nível máximo de confiança. Graças à tecnologia CGNAT, um único IP é partilhado por milhares de pessoas reais, por isso os marketplaces quase nunca bloqueiam estes endereços.

  • Portas Dedicadas: Para casos ultra-complexos (registo de contas, contornar proteção nível Amazon/Akamai), recomendamos portas móveis dedicadas. Oferecem um canal individual, velocidade máxima e estabilidade sem "vizinhos".

Proxies de Datacenter (Servidor)
    • Vantagens: Alta velocidade e preço baixo.

    • Veredicto: Adequados apenas para sites pequenos e pouco protegidos ou trabalho via APIs oficiais. Os grandes marketplaces identificam-nos como "bots" e bloqueiam sub-redes inteiras.


Especificidades de trabalhar com Proxies Móveis na interface

A gestão de proxies móveis tem as suas características únicas na conta pessoal. Ao contrário de outros tipos, no cartão deste produto está previsto um link API especial para rotação (mudança de IP). Deve encontrá-lo na interface, pois é este endereço que é usado para a atualização automática do IP dentro do seu código ou script.

Localização do link para rotação automática no cartão de Proxies Móveis

Fig. 1. Localização do link para rotação automática no cartão de Proxies Móveis.

Além da automatização via software, na CyberYozh App está implementada a possibilidade de gestão manual. Se precisar de atualizar o endereço IP instantaneamente, sem esperar pelo script, pode fazê-lo com um clique diretamente no painel de controlo.

Botão para mudança manual forçada de endereço IP na conta pessoal

Fig. 2. Botão para mudança manual forçada de endereço IP na conta pessoal.


Detalhes Técnicos: Sessões, Rotação e Infraestrutura

Escolher o tipo de proxy é apenas o começo. Para um parsing profissional, outros parâmetros são fundamentais.

  • Infraestrutura de parsing. Lembre-se que o proxy é apenas parte do sistema. Um parsing eficaz requer:
  • Um parser fiável: Script ou programa (por exemplo, em Python usando bibliotecas como Scrapy, BeautifulSoup, Selenium), capaz de processar código HTML.
  • Rotação de User-Agent e Headers: O seu parser deve fingir ser diferentes navegadores e dispositivos, mudando constantemente não só o IP, mas também os cabeçalhos técnicos.
  • Tratamento de erros: Mecanismo que processe corretamente bloqueios temporários, captchas e erros, repetindo pedidos falhados através de outro proxy.

A gestão de proxies residenciais rotativos é implementada de forma muito flexível. Pode configurar os parâmetros manualmente via prefixos no login ou utilizar o gerador integrado na conta pessoal.

Gestão via conta pessoal (Método recomendado)

Para obter configurações prontas, basta aceder à secção «Os meus proxies» e, no cartão do pacote adquirido, clicar no botão «Gerar credenciais».

No menu que se abre, pode selecionar visualmente:

  • Geolocalização: país, região/estado e cidade específica (para sessões longas, apenas o país).

  • Tipo de sessão: IP aleatório, sessão curta (ID da sessão - até 1 minuto) ou sessão longa (ID da sessão longa - até 6 horas).

  • Protocolo: HTTP ou SOCKS5.

  • Formato de saída: No nosso gerador estão disponíveis 3 formatos para cópia fácil em qualquer software:

    • IP:PORT (IP:PORT:USER:PASS)

    • USER:PASS (USER:PASS@IP:PORT)

    • PROTOCOL (http://USER:PASS@IP:PORT)

O gerador formará automaticamente a string de conexão correta com todos os prefixos necessários.

Acesso à interface de criação de configurações e parâmetros de conexão

Fig. 3. Acesso à interface de criação de configurações e parâmetros de conexão (gerador de credenciais).

 

Uso do gerador para configurar o parâmetro sid

Fig. 4. Uso do gerador para configurar o parâmetro sid, responsável pela criação de novas sessões únicas.

 

Configuração de parâmetros para sessões longas (Sticky)

Fig. 5. Configuração de parâmetros para formação de credenciais usando sessões longas (Sticky).

 

Resultado do gerador de credenciais

Fig. 6. Resultado do gerador de credenciais.

Tipos de sessões e gestão manual de prefixos

Se configurar a lógica de mudança de IP diretamente no código do seu script, use o sistema de prefixos:

Tipo de sessãoPrefixo no loginGeo-targetingDuração do IP
IP Aleatório-res-anyPaísNovo IP a cada pedido
Sessão Curta-res-any-sid-XXXXXXXXCidade, Região, PaísAté 1 minuto
Longa (Sticky)-resfix-XX-nnid-TOKENPaís (XX — código do país)Até 6 horas

Notas importantes da configuração manual:

  • Sessões curtas: No prefixo -sid-47551677 pode usar qualquer número aleatório com o mesmo comprimento para criar instantaneamente uma nova sessão.

  • Geo-prefixo em sessões curtas: Por exemplo, -res_sc-us_georgia_macon-sid-12345 direcionará o tráfego através da cidade de Macon, no estado da Geórgia.

  • Sessões Longas (Sticky): Para trabalhar manualmente, deve obter o token X-NN-LLS através de um pedido curl de teste e substituí-lo no login em vez do 0 após -nnid-. Através do gerador na conta pessoal, este token é inserido automaticamente.


Verificação do proxy via terminal (curl)

A forma mais rápida de garantir que tudo está configurado corretamente é executar um pedido na consola. Isso permite ver os cabeçalhos técnicos do servidor e verificar se os prefixos estão a funcionar.

1. Verificação de IP residencial aleatório

Use este formato se precisar de alta rotação (mudança de IP a cada pedido):

curl -v -x http://LOGIN-res-any:PASSWORD@51.77.190.247:5959 https://ipv4.icanhazip.com

2. Trabalho com sessão longa (Sticky até 6 horas)

Para ativação manual da sessão longa, é necessário passar por duas etapas:

Etapa A: Obtenção do token de sessão Execute o pedido, indicando 0 no parâmetro nnid:

curl -v -x http://LOGIN-resfix-us-nnid-0:PASSWORD@51.77.190.247:5959 https://ipv4.icanhazip.com

Aqui us é o prefixo do país (USA), que pode ser substituído pelo código de qualquer outro país disponível.

Etapa B: Extração e uso do token

Na resposta do servidor, procure a linha com o cabeçalho X-NN-LLS: HTTP/1.1 200 Connection established X-NN-LLS: 9d016e262509d3827293

Copie o token obtido (9d016e262509d3827293) e coloque-o em vez do 0 no login para todos os pedidos seguintes, para manter o mesmo IP: 51.77.190.247:5959:LOGIN-resfix-us-nnid-9d016e262509d3827293:PASSWORD

💡 Dica: Para não ter de realizar estas ações manualmente, utilize o Gerador de Credenciais na conta pessoal da CyberYozh App. Ao escolher «ID de sessão longa», o sistema gerará e fornecerá automaticamente um login pronto com um token já ativo para o país selecionado.


Conclusão: Dos dados à estratégia

A inteligência competitiva em marketplaces não é magia, é tecnologia. Baseia-se num processo de recolha de dados bem estruturado, e o alicerce desse processo são proxies de qualidade e bem escolhidos.

Poupar em proxies no parsing é o erro mais caro, que leva a dados incompletos, ferramentas bloqueadas e, por fim, a decisões de negócio erradas. Invista numa infraestrutura fiável e terá acesso à informação que será o seu principal trunfo na luta competitiva.

👉 Procura uma solução fiável para parsing? Os nossos proxies residenciais rotativos oferecem acesso a milhões de IPs limpos em todo o mundo com gestão de sessões flexível. É a ferramenta ideal para recolha de dados em qualquer marketplace, mesmo nos mais protegidos.