Prêmio Principal

GRANDE PRÊMIO DO CYBERYOZH APP.

Ganhe um Apple MacBook, $2000, iPad e um montão de outros prêmios!

Participar












Como usar proxies para recolher dados de marketplaces (análise, pesquisa, inteligência competitiva)

No mundo do e-commerce, os dados são o novo petróleo. Quem detém a informação sobre preços, sortimento e estratégias dos concorrentes, governa o mercado. Marketplaces como Amazon, Ozon, Wildberries ou Alibaba são bancos de dados gigantescos e constantemente atualizados que contêm essa informação valiosa. Obtê-la significa ganhar uma vantagem competitiva decisiva.

A única forma de extrair esses dados em escala industrial é através do parsing (ou web scraping). Mas há um problema: os marketplaces sabem disso perfeitamente e defendem-se ativamente.

Neste artigo, vamos analisar como construir um sistema de recolha de dados eficaz e escalável para análise e inteligência competitiva, utilizando as configurações de proxy corretas.

Nota importante: Ao automatizar a recolha de dados, certifique-se de que as suas ações cumprem a legislação (incluindo o RGPD e o DMCA) e não violam os Termos de Serviço (ToS) das plataformas de destino. Utilize os proxies de forma responsável: evite criar uma carga crítica nos servidores e respeite a ética do web scraping.


Por que os marketplaces não querem ser monitorizados?

A recolha manual de dados é ineficiente e lenta. A recolha automatizada (parsing) permite obter enormes conjuntos de dados em pouco tempo. É por isso que os marketplaces constroem verdadeiros escalões de defesa:

  • Bloqueio por IP. O método de proteção mais básico e eficaz. Se um número anormalmente elevado de pedidos provier de um único endereço IP, este entra imediatamente numa lista de bloqueio temporária ou permanente.
  • Rate Limiting (limitação de frequência de pedidos). O sistema permite realizar, por exemplo, no máximo 30 pedidos por minuto a partir de um IP. Tudo o que exceder o limite é bloqueado.
  • CAPTCHA. Se o sistema detetar sinais de automatização, apresenta ao utilizador um captcha que um parser padrão não consegue ultrapassar.
  • Geobloqueios. Preços, sortimento e condições de entrega no mesmo marketplace podem variar drasticamente para utilizadores dos EUA e da Alemanha. Sem um endereço IP da região correta, simplesmente não verá dados relevantes.
  • Análise de Fingerprint (impressão digital). Sistemas avançados analisam centenas de parâmetros do seu navegador. Exemplos do que os marketplaces verificam exatamente:

    • Canvas e WebGL fingerprinting: os sites forçam o navegador a desenhar uma figura oculta de forma invisível. A forma exata como a sua placa de vídeo e drivers renderizam os píxeis cria um identificador único do dispositivo.

    • Impressões digitais de áudio: verificação de como o seu sistema processa sinais de áudio.

    • Cabeçalhos técnicos: uma discrepância entre a versão do User-Agent e os tipos de letra instalados ou a resolução do ecrã marca-o instantaneamente como um bot.


Proxy — a sua chave para os dados. Mas não um qualquer.

Um servidor proxy é a base tecnológica de qualquer parser profissional. Ele atua como um intermediário inteligente: encaminha os seus pedidos através de diferentes endereços IP para garantir uma recolha de dados de alta carga e manter a privacidade.

No entanto, é importante compreender: nas realidades modernas, mesmo os proxies de maior qualidade requerem uma integração correta. Para uma obtenção estável de dados sob cargas intensas, os proxies devem estar corretamente integrados na sua arquitetura. Se o seu IP for um endereço residencial "limpo", mas os parâmetros do pedido estiverem configurados incorretamente, o sistema pode rejeitar a ligação.

Para obter o máximo resultado, os proxies devem ser combinados com a configuração correta de cabeçalhos (headers) e a gestão da frequência de pedidos para garantir uma ligação estável.

Por que o tipo de proxy tem uma importância crucial?

Nem todos os tipos de ligações são adequados para o parsing de marketplaces. Abaixo, vamos analisar os principais tipos e determinar para quais tarefas cada um será mais eficaz.

Tipos de proxies e a sua aplicabilidade:

Proxies residenciais rotativos  — escolha nº 1 para parsing em massa

São endereços IP dinâmicos de utilizadores domésticos reais.

  • Vantagens: Enormes pools (milhões de IPs) em todo o mundo. Um pedido feito a partir de tal endereço parece ao marketplace uma visita de um comprador comum através de Wi-Fi doméstico.

  • Veredito: Ideais para recolher grandes conjuntos de dados: monitorização de preços, stocks e conteúdo de fichas de produtos.

  • Configuração flexível de sessões: Dependendo das suas tarefas, pode escolher um de três modos de operação:

    1. IP aleatório: Mudança automática de endereço para cada novo pedido.

    2. Sessão curta: Manutenção de um IP por um período de até 1 minuto (útil para sequências rápidas de ações).

    3. Sessão longa (Sticky): Fixação do IP por um longo período — estritamente até 6 horas (necessário para simular uma estadia prolongada do utilizador no site).

Proxies residenciais estáticos (ISP)  — para trabalho a longo prazo

São IPs limpos de fornecedores domésticos que lhe são atribuídos por todo o período de aluguer.

  • Vantagens: Combinam a confiança de um endereço residencial e a estabilidade de um canal de servidor. O IP não muda, o que é crítico para sistemas de proteção.

  • Veredito: Indispensáveis para gestão de contas de vendedores, administração de painéis publicitários e trabalho com contas pessoais, onde um endereço IP constante é crítico para manter um acesso seguro e contínuo aos recursos corporativos.

Proxies móveis privados  — a solução definitiva

Utilizam endereços IP de operadoras móveis (4G/5G).

  • Vantagens: O nível mais alto de confiança. Graças à tecnologia CGNAT, um único IP é partilhado por milhares de pessoas reais, por isso os marketplaces quase nunca bloqueiam estes endereços.

  • Portas dedicadas: Para garantir uma elevada percentagem de ligações bem-sucedidas e comunicações fiáveis em ambientes complexos de alta carga e arquiteturas de parsing exigentes, recomendamos portas móveis dedicadas. Estas oferecem um canal individual, velocidade máxima e estabilidade sem "vizinhos".

Proxies de Datacenter (Datacenter)
    • Vantagens: Alta velocidade e baixo preço.

    • Veredito: Adequados apenas para sites pequenos ou trabalho através de APIs oficiais. As grandes plataformas costumam ter requisitos de ligação rigorosos, o que torna os proxies de datacenter menos eficazes para tarefas de recolha de dados que consomem muitos recursos.


Especificidades do trabalho com Proxies Móveis na interface

A gestão de proxies móveis tem as suas características únicas na área pessoal. Ao contrário de outros tipos, no cartão deste produto existe um link de API especial para rotação (mudança de IP). Deve encontrá-lo na interface, pois é este endereço que é utilizado para a atualização automática do IP dentro do seu código de programa ou script.

Localização do link para rotação automática no cartão de Proxies Móveis

Fig. 1. Localização do link para rotação automática no cartão de Proxies Móveis.

Além da automatização por software, na CyberYozh App foi implementada a possibilidade de gestão manual. Se precisar de atualizar o endereço IP instantaneamente, sem esperar pela execução do script, pode fazê-lo com um único clique diretamente no painel de controlo.

Botão para mudança manual forçada de endereço IP na conta pessoal

Fig. 2. Botão para mudança manual forçada de IP na área pessoal.


Detalhes técnicos: Sessões, rotação e infraestrutura

Escolher o tipo de proxy é apenas o começo. Para um parsing profissional, outros parâmetros também são importantes.

  • Infraestrutura de parsing. Lembre-se que o proxy é apenas uma parte do sistema. Um parsing eficaz requer:
  • Um parser fiável: Um script ou programa (por exemplo, em Python utilizando as bibliotecas Scrapy, BeautifulSoup, Selenium) capaz de processar código HTML.
  • Gestão de User-Agent e Headers: O seu parser deve ser configurado para trabalhar com cabeçalhos dinâmicos e rotação de User-Agent para manter a compatibilidade e estabilidade.
  • Tratamento de erros: Um mecanismo que trate corretamente tempos de espera (timeouts) e erros, repetindo pedidos falhados através de outro proxy.

A gestão de proxies residenciais rotativos foi implementada da forma mais flexível possível. Pode configurar os parâmetros manualmente através de prefixos no login ou utilizar o gerador integrado na área pessoal.

Gestão através da área pessoal (Método recomendado)

Para obter configurações prontas, basta aceder à secção "Meus Proxies" e, no cartão do pacote adquirido, clicar no botão "Gerar credenciais".

No menu que se abre, pode selecionar visualmente:

  • Geolocalização: país, região/estado e cidade específica (para sessões longas, apenas país).

  • Tipo de sessão: IP aleatório, sessão curta (ID da sessão - até 1 minuto) ou sessão longa (ID da sessão longa - até 6 horas).

  • Protocolo: HTTP ou SOCKS5.

  • Formato de saída: No nosso gerador, estão disponíveis 3 formatos de saída para copiar facilmente para qualquer software:

    • IP:PORT (IP:PORT:USER:PASS)

    • USER:PASS (USER:PASS@IP:PORT)

    • PROTOCOL (http://USER:PASS@IP:PORT)

O gerador formará automaticamente a string de ligação correta com todos os prefixos necessários.

Acesso à interface de criação de configurações e parâmetros de conexão

Fig. 3. Acesso à interface de criação de configurações e parâmetros de ligação (gerador de credenciais).

 

Uso do gerador para configurar o parâmetro sid

Fig. 4. Uso do gerador para configurar o parâmetro sid, responsável por criar novas sessões únicas.

 

Configuração de parâmetros para sessões longas (Sticky)

Fig. 5. Configuração de parâmetros para formação de credenciais com uso de sessões longas (Sticky).

 

Resultado do gerador de credenciais

Fig. 6. Resultado do gerador de credenciais.

Tipos de sessões e gestão manual de prefixos

Se estiver a configurar a lógica de mudança de IP diretamente no código do seu script, utilize o sistema de prefixos:

Tipo de sessãoPrefixo no loginGeotargetingTempo de vida do IP
IP aleatório-res-anyPaísNovo IP em cada pedido
Sessão curta-res-any-sid-XXXXXXXXCidade, Região, PaísAté 1 minuto
Longa (Sticky)-resfix-XX-nnid-TOKENPaís (XX — código do país)Até 6 horas

Nuances importantes da configuração manual:

  • Sessões curtas: No prefixo -sid-47551677, pode utilizar qualquer número aleatório com o mesmo comprimento para a criação instantânea de uma nova sessão.

  • Prefixo geográfico em sessões curtas: Por exemplo, -res_sc-us_georgia_macon-sid-12345 direcionará o seu tráfego através da cidade de Macon, estado da Geórgia.

  • Sessões longas (Sticky): Para trabalhar manualmente, deve obter o token X-NN-LLS através de um pedido curl de teste e inseri-lo no login em vez de 0 após -nnid-. Através do gerador na área pessoal, este token é inserido automaticamente.


Verificação de proxy através do terminal (curl)

A forma mais rápida de garantir que tudo está configurado corretamente é executar um pedido na consola. Isso permite ver os cabeçalhos técnicos do servidor e verificar o funcionamento correto dos prefixos.

1. Verificação de IP residencial aleatório

Utilize este formato se precisar de alta rotação (mudança de IP em cada pedido):

curl -v -x http://LOGIN-res-any:PASSWORD@51.77.190.247:5959 https://ipv4.icanhazip.com

2. Trabalho com sessão longa (Sticky até 6 horas)

Para ativar uma sessão longa manualmente, é necessário passar por duas etapas:

Etapa A: Obtenção do token de sessão Execute o pedido, indicando 0 no parâmetro nnid:

curl -v -x http://LOGIN-resfix-us-nnid-0:PASSWORD@51.77.190.247:5959 https://ipv4.icanhazip.com

Aqui, us é o prefixo do país (EUA), que pode ser substituído pelo código de qualquer outro país disponível.

Etapa B: Extração e uso do token

Na resposta do servidor, procure a linha com o cabeçalho X-NN-LLS: HTTP/1.1 200 Connection established X-NN-LLS: 9d016e262509d3827293

Copie o token obtido (9d016e262509d3827293) e insira-o em vez de 0 no login para todos os pedidos subsequentes, para manter o mesmo IP: 51.77.190.247:5959:LOGIN-resfix-us-nnid-9d016e262509d3827293:PASSWORD

💡 Dica: Para não realizar estas ações manualmente, utilize o Gerador de Credenciais na área pessoal da CyberYozh App. Ao escolher "ID de sessão longa", o sistema irá gerar e fornecer-lhe automaticamente um login pronto com o token já ativo para o país selecionado.


Conclusão: Dos dados à estratégia

A inteligência competitiva em marketplaces não é magia, é tecnologia. Baseia-se num processo de recolha de dados bem estruturado, e o fundamento deste processo são proxies de qualidade e corretamente selecionados.

Poupar em proxies ao fazer parsing é o erro mais caro, resultando em dados incompletos, ferramentas bloqueadas e, em última análise, decisões de negócio erradas. Invista numa infraestrutura fiável e terá acesso à informação que se tornará o seu principal trunfo na luta competitiva.

👉 Procura uma solução fiável para parsing? Os nossos proxies residenciais rotativos fornecem acesso a milhões de IPs limpos em todo o mundo com gestão flexível de sessões. É a ferramenta ideal para recolha de dados em quaisquer marketplaces, mesmo os mais protegidos.

Bate-papo