CyberYozh Open Scraper: Panduan resmi

CyberYozh memiliki alat scraping gratis dan open-source sendiri: Open Scraper. Tersedia di GitHub, dapat diinstal dengan Docker dalam ~20 menit, di-deploy pada localhost, dan dapat diakses melalui browser web apa pun. Hanya memerlukan pengetahuan coding minimal, karena Open Scraper sudah menyertakan skrip kode yang telah ditentukan sebelumnya untuk operasi scraping, crawling, dan manajemen sesi, dan Anda hanya perlu menentukan proxy dan situs target.

💡

Jangan buang waktu dan periksa Open Scraper di GitHub sekarang juga.

Mempersiapkan Open Scraper: Memilih proxy

Sebelum Anda memulai scraping, penting untuk memilih jenis proxy yang tepat.

⭐

Daftar ke CyberYozh sekarang jika Anda belum. Setelah itu, mari pilih proxy terbaik untuk tugas Anda.

Proxy residential: Scraping harga, pelatihan AI, dan sebagian besar tugas

Proxy residential rotating merupakan pilihan paling umum untuk scraping dan otomasi skala besar. Mereka mengambil dari kumpulan IP masif dari alamat rumah nyata di seluruh dunia, membuat setiap permintaan tampak berasal dari pengguna organik yang berbeda. Ini membuat mereka ideal untuk:

Pemantauan harga e-commerce
Pengumpulan dataset AI/ML
Intelijen kompetitor dan merek
Verifikasi iklan dan riset pasar

🏠

Proxy residential statis biasanya tidak digunakan untuk scraping. Mereka menyediakan alamat IP tunggal, terisolasi, dan jangka panjang untuk operasi seperti manajemen profil tunggal. Dalam beberapa kasus, beberapa IP statis dapat digunakan, dengan setiap sesi ditugaskan ke satu IP.

Proxy mobile: Scraping sosial dengan presisi tinggi

Proxy mobile memiliki skor kepercayaan tertinggi dan dioptimalkan untuk aplikasi mobile-first, menjadikannya pilihan utama untuk aplikasi seperti Instagram dan TikTok. Mereka merutekan lalu lintas melalui jaringan operator LTE/5G nyata, membuatnya tidak dapat dibedakan dari pengguna smartphone. Gunakan untuk:

Scraping data media sosial
Analitik influencer dan audiens
Platform berbasis aplikasi

📚

Lihat perbandingan proxy mobile vs. residential untuk rincian lengkap.

Proxy datacenter: Scraping data terbuka dan pengujian

Proxy datacenter sangat cepat tetapi terkait dengan lalu lintas non-residential yang mirip bot, sehingga mereka diblokir oleh banyak platform yang dilindungi. Gunakan untuk:

Scraping database terbuka
Pengujian dan pengembangan

📚

Baca bagaimana tepatnya proxy datacenter berbeda dari residential dan kapan menggunakan masing-masing.

Unduh dan instal Open Scraper dengan Docker

Seperti yang disebutkan, Open Scraper dapat diinstal dalam waktu kurang dari 20 menit. Aplikasi ini memerlukan Docker dan dapat diakses melalui localhost menggunakan browser Anda, yang mungkin terasa tidak biasa pada awalnya, tetapi sangat mudah.

⭐

CyberYozh memiliki IP Checker: sebuah alat yang memastikan kualitas IP sebelum deployment. Meskipun tidak ada yang dapat menjamin tingkat keberhasilan 100%, kami dapat memaksimalkannya dengan menghilangkan IP berkualitas rendah yang sengaja dibuat.

Gunakan IP Checker dan pelajari cara mengotomatiskannya di dokumentasi APIkami.

Instal Docker

Kunjungi situs web Docker dan unduh Docker Desktop untuk sistem operasi Anda (Windows, macOS, atau Linux).

Jalankan installer dan ikuti langkah-langkah yang muncul di layar. Docker Desktop gratis untuk penggunaan pribadi. Setelah terinstal, jalankan Docker Desktop dan pastikan aplikasi berjalan sebelum melanjutkan.

Unduh Open Scraper dari GitHub

Kunjungi repositori Open Scraper di GitHub. Klik tombol hijau Code dan pilih Download ZIP.

Atau, clone melalui Git:

bash

git clone https://github.com/CyberYozh-data/yozh-scraper

cd yozh-scraper

Masuk ke dalam folder sebelum melanjutkan ke langkah build.

Baca lebih lanjut tentang GitHub proxy

Build Open Scraper dengan Docker

Buat file environment dan tambahkan API key CyberYozh Anda:

bash

cp .env.example .env    # create the environment file

# Open .env and set: CYBERYOZH_API_KEY="your_key_here"

Kemudian build dan jalankan semua layanan dengan satu perintah:

bash

docker compose up --build

Docker akan menarik semua dependensi dan menjalankan container Open Scraper dan Open Crawler secara otomatis. Buka Docker untuk melihat bahwa aplikasi sedang berjalan:

Akses Open Scraper melalui browser apa pun

Kedua alat sekarang berjalan di localhost (127.0.0.1) melalui port tertentu. Verifikasi bahwa keduanya aktif menggunakan curl:

bash

curl http://localhost:8000/api/v1/health

# {"status":"ok","workers":2}


curl http://localhost:8001/api/v1/health

# {"status":"ok","workers":2,"scraper_reachable":true,...}

Akses dokumentasi API interaktif:

Open Scraper: http://localhost:8000/docs#/
Buka Crawler: http://localhost:8001/docs#/

Kedua halaman dokumentasi berisi skrip yang dapat dijalankan dengan parameter yang telah ditentukan sebelumnya. Anda tidak perlu menulis kode tambahan; cukup isi nilai target Anda. Ini dapat dilakukan dengan mudah menggunakan perintah curl , seperti yang ditunjukkan di bagian berikutnya.

⚙️

Untuk scraping tingkat lanjut, jelajahi panduan pengaturan Playwright dan konfigurasi proxy Python.

Gunakan Open Scraper dan Open Crawler

Setelah pengaturan, Anda memiliki dua antarmuka API yang dapat diakses melalui browser. Semua operasi dapat dipicu baik dengan meluncurkan perintah API melalui GUI (klik Try it out pada endpoint mana pun) atau dengan mengirimkan perintah curl langsung dari terminal Anda. Berikut adalah semua operasi utama.

🔁

Jelajahi strategi rotasi IP terbaik untuk kasus penggunaan tertentu guna mengatur proxy Anda dengan cara terbaik.

1. Tambahkan proxy ke Open Scraper melalui kunci API

Buka file .env di direktori root proyek dan atur kunci API CyberYozh Anda:

plaintext

CYBERYOZH_API_KEY="your_key_here"

Kemudian, dalam skrip API (atau melalui perintah curl , seperti yang akan Anda lihat selanjutnya), tentukan parameter proxy_type untuk mengaktifkan proxy. Nilai default adalah none (koneksi langsung):

proxy_type	Apa itu
res_rotating	Residential rotating — default yang direkomendasikan
res_static	Residential static (IP khusus)
mobile	Mobile / LTE, dedicated
mobile_shared	Mobile / LTE, shared pool
dc_static	Datacenter static
none	Koneksi langsung, tanpa proxy

Untuk geotargeting, tambahkan kamus proxy_geo ke skrip mana pun dengan field berikut:

Field	Tipe	Deskripsi
country_code	string	ISO 3166-1 alpha-2 (misalnyaUS,GB)
region	string	Nama region/provinsi
city	string	Nama kota (misalnyaLondon)

Baca lebih lanjut tentang geotargeting dan spesifikasinya di artikel CyberYozh.

Semua perintah crawling dan scraping dapat dikirim melalui curl dari terminal Anda atau dijalankan secara interaktif melalui halaman dokumentasi localhost. Mari kita lihat lebih dekat.

2. Luncurkan operasi crawling pada situs target

Gunakan Create Crawl perintah POST dari Open Crawler untuk memulai crawling seluruh situs.

Tentukan URL awal, batasan cakupan, kecepatan permintaan, dan jenis proxy:

bash

# Submit a crawl
curl -X POST http://localhost:8001/api/v1/crawl \
  -H "Content-Type: application/json" \
  -d '{
    "seed_url": "https://example.com",
    "scope": {
        "mode": "same-domain", 
        "max_depth": 2, 
        "max_pages": 50, 
        "per_domain_rps": 1.0, 
        "per_domain_concurrency": 1
    },
    "scrape_options": {
        "proxy_type": "res_rotating"
    },
    "crawl_proxy": null,
    "enable_scraping": false

  }'

# {"job_id":"crawl_abc123"}

Parameter kunci yang perlu dikonfigurasi:

seed_url untuk URL awal dari situs target
max_pages / max_depth untuk batasan cakupan guna mengontrol jangkauan dan biaya
per_domain_rps untuk permintaan per detik; pertahankan di 1.0 untuk menghindari pemicu batas kecepatan
proxy_type sebaiknya diatur ke res_rotating untuk sebagian besar kasus penggunaan

Setelah diluncurkan, Anda menerima job_id (dalam contoh ini, crawl_abc123). Gunakan untuk memantau dan mengelola crawling:

bash

# Poll crawl status
curl http://localhost:8001/api/v1/crawl/crawl_abc123

# Retrieve full results (all visited pages + stats)
curl http://localhost:8001/api/v1/crawl/crawl_abc123/results

# Live event stream (SSE)
curl -N http://localhost:8001/api/v1/crawl/crawl_abc123/events

# Cancel softly (drains in-flight requests)
curl -X DELETE "http://localhost:8001/api/v1/crawl/crawl_abc123?hard=false"

# Cancel hard (aborts all in-flight tasks immediately)
curl -X DELETE "http://localhost:8001/api/v1/crawl/crawl_abc123?hard=true"

Baca lebih lanjut tentang alat parsing web di blog CyberYozh.

3. Scrape dan parsing data dari situs target

Untuk scraping halaman tunggal, gunakan perintah Scrape Page dari Open Scraper

Dengan b, prosesnya mudah:

bash

curl -s -X POST http://localhost:8000/api/v1/scrape/page \

  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com",
    "proxy_type": "res_rotating"
  }'

Untuk scraping beberapa halaman dalam satu pekerjaan, gunakan Scrape Pages:

bash

curl -s -X POST http://localhost:8000/api/v1/scrape/pages \
  -H "Content-Type: application/json" \
  -d '{
    "pages": [
      {"url":"https://example.com","proxy_type":"res_rotating"},
      {"url":"https://example.org","proxy_type":"res_rotating"}
    ]
  }'

Sama seperti crawling, kedua perintah mengembalikan job_id. Gunakan untuk memeriksa status dan mengambil hasil:

bash

# Check scrape status
curl -s http://localhost:8000/api/v1/scrape/<your_job_id>


# Fetch scrape results
curl -s http://localhost:8000/api/v1/scrape/<your_job_id>/results

Untuk konfigurasi lanjutan retry dan penanganan error pada scraper berbasis Python, lihat optimasi retry Python requests.

4. Gunakan preset untuk scraping yang optimal

Open Scraper menyertakan preset bawaan untuk sumber data populer. Alih-alih mengonfigurasi selektor secara manual, pilih nama sumber dan berikan parameter yang diperlukan:

nama	sumber	params	locales
amazon_product	amazon	asin	us, uk, de, fr, jp
amazon_search	amazon	query	us, uk, de
google_search	google	query	us, uk, de, fr, ru, jp
google_shopping	google	query	us, uk, de
ebay_search	ebay	query	us, uk, de
walmart_product	walmart	product_id	us
youtube_video	youtube	video_id	global
linkedin_profile	linkedin	username	global (memerlukan sesi autentikasi)

Untuk melakukan scraping menggunakan preset, gunakan Scrape Preset Page atau Scrape Preset Pages perintah:

bash

curl -X POST http://localhost:8000/api/v1/scrape/preset/page \

  -H 'Content-Type: application/json' \
  -d '{
    "source": "amazon_product",
    "preset_params": {"asin": "B08N5WRWNW"},
    "locale": "us",
    "llm": {"model": "openai/gpt-5.4-mini"}
  }'

# -> {"job_id": "..."}  then GET /api/v1/scrape/<job_id>/results

Parameter opsional llm mengaktifkan model AI untuk melakukan koreksi mandiri selama parsing. Untuk menggunakannya, Anda harus menambahkan kunci API penyedia LLM yang sesuai (misalnya, OPENAI_API_KEY) ke file .env Anda bersama dengan CYBERYOZH_API_KEYAnda.

🤖

Parsing berbantuan LLM dapat berguna untuk struktur halaman yang tidak konsisten atau dinamis di mana pemilih CSS saja mungkin melewatkan konten.

5. Meluncurkan sticky session

Sticky session memungkinkan Open Scraper mempertahankan status browser yang konsisten, termasuk cookie, autentikasi, dan alamat IP, di berbagai permintaan. Gunakan untuk scraping di balik dinding login.

Buat session:

bash

curl -X POST http://localhost:8000/api/v1/sessions \

  -H 'content-type: application/json' \
  -d '{"device":"desktop","proxy_type":"res_rotating","ttl_seconds":3600}'

Autentikasi session dengan skrip login:

bash

curl -X POST http://localhost:8000/api/v1/sessions/$ID/login \

  -H 'content-type: application/json' \
  -d '{
    "creds":{"email":"tomsmith","password":"SuperSecretPassword!"},
    "script":{
      "steps":[
        # Your target website
        {"op":"goto","url":"https://the-internet.herokuapp.com/login"}, 
        {"op":"fill","selector":"#username","value":"$creds_email"},
        {"op":"fill","selector":"#password","value":"$creds_password"},
        {"op":"click","selector":"button[type=submit]"},
        {"op":"wait_for_selector","selector":".flash.success"}
      ],
      "success_selector":".flash.success"
    }
  }'

Atau, masukkan cookie session secara langsung:

bash

curl -X POST http://localhost:8000/api/v1/sessions/$ID/cookies \

  -H 'content-type: application/json' \
  -d '{"cookies":[{"name":"sessionid","value":"abc","domain":".example.com","path":"/","expires":1800000000,"httpOnly":true,"secure":true,"sameSite":"Lax"}]}'

Setelah session diautentikasi, berikan session_id dalam perintah Scrape Page atau Scrape Pages berikutnya untuk melanjutkan dengan status terotentikasi yang sama.

🍪

Sticky Session adalah konteks browser persisten yang mempertahankan cookie, token autentikasi, dan penugasan proxy di berbagai permintaan. Sangat penting untuk scraping platform yang memerlukan login atau mempertahankan status anti-bot di berbagai tampilan halaman.

Kesimpulan: Web scraping dan otomasi secara gratis

Open Scraper dan Open Crawler adalah alat siap produksi, gratis, dan open-source untuk scraping, crawling, dan ekstraksi data terstruktur. Instal dengan Docker dalam 20 menit, hubungkan proxy CyberYozh Anda dalam dua baris konfigurasi .env , dan jalankan semua operasi melalui curl tanpa perlu coding.

FAQ tentang Open Scraper CyberYozh

Apa alat web scraping gratis terbaik yang tersedia saat ini?

CyberYozh Open Scraper adalah pilihan open-source gratis terbaik: tidak memerlukan langganan, berjalan secara lokal melalui Docker, dan mengintegrasikan rotasi proxy secara langsung.

Apakah CyberYozh Open Scraper benar-benar gratis?

Ya, alat itu sendiri sepenuhnya gratis dan open-source. Anda hanya membayar untuk proxy jika Anda membutuhkannya untuk perlindungan anti-ban atau geotargeting.

Apa alat web scraping open-source terbaik?

Pilihan populer termasuk Scrapy, Playwright, Puppeteer, dan CyberYozh Open Scraper, yang secara unik menggabungkan antarmuka API siap pakai dengan infrastruktur proxy native.

Apakah saya memerlukan proxy untuk web scraping?

Tidak selalu, tetapi untuk scraping skala besar atau komersial, layanan proxy web scraping sangat penting untuk menghindari pemblokiran IP dan melewati batasan rate.

Apa itu layanan proxy web scraping?

Layanan proxy web scraping mengarahkan permintaan scraper Anda melalui kumpulan IP asli, membuat setiap permintaan tampak berasal dari pengguna sah yang berbeda.

Apa perbedaan antara rotating proxy dan static proxy untuk scraping?

Rotating proxy menetapkan alamat IP baru per permintaan untuk memberikan anonimitas dalam skala besar. Static proxy menggunakan satu IP tetap, cocok untuk tugas berbasis sesi atau spesifik akun.

Bisakah saya menggunakan API web scraping gratis tanpa pengalaman coding?

Ya. Dokumentasi localhost Open Scraper menyediakan skrip API yang sudah jadi: cukup isi URL dan jenis proxy lalu klik jalankan. Tidak perlu kode khusus.

Jenis proxy apa yang harus saya gunakan untuk scraping media sosial?

Mobile proxy menawarkan skor kepercayaan tertinggi dan paling baik untuk Instagram, TikTok, dan platform mobile-first serupa yang secara agresif memfilter traffic non-mobile.

Bagaimana cara menghindari pemblokiran saat web scraping?

Gunakan rotating residential atau mobile proxy, batasi permintaan per detik (per_domain_rps), aktifkan mode stealth, dan rotasi header user-agent pada setiap permintaan.

Bisakah Open Scraper menangani halaman yang di-render dengan JavaScript?

Ya. Open Scraper dibangun di atas Playwright, yang me-render sesi browser lengkap termasuk JavaScript, SPA, dan konten yang dimuat secara dinamis.

Apa perbedaan antara web scraping dan web crawling?

Crawling memetakan dan mengindeks URL di seluruh situs; scraping mengekstrak data terstruktur dari halaman tersebut. Open Scraper mencakup kedua alat: Open Crawler untuk penemuan, Open Scraper untuk ekstraksi.

Bagaimana cara mengatur proxy web scraping untuk Open Scraper?

Tambahkan API key CyberYozh Anda ke file .env di bawah CYBERYOZH_API_KEY, lalu atur proxy_type ke res_rotating dalam perintah scraping apa pun. Itu saja.