Trong thế giới e-commerce, dữ liệu được ví như "dầu mỏ mới". Ai nắm giữ thông tin về giá cả, danh mục hàng hóa và chiến lược của đối thủ cạnh tranh, người đó sẽ làm chủ thị trường. Các sàn thương mại điện tử (marketplace) như Amazon, Ozon, Wildberries hay Alibaba là những cơ sở dữ liệu khổng lồ, được cập nhật liên tục và chứa đựng những thông tin vô cùng giá trị. Thu thập được chúng đồng nghĩa với việc có được lợi thế cạnh tranh quyết định.
Cách duy nhất để khai thác dữ liệu này ở quy mô công nghiệp là parsing (hay còn gọi là web scraping). Tuy nhiên, có một vấn đề: các sàn thương mại điện tử hiểu rất rõ điều này và chủ động thiết lập các hệ thống phòng thủ mạnh mẽ.
Trong bài viết này, chúng ta sẽ tìm hiểu cách thức hoạt động của hệ thống bảo vệ trên các marketplace và cách xây dựng một hệ thống thu thập dữ liệu hiệu quả cho mục đích phân tích và tình báo cạnh tranh bằng cách sử dụng proxy và công nghệ phù hợp.
Lưu ý quan trọng: Khi tự động hóa việc thu thập dữ liệu, hãy đảm bảo hành động của bạn tuân thủ pháp luật (bao gồm GDPR và DMCA) và không vi phạm Điều khoản sử dụng (ToS) của các nền tảng mục tiêu. Hãy sử dụng proxy một cách có trách nhiệm: tránh tạo tải trọng tới hạn lên máy chủ và tuân thủ đạo đức web scraping.
Tại sao các sàn thương mại điện tử không muốn bị parse dữ liệu?
Thu thập dữ liệu thủ công vừa kém hiệu quả vừa chậm chạp. Thu thập tự động (parsing) cho phép nhận được một lượng lớn dữ liệu trong thời gian ngắn. Đó là lý do tại sao các marketplace xây dựng nhiều lớp phòng thủ:
- Chặn theo IP. Phương pháp bảo vệ cơ bản và hiệu quả nhất. Nếu một địa chỉ IP gửi số lượng yêu cầu lớn bất thường, nó sẽ ngay lập tức bị chặn tạm thời hoặc vĩnh viễn.
- Rate Limiting (Giới hạn tần suất yêu cầu). Hệ thống chỉ cho phép thực hiện, ví dụ, không quá 30 yêu cầu mỗi phút từ một IP. Mọi yêu cầu vượt quá giới hạn này đều bị chặn.
- CAPTCHA. Nếu hệ thống nhận thấy dấu hiệu tự động hóa, nó sẽ hiển thị mã captcha mà các trình parser thông thường khó có thể vượt qua.
- Chặn theo địa lý (Geo-blocking). Giá cả, danh mục và điều kiện giao hàng trên cùng một sàn có thể khác biệt hoàn toàn đối với người dùng ở Mỹ và Đức. Nếu không có địa chỉ IP từ khu vực phù hợp, bạn sẽ không thể thấy dữ liệu thực tế.
Phân tích Fingerprint (Dấu vân tay số). Các hệ thống tiên tiến phân tích hàng trăm thông số trình duyệt của bạn. Ví dụ về những gì marketplace kiểm tra:
Canvas và WebGL fingerprinting: Trang web yêu cầu trình duyệt vẽ một hình ẩn. Cách card đồ họa và trình điều khiển (driver) của bạn hiển thị các pixel sẽ tạo ra một ID thiết bị duy nhất.
Dấu vân tay âm thanh: Kiểm tra cách hệ thống của bạn xử lý tín hiệu âm thanh.
Tiêu đề kỹ thuật (Technical headers): Sự không khớp giữa phiên bản User-Agent với phông chữ đã cài đặt hoặc độ phân giải màn hình sẽ ngay lập tức đánh dấu bạn là bot.
Proxy — Chìa khóa mở dữ liệu. Nhưng không phải loại nào cũng dùng được.
Proxy server là nền tảng công nghệ của bất kỳ trình parser chuyên nghiệp nào. Nó đóng vai trò trung gian thông minh: ẩn địa chỉ thực của bạn và cho phép mô phỏng các yêu cầu từ hàng ngàn người dùng duy nhất từ bất kỳ nơi nào trên thế giới.
Tuy nhiên, cần hiểu rằng: trong thực tế hiện nay, ngay cả những proxy chất lượng nhất cũng không đảm bảo 100% khả năng chống chặn nếu chúng được sử dụng tách biệt với các công cụ khác. Các marketplace phân tích tổng hợp nhiều yếu tố. Nếu IP của bạn là địa chỉ dân cư "sạch", nhưng dấu vân tay số (Fingerprint) lại cho thấy bạn là bot, hệ thống vẫn sẽ áp dụng các hạn chế.
Để đạt kết quả tối đa, cần kết hợp proxy với công nghệ anti-detect, thiết lập tiêu đề (headers) chính xác và tạo các khoảng trễ giống con người giữa các yêu cầu.
Tại sao loại proxy lại đóng vai trò quyết định?
Không phải mọi loại kết nối đều phù hợp để parsing marketplace. Dưới đây chúng ta sẽ phân tích các loại chính và xác định loại nào hiệu quả nhất cho từng tác vụ.
Các loại proxy và khả năng ứng dụng:
Proxy dân cư xoay vòng (Residential Rotation) — Lựa chọn số 1 cho parsing quy mô lớn
Đây là các địa chỉ IP động của những người dùng gia đình thực tế.
Ưu điểm: Các pool khổng lồ (hàng triệu IP) trên toàn thế giới. Yêu cầu từ địa chỉ này đối với marketplace trông giống như một chuyến ghé thăm của người mua hàng thông thường qua Wi-Fi gia đình.
Nhận định: Lý tưởng để thu thập các khối dữ liệu lớn: theo dõi giá cả, tồn kho và nội dung thẻ sản phẩm.
Thiết lập phiên linh hoạt: Tùy thuộc vào tác vụ, bạn có thể chọn một trong ba chế độ vận hành:
IP ngẫu nhiên: Tự động đổi địa chỉ sau mỗi yêu cầu mới.
Phiên ngắn: Giữ một IP trong thời gian tối đa 1 phút (thuận tiện cho các chuỗi hành động nhanh).
Phiên dài (Sticky): Cố định IP trong thời gian dài — tối đa 6 giờ (cần thiết để mô phỏng sự hiện diện lâu của người dùng trên trang web).
Proxy dân cư tĩnh (ISP) — Để làm việc "lâu dài"
Đây là các IP sạch từ các nhà cung cấp internet gia đình, được gán cho bạn trong suốt thời gian thuê.
Ưu điểm: Kết hợp sự tin cậy của địa chỉ dân cư và sự ổn định của kênh máy chủ. IP không thay đổi, điều này cực kỳ quan trọng đối với các hệ thống bảo mật.
Nhận định: Không thể thiếu để duy trì tài khoản người bán, quản lý tủ quảng cáo và làm việc với trang cá nhân, nơi bất kỳ sự thay đổi hay xoay vòng IP nào cũng có thể dẫn đến việc hồ sơ bị chặn ngay lập tức.
Proxy di động cá nhân (Mobile Private) — Giải pháp tối thượng
Sử dụng địa chỉ IP của các nhà mạng di động (4G/5G).
Ưu điểm: Mức độ tin cậy cao nhất. Nhờ công nghệ CGNAT, hàng ngàn người thực dùng chung một IP, vì vậy các marketplace hầu như không bao giờ chặn những địa chỉ này.
Cổng riêng biệt (Dedicated ports): Đối với các trường hợp siêu khó (đăng ký tài khoản, vượt qua lớp bảo vệ cấp độ Amazon/Akamai), chúng tôi khuyên dùng cổng di động riêng biệt. Chúng cung cấp kênh cá nhân, tốc độ tối đa và sự ổn định mà không bị ảnh hưởng bởi "hàng xóm".
Proxy máy chủ (Datacenter)
Ưu điểm: Tốc độ cao và giá thành thấp.
Nhận định: Chỉ phù hợp với các trang web nhỏ, ít bảo mật hoặc làm việc qua API chính thức. Các marketplace lớn coi chúng là "bot" và chặn theo cả dải mạng.
Đặc thù làm việc với Proxy Di động trong giao diện
Quản lý proxy di động có những đặc điểm riêng biệt trong tài khoản cá nhân. Khác với các loại khác, trong thẻ sản phẩm này có sẵn một liên kết API đặc biệt để xoay vòng (đổi IP). Bạn cần tìm thấy nó trong giao diện, vì chính địa chỉ này được sử dụng để tự động cập nhật IP bên trong mã chương trình hoặc tập lệnh của bạn.

Hình 1. Vị trí liên kết để tự động xoay vòng trong thẻ Proxy Di động.
Bên cạnh việc tự động hóa bằng phần mềm, trong CyberYozh App còn có khả năng quản lý thủ công. Nếu bạn cần cập nhật địa chỉ IP ngay lập tức mà không muốn chờ tập lệnh thực thi, bạn có thể thực hiện chỉ bằng một cú nhấp chuột ngay trong bảng điều khiển.

Hình 2. Nút đổi địa chỉ IP thủ công trong tài khoản cá nhân.
Chi tiết kỹ thuật: Phiên, Xoay vòng và Cơ sở hạ tầng
Chọn loại proxy mới chỉ là bắt đầu. Để parsing chuyên nghiệp, các thông số khác cũng rất quan trọng.
- Cơ sở hạ tầng parsing. Hãy nhớ rằng proxy chỉ là một phần của hệ thống. Parsing hiệu quả yêu cầu:
- Trình parser tin cậy: Tập lệnh hoặc chương trình (ví dụ bằng Python sử dụng thư viện Scrapy, BeautifulSoup, Selenium) có khả năng xử lý mã HTML.
- Xoay vòng User-Agent và Headers: Trình parser của bạn phải giả vờ là các trình duyệt và thiết bị khác nhau, liên tục thay đổi không chỉ IP mà cả tiêu đề kỹ thuật.
- Xử lý lỗi: Cơ chế xử lý chính xác các lần chặn tạm thời, captcha và lỗi, thực hiện lại các yêu cầu thất bại thông qua một proxy khác.
Việc quản lý proxy dân cư xoay vòng được thực hiện cực kỳ linh hoạt. Bạn có thể tự thiết lập các thông số thông qua tiền tố trong login, hoặc sử dụng trình tạo (generator) tích hợp trong tài khoản cá nhân.
Quản lý qua tài khoản cá nhân (Cách được khuyến nghị)
Để nhận các cài đặt có sẵn, chỉ cần vào mục "My Proxies" và trong thẻ gói sản phẩm đã mua, hãy nhấn nút "Generate Credentials".
Trong menu mở ra, bạn có thể chọn một cách trực quan:
Vị trí địa lý: quốc gia, vùng/bang và thành phố cụ thể (với phiên dài chỉ chọn quốc gia).
Loại phiên: IP ngẫu nhiên, phiên ngắn (ID phiên - tối đa 1 phút) hoặc phiên dài (ID phiên dài - tối đa 6 giờ).
Giao thức: HTTP hoặc SOCKS5.
Định dạng đầu ra: Trong trình tạo của chúng tôi có sẵn 3 định dạng đầu ra để dễ dàng sao chép vào bất kỳ phần mềm nào: IP:PORT, USER:PASS, PROTOCOL.
Trình tạo sẽ tự động tạo chuỗi kết nối chính xác với tất cả các tiền tố cần thiết.

Hình 3. Giao diện tạo cấu hình và tham số kết nối (generator).

Hình 4. Sử dụng generator để thiết lập tham số sid, chịu trách nhiệm tạo các phiên duy nhất mới.

Hình 5. Thiết lập tham số cho các phiên dài (Sticky).

Hình 6. Kết quả làm việc của trình tạo thông tin đăng nhập.
Các loại phiên và quản lý tiền tố thủ công
Nếu bạn thiết lập logic đổi IP trực tiếp trong mã tập lệnh của mình, hãy sử dụng hệ thống tiền tố:
| Loại phiên | Tiền tố trong login | Geo-targeting | Tuổi thọ IP |
| IP ngẫu nhiên | -res-any | Quốc gia | IP mới cho mỗi yêu cầu |
| Phiên ngắn | -res-any-sid-XXXXXXXX | Thành phố, Vùng, Quốc gia | Tối đa 1 phút |
| Phiên dài (Sticky) | -resfix-XX-nnid-TOKEN | Quốc gia (XX là mã quốc gia) | Tối đa 6 giờ |
Những sắc thái quan trọng của việc thiết lập thủ công:
Phiên ngắn: Trong tiền tố
-sid-47551677bạn có thể sử dụng bất kỳ số ngẫu nhiên nào có cùng độ dài để tạo phiên mới ngay lập tức.Tiền tố địa lý trong phiên ngắn: Ví dụ,
-res_sc-us_georgia_macon-sid-12345sẽ dẫn lưu lượng của bạn qua thành phố Macon, bang Georgia.Phiên dài (Sticky): Để làm việc thủ công, bạn cần lấy token
X-NN-LLSqua một yêu cầu curl thử nghiệm và thay nó vào login thay cho số0sau-nnid-. Qua generator trong LC, token này được điền tự động.
Kiểm tra proxy qua terminal (curl)
Cách nhanh nhất để đảm bảo mọi thứ được cài đặt đúng là thực hiện yêu cầu trong console. Điều này cho phép xem các tiêu đề kỹ thuật của máy chủ và kiểm tra tính chính xác của tiền tố.
1. Kiểm tra IP dân cư ngẫu nhiên
Sử dụng định dạng này nếu bạn cần xoay vòng cao (đổi IP sau mỗi yêu cầu):
curl -v -x http://LOGIN-res-any:PASSWORD@51.77.190.247:5959 https://ipv4.icanhazip.com2. Làm việc với phiên dài (Sticky lên đến 6 giờ)
Để kích hoạt phiên dài thủ công cần trải qua hai giai đoạn:
Giai đoạn A: Nhận token phiên. Thực hiện yêu cầu, chỉ định 0 trong tham số nnid:
curl -v -x http://LOGIN-resfix-us-nnid-0:PASSWORD@51.77.190.247:5959 https://ipv4.icanhazip.comỞ đây us là tiền tố quốc gia (USA), có thể thay thế bằng mã của bất kỳ quốc gia nào khác.
Giai đoạn B: Trích xuất và sử dụng token. Trong phản hồi từ máy chủ, hãy tìm dòng có tiêu đề X-NN-LLS: X-NN-LLS: 9d016e262509d3827293
Sao chép token nhận được (9d016e262509d3827293) và điền nó thay cho 0 vào login cho tất cả các yêu cầu sau đó để giữ cùng một IP: LOGIN-resfix-us-nnid-9d016e262509d3827293
💡 Lời khuyên: Để không phải thực hiện các hành động này thủ công, hãy sử dụng Generator trong tài khoản cá nhân CyberYozh App. Khi chọn "ID phiên dài", hệ thống sẽ tự động tạo và cung cấp cho bạn login đã có sẵn token hoạt động cho quốc gia được chọn.
Kết luận: Từ dữ liệu đến chiến lược
Tình báo cạnh tranh trên các marketplace không phải là phép thuật, mà là công nghệ. Nền tảng của nó là quá trình thu thập dữ liệu được xây dựng bài bản, và móng của quá trình này là các proxy chất lượng, được lựa chọn đúng đắn.
Tiết kiệm chi phí cho proxy khi parsing là sai lầm đắt giá nhất, dẫn đến dữ liệu không đầy đủ, các công cụ bị chặn và cuối cùng là các quyết định kinh doanh sai lầm. Hãy đầu tư vào cơ sở hạ tầng đáng tin cậy, và bạn sẽ có quyền truy cập vào thông tin — thứ sẽ trở thành quân át chủ bài chính của bạn trong cuộc chiến cạnh tranh.
👉 Bạn đang tìm kiếm giải pháp parsing tin cậy? Proxy dân cư xoay vòng của chúng tôi cung cấp quyền truy cập vào hàng triệu IP sạch trên toàn thế giới với khả năng quản lý phiên linh hoạt. Đây là công cụ lý tưởng để thu thập dữ liệu từ bất kỳ sàn thương mại điện tử nào, kể cả những nơi được bảo vệ nghiêm ngặt nhất.
