Sự khác biệt giữa max_retries trong HTTPAdapter và viết vòng lặp thử lại thủ công là gì?

HTTPAdapter với Retry xử lý các lần thử lại ở lớp vận chuyển tự động, trong khi vòng lặp thủ công cho bạn nhiều quyền kiểm soát hơn đối với logic giữa các lần thử, chẳng hạn như chuyển đổi proxy hoặc thay đổi header.

Những phương thức HTTP nào được thử lại theo mặc định với urllib3.Retry?

Theo mặc định, urllib3.Retry chỉ thử lại các phương thức idempotent: GET, HEAD, OPTIONS, PUT, DELETE và TRACE. POST bị loại trừ để ngăn chặn việc gửi trùng lặp.

backoff_factor thực sự tính toán gì trong urllib3.Retry?

Thời gian chờ được tính theo công thức backoff_factor * (2 ** (attempt_number - 1)). Với backoff_factor=1, các độ trễ là 1s, 2s, 4s, 8s giữa các lần thử liên tiếp.

Làm thế nào để khắc phục MaxRetryError: Max retries exceeded with URL?

Lỗi này có nghĩa là tất cả các lần thử lại đã cạn kiệt. Nguyên nhân phổ biến là IP bị chặn, cấu hình SSL sai, cổng proxy không đúng hoặc máy chủ thực sự không thể truy cập. Kiểm tra thông tin đăng nhập proxy của bạn và tăng tổng số lần thử trong Retry nếu cần.

Tôi có nên thêm 429 vào status_forcelist hay xử lý nó riêng biệt?

Xử lý riêng biệt. Lỗi 429 yêu cầu đọc header Retry-After để biết thời gian chờ chính xác, trong khi backoff_factor chung trong Retry bỏ qua header này và có thể thử lại quá sớm, dẫn đến vi phạm quy tắc của trang web và bị chặn.

Có an toàn khi tự động thử lại các yêu cầu POST không?

Chỉ khi endpoint là idempotent (tức là gửi cùng một yêu cầu hai lần có hiệu quả giống như gửi một lần). Đối với các POST không idempotent (gửi biểu mẫu, yêu cầu thanh toán), không bao gồm POST trong allowed_methods.

Sự khác biệt giữa HTTP 499 và HTTP 502 là gì?

Mã 499 có nghĩa là client đã đóng kết nối trước khi server phản hồi (đặc thù của Nginx, không có trong chuẩn HTTP). Mã 502 có nghĩa là server nhận được phản hồi không hợp lệ từ upstream. Khắc phục lỗi 499 bằng cách tăng thời gian chờ của client; khắc phục lỗi 502 bằng cách thử lại với backoff.

Chiến lược thử lại tốt nhất cho các trang web được bảo vệ bởi Cloudflare (HTTP 520) là gì?

Thử lại với độ trễ theo cấp số nhân VÀ xoay vòng IP proxy và User-Agent của bạn trong mỗi lần thử. Proxy di động từ các nhà cung cấp như CyberYozh có điểm tin cậy cao hơn trên mạng biên của Cloudflare.

Tôi nên cấu hình bao nhiêu lần thử lại cho scraper production?

Ba đến năm lần thử lại với backoff_factor=1 bao phủ phần lớn các lỗi tạm thời mà không tạo ra tải quá mức. Đối với các API có giới hạn tốc độ, hãy tuân thủ Retry-After thay vì chỉ dựa vào số lần thử lại.

Python Requests Retry: Tối ưu hóa quy trình làm việc với yêu cầu

Alexander

12 tháng 5, 2026

Tổng quan

Python Requests Retry: Tối ưu hóa quy trình làm việc với yêu cầu

Internet

Các quy trình tự động hóa dựa vào dữ liệu web trực tiếp thường gặp lỗi âm thầm và thường xuyên. Sự cố mạng, giới hạn tốc độ phía máy chủ và các hạn chế cục bộ có thể khiến toàn bộ pipeline scraping dừng lại chỉ trong vài phút. Hiểu cách triển khai chiến lược retry mạnh mẽ bằng thư viện Python Requests là một trong những kỹ năng thực tế nhất mà bất kỳ nhà phát triển tự động hóa nào cũng cần có.

TL;DR

💡

Thư viện Requests của Python, kết hợp với urllib3.Retry và proxy luân phiên, mang đến cho các nhà phát triển tự động hóa một bộ công cụ mạnh mẽ để tự động khôi phục từ các lỗi HTTP tạm thời mà không cần can thiệp thủ công.

Gắn adapter Retry thông qua HTTPAdapter để kiểm soát số lần thử, độ trễ backoff và mã trạng thái nào sẽ kích hoạt retry
Mỗi mã lỗi cần chiến lược riêng: 429 yêu cầu tuân thủ Retry-After, 502 cần backoff, và 520 đòi hỏi thay đổi IP proxy
Không bao giờ retry 417 (cấu hình header sai) hoặc 451 (chặn địa lý hợp pháp); hãy sửa header hoặc chuyển vùng địa lý thay vì thế
Kết hợp logic retry với proxy dân cư hoặc di động luân phiên có nghĩa là mỗi lần thử mới đến từ một IP mới, vô hiệu hóa việc chặn theo IP
Ba đến năm lần retry với backoff_factor=1 là cài đặt mặc định phù hợp cho hầu hết các scraper production

Giới thiệu: Thư viện Python Requests

Thư viện Python Requests là HTTP client được sử dụng rộng rãi nhất trong Python, được xây dựng dựa trên urllib3 và được thiết kế để làm cho việc gửi các HTTP request trở nên đơn giản, dễ đọc và có thể mở rộng. Nó trừu tượng hóa độ phức tạp của các kết nối socket thô, xử lý SSL/TLS, duy trì cookie và quản lý session, khiến nó trở thành lựa chọn hàng đầu cho mọi thứ từ các lệnh gọi API đơn giản đến các quy trình thu thập dữ liệu tự động quy mô lớn.

Sử dụng thư viện Requests: Các trường hợp sử dụng chung

Thư viện Requests hỗ trợ phần lớn các tác vụ tự động hóa web dựa trên Python. Cho dù bạn đang xây dựng công cụ giám sát giá, công cụ quản lý tài khoản hay tích hợp API, giao diện rõ ràng của thư viện cho phép các nhà phát triển tập trung vào logic thay vì các chi tiết lớp truyền tải.

⚙️

Đối tượng requests.Session() đặc biệt mạnh mẽ: nó duy trì header, cookie và connection pool qua các request, khiến nó trở nên lý tưởng cho các quy trình xác thực nơi việc duy trì trạng thái quan trọng.

Về cốt lõi, thư viện được sử dụng trong các tình huống yêu cầu tương tác theo chương trình với các máy chủ từ xa. Các trường hợp sử dụng phổ biến nhất bao gồm:

Web scraping và thu thập dữ liệu: Lấy các trang HTML, phản hồi JSON API và các tập dữ liệu có cấu trúc ở quy mô lớn
Tích hợp API: Xác thực bằng OAuth, gửi payload POST và phân tích phản hồi webhook
Kiểm thử tự động: Gọi các endpoint để xác minh tính khả dụng, thời gian phản hồi và mã trạng thái
Giám sát giá và tồn kho: Truy vấn các trang thương mại điện tử theo lịch để theo dõi thay đổi
Tự động hóa đa tài khoản: Quản lý các phiên làm việc cho các nền tảng yêu cầu hành vi đăng nhập nhất quán
Yêu cầu định vị địa lý dựa trên proxy: Định tuyến lưu lượng qua các IP khu vực cụ thể để lấy dữ liệu địa phương

Tôi đã sử dụng Requests với bộ điều hợp retry tùy chỉnh cho một scraper kéo khoảng 50 nghìn trang mỗi ngày. Cấu hình mặc định thất bại ở khoảng 0,8% yêu cầu; thêm Retry với backoff_factor=1 đã giảm xuống gần như bằng không.
—Người dùng Stack Overflow

Thư viện Python Requests: Retry yêu cầu

Cơ chế retry trong thư viện Requests trở nên thiết yếu ngay khi tự động hóa của bạn vượt ra ngoài các lời gọi đơn giản, một lần thành các quy trình làm việc cấp độ production. Các lỗi tạm thời có thể bao gồm:

gateway trả về 502
hạn chế địa lý với 451
giới hạn tốc độ với 429

Đây không phải là lỗi trong mã của bạn; chúng là các hành vi dự kiến của cơ sở hạ tầng HTTP trong thực tế. Thay vì để những lỗi này làm sập script của bạn, mẫu retry tự động phát lại yêu cầu thất bại sau một khoảng thời gian trễ có thể cấu hình, cho máy chủ từ xa thời gian để phục hồi.

💬

Bối cảnh thực tế: Theo phân tích các quy trình tự động hóa production, lên đến 1% yêu cầu HTTP thất bại do các vấn đề tạm thời. Đối với một scraper xử lý 100.000 URL mỗi ngày, đó là 1.000 yêu cầu thất bại mà chiến lược retry có thể khôi phục âm thầm, không cần can thiệp thủ công.

Python Requests: Chiến lược Retry và xoay vòng IP

Thư viện Requests không triển khai retry nguyên bản ở cấp độ requests.get() . Thay vào đó, bạn cấu hình chúng thông qua urllib3.util.Retry, được gắn vào session thông qua một HTTPAdapter. Điều này cho bạn quyền kiểm soát chi tiết:

Cho phép bao nhiêu lần thử
Mã trạng thái HTTP nào nên kích hoạt retry
Độ trễ backoff nào áp dụng giữa các lần thử
Phương thức HTTP nào an toàn để retry

Đây là thiết lập retry cơ bản bao quát các tình huống tự động hóa phổ biến nhất:

python

import requests
from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retry

def build_retry_session(
    retries: int = 3,
    backoff_factor: float = 1.0,
    status_forcelist: tuple = (429, 500, 502, 503, 504),
    allowed_methods: frozenset = frozenset(["GET", "HEAD", "OPTIONS"])
) -> requests.Session:

    """
    Build a requests.Session with automatic retry logic.
    backoff_factor: delay = backoff_factor * (2 ** (attempt - 1))
    Example: 1.0 → waits 1s, 2s, 4s between attempts
    """

    session = requests.Session()
    retry = Retry(
        total=retries,
        read=retries,
        connect=retries,
        backoff_factor=backoff_factor,
        status_forcelist=status_forcelist,
        allowed_methods=allowed_methods,
        raise_on_status=False
    )

    adapter = HTTPAdapter(max_retries=retry)
    session.mount("https://", adapter)
    session.mount("http://", adapter)

Khi kết hợp với xoay vòng IP, mẫu này trở nên mạnh mẽ hơn đáng kể. Lỗi 429 hoặc 520 xảy ra vì một địa chỉ IP cụ thể bị gắn cờ thường sẽ thành công ở lần thử tiếp theo từ một địa chỉ khác.

💡

Đây là lý do tại sao việc kết hợp logic retry với nhà cung cấp proxy xoay vòng như CyberYozh là phương pháp được khuyến nghị cho scraping quy mô lớn.

Xử lý các yêu cầu thất bại bằng lệnh Retry

Retry class từ urllib3 chặn các lỗi trước khi chúng xuất hiện dưới dạng ngoại lệ trong mã của bạn, tự động gửi lại yêu cầu theo chính sách đã cấu hình. Dưới đây là tóm tắt về thời điểm phương pháp này có giá trị nhất:

Thu thập dữ liệu quy mô lớn: Khi hàng chục nghìn yêu cầu được gửi hàng ngày, và ngay cả tỷ lệ lỗi 1% cũng có nghĩa là hàng nghìn bản ghi bị mất
Quy trình làm việc với API polling: Khi một sự cố tạm thời của máy chủ không nên làm gián đoạn một công việc chạy lâu dài
Quy trình luân chuyển proxy: Khi một địa chỉ IP bị cấm hoặc giới hạn tốc độ nên tự động kích hoạt thử lại trên địa chỉ tiếp theo
Tự động hóa dựa trên session: Khi lỗi 503 trong quá trình thanh toán hoặc đăng nhập nên được thử lại trước khi hiển thị lỗi cho người dùng
Quy trình dữ liệu phân tán: Khi các lỗi của worker riêng lẻ nên tự phục hồi mà không cần khởi động lại

💬

Công cụ tự động hóa: Cùng một bộ điều hợp retry hoạt động liền mạch trên requests.get(), requests.post(), và bất kỳ phương thức nào được gọi trên requests.Session(). Điều này giúp dễ dàng xây dựng logic retry một lần và áp dụng nó ở mọi nơi trong codebase thu thập dữ liệu hoặc tự động hóa.

Khi logic retry đã được thiết lập ở cấp độ session, bước tiếp theo là điều chỉnh nó theo từng lỗi. Không phải tất cả các mã 4xx và 5xx đều yêu cầu cùng một chiến lược: một số cần backoff theo cấp số nhân, một số cần thay đổi proxy, và một số không nên được thử lại.

Chiến lược retry cho các lỗi khác nhau

Mỗi mã lỗi HTTP có một nguyên nhân cụ thể, và chiến lược retry hiệu quả nhất phụ thuộc vào việc hiểu nguyên nhân đó. Dưới đây là các mã lỗi liên quan nhất cho quy trình tự động hóa và thu thập dữ liệu.

Retry với HTTP 417

HTTP 417 — Expectation Failed: Máy chủ từ chối yêu cầu vì không thể đáp ứng các yêu cầu được chỉ định trong header Expect

Lỗi này thường xảy ra khi một HTTP client tự động thêm header Expect: 100-continue vào các yêu cầu POST có nội dung lớn, và máy chủ không hỗ trợ nó. Điều này phổ biến trong quy trình tự động hóa sử dụng thư viện Requests để tải dữ liệu lên hoặc gửi payload form lớn đến các máy chủ web cũ hoặc nghiêm ngặt.

Giải pháp

Cách khắc phục đúng là loại bỏ header Expect thay vì thử lại một cách mù quáng. Thử lại mà không xử lý header sẽ tạo ra cùng lỗi 417 ở mọi lần thử. Khi header đã được loại bỏ, không cần độ trễ backoff: yêu cầu sẽ thành công ngay lập tức.

⚠️

Lưu ý: 417 không nên không được thêm vào status_forcelist trong Retry adapter của bạn, vì đây là lỗi cấu hình, không phải lỗi tạm thời từ máy chủ. Hãy sửa request; đừng retry một cách mù quáng.

Retry với HTTP 429

HTTP 429 — Too Many Requests: Máy chủ đang thực thi giới hạn tốc độ và đã từ chối request của bạn vì bạn đã vượt quá giới hạn đó

Đây là mã lỗi quan trọng nhất mà người dùng scraping và automation cần xử lý đúng cách. Hầu hết các API hiện đại và hệ thống chống bot đều phát ra 429 trước khi leo thang lên cấm IP, khiến nó trở thành tín hiệu quan trọng cần tôn trọng thay vì bỏ qua. Máy chủ thường bao gồm header Retry-After cho biết cần đợi bao lâu.

Giải pháp

Sử dụng exponential backoff và quan trọng hơn, đọc và tuân thủ header Retry-After bằng cách sử dụng hàm response.headers.get() . Kết hợp điều này với IP rotation để các lần retry tiếp theo đến từ địa chỉ khác. Nếu giới hạn tốc độ là theo IP (phổ biến ở các mục tiêu scraping), rotation cho phép bạn tiếp tục làm việc trong khi hạn ngạch của IP ban đầu được reset.

🔑

Xem hướng dẫn IP rotation của CyberYozh để biết chi tiết về chiến lược rotation

Retry với HTTP 451

HTTP 451 — Unavailable for Legal Reasons: Máy chủ từ chối do các hạn chế nội dung do chính phủ quy định

Mã 451 được trả về khi máy chủ cố ý giữ lại nội dung dựa trên nguồn gốc địa lý của request hoặc yêu cầu tuân thủ pháp lý. Không giống như 403 (forbidden chung chung), 451 rõ ràng báo hiệu rằng việc chặn là do yêu cầu pháp lý từ vị trí địa lý cụ thể này.

Giải pháp

Không retry với cùng IP và headers, vì lỗi này mang tính xác định đối với nguồn gốc đó. Phản ứng đúng là chuyển sang proxy IP ở khu vực địa lý tuân thủ. Residential proxy ở khu vực pháp lý được phép thường sẽ giải quyết 451 ngay lập tức. Ghi chú điều này trong logic retry của bạn như một tín hiệu «không retry» mà thay vào đó nên kích hoạt việc chuyển đổi khu vực proxy.

🔑

Khám phá geotargeting là gì và cách sử dụng nó trong quy trình làm việc của bạn.

Retry với HTTP 499

HTTP 499 — Client Closed Request: Mã Nginx không chuẩn cho biết client đã đóng kết nối trước khi máy chủ hoàn thành phản hồi

Lỗi này xuất hiện trong log Nginx phía máy chủ, không phải trong HTTP response mà Python client của bạn nhận được. Nó hầu như luôn do timeout không khớp: timeout phía Python client của bạn ngắn hơn thời gian phản hồi thực tế của máy chủ. Nó có thể do proxy thêm độ trễ, đặc biệt là các IP bị đánh dấu hoặc cách xa về mặt địa lý.

Giải pháp

Tăng timeout phía client và đảm bảo cơ sở hạ tầng proxy của bạn có độ trễ thấp, ổn định. Như đã lưu ý trong Hướng dẫn HTTP 499 của CyberYozh, một proxy IP chậm hoặc bị đánh dấu là một trong những nguyên nhân ẩn phổ biến nhất gây ra timeout dẫn đến lỗi 499 trong quy trình tự động hóa. Kết hợp retry có nhận thức về timeout với proxy mới, độ trễ thấp trong mỗi lần thử.

Retry với HTTP 502

HTTP 502 — Bad Gateway: Một máy chủ hoạt động như gateway (proxy, load balancer, hoặc CDN) nhận được phản hồi không hợp lệ từ máy chủ upstream

Lỗi 502 trong quy trình scraping và tự động hóa thường báo hiệu sự cố upstream tạm thời: máy chủ backend tạm thời không khả dụng, đang khởi động lại, hoặc quá tải. Đây là một trong những lỗi có thể retry đáng tin cậy nhất vì upstream thường phục hồi trong vài giây. Nó cũng thường xảy ra khi chính proxy endpoint tạm thời bị suy giảm.

Giải pháp

Sử dụng exponential backoff với 2–3 lần retry. Vì lỗi thường là tạm thời, độ trễ 1–4 giây thường là đủ. Bao gồm 502 trong status_forcelistcủa bạn: việc retry là an toàn với các phương thức GET, HEAD và OPTIONS.

Retry với HTTP 520

HTTP 520 — Unknown Error: Một mã lỗi đặc thù của Cloudflare được trả về khi máy chủ origin trả về phản hồi không mong đợi hoặc rỗng cho các máy chủ edge của Cloudflare

Lỗi 520 là mã lỗi tổng quát của Cloudflare cho «đã có gì đó xảy ra sai giữa Cloudflare và máy chủ origin của bạn.» Đối với quy trình tự động hóa và scraping, nó hầu như luôn có nghĩa là hệ thống chống bot của target (Cloudflare Bot Management, quy tắc WAF) đã xác định IP hoặc mẫu request của bạn là đáng ngờ và đang chặn lưu lượng đến origin. Nó cũng có thể xuất hiện trong thời gian máy chủ origin không ổn định.

Giải pháp

Lỗi 520 nên kích hoạt cả backoff retry và xoay vòng proxy IP. Nếu việc chặn do bot gây ra (trường hợp phổ biến nhất trong scraping), việc retry từ cùng một IP sẽ tiếp tục thất bại. Xoay sang IP residential có độ tin cậy cao hoặc mobile proxy, mà Cloudflare đối xử với mức độ tin cậy cao hơn đáng kể, sẽ tăng đáng kể tỷ lệ thành công. Kết hợp điều này với xoay vòng user-agent ngẫu nhiên để giảm thêm các tín hiệu phát hiện.

Thư viện request và proxy

Các pipeline tự động hóa có khả năng phục hồi tốt nhất kết hợp adapter retry của Requests với xoay vòng proxy động: mỗi request thất bại được retry từ một địa chỉ IP khác, loại bỏ các loại lỗi do chặn theo IP, giới hạn tốc độ và hạn chế địa lý trong một mẫu duy nhất.

⚙️

⚙️ Hướng dẫn xoay vòng proxy Python của CyberYozh cho thấy cách cấu hình điều này bằng một endpoint proxy xoay vòng duy nhất. Không cần quản lý danh sách IP, chỉ cần một chuỗi thông tin xác thực tự động cung cấp IP residential mới trong mỗi request.

Dưới đây là bảng tóm tắt về từng lỗi được mô tả ở đây và chiến lược retry cho mỗi lỗi.

Lỗi	Nguồn gốc	Giải pháp
HTTP 417	Vấn đề với header Expect	Loại bỏ Expect header tự động trước khi thử lại
HTTP 429	Vượt quá giới hạn tốc độ	Tuân thủ header Retry-After cho biết bạn nên đợi bao lâu
HTTP 451	Nội dung bị hạn chế theo vị trí địa lý	Chuyển sang IP mới với vị trí địa lý từ quốc gia khác
HTTP 499	Không khớp thời gian chờ	Cải thiện độ trễ proxy và tăng thời gian chờ phía client
HTTP 502	Sự cố cổng máy chủ	Lùi lại theo cấp số nhân với 2-3 lần thử lại (đợi 2, 4, 8 giây)
HTTP 520	Cloudflare chặn yêu cầu	Chuyển sang IP mới có chất lượng tốt hơn và xoay vòng chuỗi user agent

Tóm tắt về việc sử dụng retry trong Requests

Bộ điều hợp Retry của thư viện Python Requests, được hỗ trợ bởi urllib3, cung cấp cho các nhà phát triển một cách ngắn gọn và khai báo để xử lý hầu như mọi loại lỗi HTTP tạm thời, từ 429 giới hạn tốc độ đến 520 của Cloudflare. Khi kết hợp với các proxy dân cư hoặc di động xoay vòng, việc thử lại trở nên chịu lỗi và thích ứng chiến lược: mỗi lần thử mới đến từ một IP mới, vô hiệu hóa các nguyên nhân phổ biến nhất gây ra chặn liên tục trong quy trình scraping và tự động hóa trong môi trường sản xuất.

⭐

Truy cập danh mục proxy của CyberYozh và chọn các proxy dân cư và di động xoay vòng tốt nhất cho nhu cầu của bạn.

Python Requests Retry: Tối ưu hóa quy trình làm việc với yêu cầu

TL;DR

Giới thiệu: Thư viện Python Requests

Sử dụng thư viện Requests: Các trường hợp sử dụng chung

Thư viện Python Requests: Retry yêu cầu

Python Requests: Chiến lược Retry và xoay vòng IP

Xử lý các yêu cầu thất bại bằng lệnh Retry

Chiến lược retry cho các lỗi khác nhau

Retry với HTTP 417

Retry với HTTP 429

Retry với HTTP 451

Retry với HTTP 499

Retry với HTTP 502

Retry với HTTP 520

Thư viện request và proxy

Tóm tắt về việc sử dụng retry trong Requests

Câu hỏi thường gặp về chức năng thử lại của thư viện Requests

Sự khác biệt giữa max_retries trong HTTPAdapter và viết vòng lặp thử lại thủ công là gì?

Những phương thức HTTP nào được thử lại theo mặc định với urllib3.Retry?

backoff_factor thực sự tính toán gì trong urllib3.Retry?

Làm thế nào để khắc phục MaxRetryError: Max retries exceeded with URL?

Tôi có nên thêm 429 vào status_forcelist hay xử lý nó riêng biệt?

Có an toàn khi tự động thử lại các yêu cầu POST không?

Sự khác biệt giữa HTTP 499 và HTTP 502 là gì?

Chiến lược thử lại tốt nhất cho các trang web được bảo vệ bởi Cloudflare (HTTP 520) là gì?

Tôi nên cấu hình bao nhiêu lần thử lại cho scraper production?