Screaming Frog SEO Spider — không quá lời khi nói rằng đây là công cụ làm việc chính cho việc kiểm toán SEO kỹ thuật (technical SEO audit). Chương trình mạnh mẽ này có khả năng quét hàng ngàn URL, thu thập dữ liệu quan trọng về cấu trúc trang web, thẻ meta, mã phản hồi và nhiều thông tin khác. Tuy nhiên, khi làm việc với các dự án lớn hoặc phân tích đối thủ cạnh tranh, mọi chuyên gia đều phải đối mặt với những hạn chế cơ bản:
- Giới hạn kết nối (Rate Limiting): Các trang web lớn và CDN (mạng phân phối nội dung) sử dụng WAF (Web Application Firewall) để bảo vệ khỏi tải trọng cao. Việc quét cường độ cao từ một địa chỉ IP thường vượt quá giới hạn của máy chủ, có thể dẫn đến ngắt kết nối hoặc hạn chế quyền truy cập.
- Nội dung phụ thuộc địa lý: Trang web có thể hiển thị nội dung, giá cả hoặc thậm chí là các phiên bản ngôn ngữ khác nhau tùy thuộc vào vị trí địa lý của người dùng. Khi quét trang web từ quốc gia của mình, bạn có nguy cơ không nhìn thấy những gì đối tượng mục tiêu của bạn nhìn thấy, ví dụ ở Hoa Kỳ hoặc Đức.
- Kiểm tra Cloaking (Che dấu nội dung): Một số trang web không trung thực hiển thị cho các robot tìm kiếm (ví dụ: Googlebot) một phiên bản nội dung, nhưng lại hiển thị cho người dùng thực một phiên bản khác. Để phát hiện điều này, cần định tuyến phân tích qua địa chỉ IP liên quan đến các khu vực của công cụ tìm kiếm để kiểm tra chính xác nội dung hiển thị.
Giải pháp cho tất cả các vấn đề này là thiết lập máy chủ proxy một cách khoa học trực tiếp trong Screaming Frog. Điều này biến một trình quét tiêu chuẩn thành một công cụ mạnh mẽ để phân tích SEO toàn diện và độc lập với vị trí địa lý.
Phần 1. Chiến lược: Bạn cần loại proxy nào cho Screaming Frog?
Việc lựa chọn proxy phụ thuộc vào mục tiêu quét. Lựa chọn sai sẽ dẫn đến chi phí phát sinh không đáng có hoặc kết nối bị ngắt ngay lập tức do giới hạn của máy chủ.
1. Proxy trung tâm dữ liệu (Datacenter) — Cho các dự án cá nhân và kiểm toán kỹ thuật
- Nó là gì: Các IP tốc độ cao từ các trung tâm dữ liệu.
- Để làm gì: Kiểm toán các trang web của chính bạn (nơi bạn có thể thêm IP vào danh sách trắng), kiểm tra trang web của khách hàng, làm việc với các tài nguyên không có bảo vệ.
- Ưu điểm: Tốc độ quét tối đa, giá thành thấp.
- Nhược điểm: Thường bị hạn chế trên các trang web bên ngoài.
2. Proxy dân cư (ISP/Residential) — Để phân tích đối thủ cạnh tranh
- Nó là gì: Địa chỉ IP từ các nhà cung cấp dịch vụ internet gia đình thực tế.
- Để làm gì: Quét các trang web đối thủ, sàn thương mại điện tử, trang web tổng hợp thông tin.
- Tại sao: Các IP này cung cấp định tuyến dân cư tiêu chuẩn. Điều này cho phép xử lý lượng lớn trang web một cách suôn sẻ mà không kích hoạt các hạn chế tự động.
3. Proxy di động (4G/5G) — Để kiểm tra kết quả tìm kiếm trên thiết bị di động
- Nó là gì: IP từ các nhà mạng di động.
- Để làm gì: Kiểm tra cách trang web hiển thị cho người dùng di động, truy cập nội dung được bản địa hóa nghiêm ngặt.
- Tại sao: Nếu trang web sử dụng "cloaking" (hiển thị nội dung khác nhau cho máy tính và di động), proxy di động kết hợp với User-Agent của điện thoại thông minh sẽ giúp bạn kiểm tra trải nghiệm người dùng thực tế trên thiết bị di động.
- 👉 Tìm hiểu thêm về proxy di động tại đây
Phần 2: Hướng dẫn thiết lập proxy từng bước trong Screaming Frog
Quá trình thiết lập rất trực quan và chỉ mất vài phút. Bạn sẽ cần dữ liệu proxy của mình: địa chỉ IP, cổng và dữ liệu xác thực (tên đăng nhập/mật khẩu).
Bước 1: Thu thập thông tin xác thực proxy
Bước đầu tiên và quan trọng nhất là đảm bảo bạn có đầy đủ bộ dữ liệu xác thực. Những "chìa khóa" này sẽ cho phép ứng dụng hoặc trình duyệt của bạn kết nối với máy chủ proxy và điều hướng lưu lượng truy cập qua đó.
Hãy chuẩn bị các dữ liệu sau:
- Địa chỉ IP (máy chủ host)
- Cổng (Port) để kết nối
- Tên đăng nhập (Login) và mật khẩu (Password) để xác thực
- Loại giao thức (HTTP/HTTPS hoặc SOCKS5)
Hình 1. Ảnh chụp màn hình này cho thấy các trường cần thiết để kết nối với máy chủ proxy nằm ở đâu trong tài khoản cá nhânCyberYozh App.
Bước 2: Truy cập cài đặt proxy
- Khởi động Screaming Frog SEO Spider.
- Trong menu trên cùng, hãy truy cập phần «File» -> «Settings...» -> «Proxy».
Hình 2. Ảnh chụp màn hình này cho thấy menu thả xuống «File» -> «Settings...», nơi bạn cần chọn mục «Proxy» để đi tới cài đặt.
Bước 3: Kích hoạt và nhập dữ liệu
- Trong cửa sổ «Settings» vừa mở ra, hãy chuyển sang tab «Proxy».
- Tích vào ô «Use Proxy Server» để kích hoạt tính năng.
Hình 3. Ảnh chụp màn hình này cho thấy cửa sổ «Settings», nơi cần tích vào ô «Use Proxy Server» để kích hoạt tính năng.
- Trong trường «Address» nhập địa chỉ IP proxy của bạn, và trong trường «Port» — cổng của nó.
- Nếu proxy của bạn yêu cầu xác thực (đây là tiêu chuẩn cho các proxy chất lượng), hãy kích hoạt tùy chọn «Use Proxy Credentials».
Hình 4. Ảnh chụp màn hình này cho thấy quá trình kích hoạt tùy chọn «Use Proxy Credentials».
- Điền vào các trường «Username» và «Password».
- Sau khi nhập tất cả dữ liệu, hãy nhấn nút «OK and Restart». Chương trình sẽ tự động khởi động lại để áp dụng các cài đặt mạng mới.
Hình 5. Ảnh chụp màn hình này cho thấy giai đoạn cuối cùng của việc lưu cài đặt: sau khi nhập tất cả dữ liệu, bao gồm tên đăng nhập và mật khẩu, bạn cần nhấn nút «OK and Restart».
Phần 3: Kiểm tra và xác minh hoạt động của proxy
Việc thiết lập đã hoàn tất, nhưng làm thế nào để đảm bảo rằng trình quét thực sự đang hoạt động qua proxy? Hãy thực hiện một lần quét thử đơn giản.
Bước 4: Quét thử nghiệm
- Chúng ta sẽ sử dụng một dịch vụ chuyên dụng để kiểm tra IP làm URL mục tiêu —
https://browserleaks.com/ip. Điều này sẽ cho phép chúng ta thấy chính xác yêu cầu từ Screaming Frog đến từ địa chỉ IP nào. - Dán URL này vào trường chính và nhấn «Start».
Hình 6. Ảnh chụp màn hình này cho thấy việc chuẩn bị quét thử nghiệm: URL của trang web https://browserleaks.com/ip đã được dán vào trường chính của chương trình để kiểm tra.
Bước 5: Phân tích kết quả
- Chờ đợi quá trình quét hoàn tất. Trong cửa sổ chính, bạn sẽ thấy danh sách các URL đã được quét.
Hình 7. Ảnh chụp màn hình này cho thấy kết quả quét. Trong cửa sổ chính hiển thị danh sách các URL đã quét, và trên biểu đồ bên phải — sự phân bổ các loại nội dung.
- Để thấy rõ ràng những tài nguyên nào trình quét đã yêu cầu, bạn có thể sử dụng tính năng trực quan hóa. Nhấp chuột phải vào URL chính (
https://browserleaks.com/ip), chọn «Visualisations» -> «Crawl Tree Graph».
Hình 8. Ảnh chụp màn hình này cho thấy cách trực quan hóa kết quả: thông qua menu ngữ cảnh cho URL chính, chọn mục «Visualisations» -> «Crawl Tree Graph».
Bước 6: Xác minh trực quan
- Một biểu đồ liên kết sẽ mở ra. Trên đó, bạn sẽ thấy rằng
browserleaks.comđã yêu cầu dữ liệu từ một địa chỉ IP bên ngoài (trong ví dụ của chúng ta là87.192.224.71). Đây chính là địa chỉ IP mà trang web mục tiêu "nhìn thấy", tức là IP proxy của bạn.
Hình 9. Ảnh chụp màn hình này cho thấy biểu đồ liên kết «Crawl Tree Graph», minh họa rõ ràng rằng các yêu cầu từ trình quét được gửi đến một địa chỉ IP bên ngoài thuộc về máy chủ proxy.
- Để chắc chắn 100%, bạn có thể mở
browserleaks.com/iptrong một trình duyệt thông thường được thiết lập cùng một proxy đó. Bạn sẽ thấy cùng một thông tin, điều này xác nhận rằng Screaming Frog đang hoạt động thành công qua máy chủ proxy mà bạn đã chỉ định.
Hình 10. Ảnh chụp màn hình này cho thấy ví dụ kiểm tra địa chỉ IP bên ngoài 87.192.224.71 qua dịch vụ browserleaks.com, cho phép xác nhận IP mà máy chủ cuối nhìn thấy.
Kết luận
Tuyệt vời! Bạn đã thiết lập thành công Screaming Frog để hoạt động qua proxy. Giờ đây, bạn có thể thực hiện kiểm toán SEO sâu rộng và không bị cản trở ở bất kỳ quy mô nào, không bị gián đoạn kết nối và nhận được dữ liệu chính xác như cách người dùng từ bất kỳ nơi nào trên thế giới nhìn thấy. Kỹ năng này là một phần không thể thiếu trong kho vũ khí của một chuyên gia SEO chuyên nghiệp hiện đại.
👉 Bạn đang tìm kiếm proxy đáng tin cậy cho Screaming Frog? Đối với các nhiệm vụ quét, proxy trung tâm dữ liệu tốc độ cao hoặc proxy dân cư là sự lựa chọn lý tưởng. Trong danh mục của CyberYozh App, bạn sẽ tìm thấy các proxy ổn định giúp đảm bảo hoạt động không gián đoạn cho "con nhện" SEO của mình.
