Công cụ phân tích tổng thể SEO miễn phí

Sửa lỗi index bloat: 9 cách để Google deindex trang web

Google hoạt động tốt nhưng đôi khi quá mức, index các trang không muốn được tìm kiếm.

√ URL không mong muốn không có trong sitemap

√ URL không được liên kết nội bộ trên trang web (orphaned URL).

√ URL lạ bạn thậm chí có thể không biết.

Hầu hết các chuyên gia SEO quan tâm việc các trang được Google index. Nhưng bạn cũng cần tính đến việc deindex các trang có ít thông tin hữu ích.

Cùng tìm hiểu tại sao có ít trang được index hơn lại có thể mang lại lượng truy cập tự nhiên (organic session) cao hơn. Các phương pháp deindex khác nhau ảnh hưởng đến SEO như thế nào?

Index bloat là gì?

Index bloat là khi một trang web có quá nhiều trang có ít có thông tin hữu ích được các công cụ tìm kiếm index. Các trang này thường được tạo tự động có ít hoặc không có nội dung độc đáo.

Sự tồn tại của các URL này ảnh hưởng tới toàn bộ quy trình SEO kỹ thuật.

Các loại URL phổ biến gây ra index bloat bao gồm:

√ Kết hợp bộ lọc từ điều hướng đa chiều (facated navigation).

√ Trang lưu trữ (archive page) lộn xộn.

√ Trang thẻ (tag page) không bị hạn chế.

√ Trang đánh số trang.

√ Trang thông số (parameter page) không đáng tin cậy.

√ Trang nội dung đã hết hạn.

√ Các trang kết quả tìm kiếm trên trang web không được tối ưu.

√ Hồ sơ người dùng được tạo tự động có ít nội dung.

√ URL theo dõi (tracking URL)

√ Sử dụng sai http đến https.

√ Không nhất quán www và non-www.

√ Các thư mục con không nên được index.

Index bloat làm giảm hiệu quả thu thập thông tin khi Googlebot quét qua các đường dẫn có ít thông tin hữu ích. Điều này làm chậm tốc độ index nội dung mới và thu thập lại nội dung được cập nhật có giá trị SEO.

Xem thêm bài viết làm sao để Google index nhanh.

Thông thường, index bloat bao gồm nội dung trùng lặp hoặc chồng chéo từ khóa (keyword cannibalization).

Với nhiều trang từ một trang web cạnh tranh cho cùng mục đích tìm kiếm, điều này trở nên khó hiểu đối với các công cụ tìm kiếm, trang nào có liên quan nhất vì tín hiệu xếp hạng được phân chia trên nhiều URL.

Điều này ảnh hưởng tới khả năng trang web được xếp hạng ở các vị trí đầu.

Và nếu các trang chất lượng thấp được xếp hạng, người tìm kiếm có thể sẽ thất vọng với trang đích (landing page) và pogostick (người dùng vào website của bạn từ những kết quả tìm kiếm, sau đó họ không tương tác gì hết và họ rời khỏi website). Gửi tín hiệu trải nghiệm người dùng kém đến Google và ảnh hưởng xấu tới thương hiệu của bạn.

Tất cả điều này làm giảm đánh giá chất lượng của tên miền (domain) trong các công cụ tìm kiếm.

Đây là vấn đề vì các URL không chỉ được xếp hạng dựa trên giá trị riêng của chúng mà còn dựa trên trang web đó.

Mỗi trang được index ảnh hưởng đến cách các thuật toán chất lượng của Google đánh giá uy tín của trang web.

Theo Google Webmaster Central:

Nội dung chất lượng thấp trên một số phần của trang web có thể ảnh hưởng đến toàn bộ xếp hạng của trang web, loại bỏ các trang chất lượng thấp có thể giúp xếp hạng nội dung chất lượng cao hơn.

John Mueller đã tìm hiểu kỹ lưỡng về vấn đề này vào năm 2015.

Các thuật toán chất lượng của chúng tôi nhìn vào trang web nói chung, vì vậy chúng tôi xem xét mọi thứ được index. Nếu chúng tôi thấy rằng phần lớn nội dung được index thực sự là nội dung chất lượng thấp hơn thì có thể đánh giá trang web này nói chung thuộc nhóm chất lượng thấp hơn. Nếu bạn có thể nói với chúng tôi rằng nội dung chất lượng thấp hơn này không nên được index và không nên được xem xét, thì chúng tôi có thể tập trung vào những nội dung chất lượng tốt bạn cho phép chúng tôi index.

John lặp lại thử nghiệm một lần nữa vào tháng 3 năm 2017. Một lần nữa vào tháng 8 năm 2017. Và một lần nữa vào tháng 10 năm 2017.

Đây là lý do tại sao mục tiêu của SEO không phải là càng nhiều trang được index càng tốt. Thay vào đó là tạo ra những nội dung hữu ích cho người tìm kiếm và trang đích (landing page).

Để đạt được mục tiêu này, bạn chỉ nên cho phép index các trang bạn muốn người tìm kiếm truy cập và deindex tất cả các trang không cung cấp thông tin độc đáo cho công cụ tìm kiếm hoặc người dùng.

Cách xác định index bloat

Báo cáo tin tức của Google Search Console (GSC) là một trong những cách nhanh nhất và đáng tin cậy nhất để xác định các trang gây ra index bloat.

Giả sử sitemap XML của bạn phù hợp với các kỹ thuật tốt nhất về SEO, bao gồm chỉ các URL có liên quan đến SEO, chỉ cần xem các URL mẫu được index nhưng không có trong sitemap.

Cách xác định index bloat

Nếu sitemap XML của bạn không được tối ưu hóa, hãy chạy công cụ thu thập thông tin không giới hạn và so sánh số lượng URL có thể được index chọn bởi trình công cụ thu thập thông tin với số lượng trang hợp lệ.

Nếu bạn có các trang hợp lệ hơn so với các URL được thu thập thông tin, có khả năng xảy ra sự cố index bloat.

Đừng sử dụng một trang web: tìm kiếm operator nâng cao để đếm số lượng trang được index, cách này không đáng tin cậy.

Khi bạn đã xác định các trang có ít thông tin hữu ích cần deindex, cần tham chiếu chéo các URL dựa trên dữ liệu Google Analytics để đánh giá hiệu quả có thể có trong lượt truy cập tự nhiên (organic session).

Thông thường, sẽ không có tác động tiêu cực, nhưng tốt nhất hãy chắc chắn trước khi bạn thực hiện deindex quy mô lớn.

Cách deindex trang khỏi Google

Có nhiều cách bạn có thể đẩy các trang không mong muốn ra khỏi index của công cụ tìm kiếm. Mỗi cách có ưu và nhược điểm riêng.

Nhưng hầu hết các cách deindex sửa lỗi index bloat dựa trên các quy tắc cho các loại trang.

Điều này giúp dễ dàng thực hiện các chiến lược cải tiến nội dung khác dựa trên cách tiếp cận từng trang, chẳng hạn như xuất bản lại nội dung.

1. 410 Gone hoặc 2. 404 Page Not Found

410 Gone hoặc 2. 404 Page Not Found

Cách nhanh chóng để deindex một trang là máy chủ trả về mã trạng thái 410 HTTP (tức là Gone – Đã được di dời).

Điều này báo hiệu cho Google trang này đã bị xóa một cách có chủ ý, rõ ràng hơn mã 404 (tức là Page not found – Không tìm thấy trang), điều này sẽ dẫn đến việc deindex chậm hơn một chút.

Đối với bất cứ ai quan tâm đến các lỗi 4xx, Google không phạt các mã 4xx. Nhưng nếu URL có bất kỳ tín hiệu xếp hạng nào, chúng sẽ bị mất.

Đánh giá ngăn chặn index float: 1/5

Đánh giá kiểm soát thiệt hại index float: 4/5

3. 301 Redirect

301 Redirect

Nếu index bloat là do nhiều trang về cùng một chủ đề, bạn có thể sát nhập chúng thành một trang duy nhất với kỹ thuật 301 redirect và hợp nhất các tín hiệu xếp hạng.

Để Google deindex các trang được chuyển hướng, nó phải thu thập dữ liệu URL gốc, xem mã trạng thái 301, thêm URL đích vào hàng đợi thu thập thông tin và sau đó xử lý nội dung để xác nhận tính tương đương. Do đó, các tín hiệu xếp hạng sẽ được chuyển tiếp.

Quá trình có thể chậm nếu URL đích có mức độ ưu tiên thấp trong hàng đợi thu thập dữ liệu. Và quá trình cực kỳ chậm nếu bạn có các chuỗi chuyển hướng (redirect chain).

Ngoài ra, nếu bạn chuyển hướng đến một trang không liên quan, chẳng hạn như trang chủ, Google sẽ coi đây là lỗi 404 và không chuyển tiếp các tín hiệu xếp hạng. Trong trường hợp đó, sẽ dẫn tới lỗi 410 gone nhưng quá trình deindex nhanh hơn.

Đánh giá ngăn chặn index float: 1/5

Đánh giá kiểm soát thiệt hại index float: 3/5

4. Rel=Canonical Link

Rel=Canonical Link

Đối với các URL nội dung trùng lặp, liên kết rel=canonical gợi ý cho Google index những URL trùng lặp.

Nếu thẻ được chấp nhận, các trang thay thế (trùng lặp có ít thông tin hữu ích) sẽ được thu thập thông tin nhưng ít thường xuyên hơn và sẽ bị loại khỏi index, chuyển tiếp các tín hiệu xếp hạng sang liên kết chính tắc (trang ưu tiên được index).

Nhưng để được chấp nhận, nội dung phải giống nhau và cả hai URL cần được Google thu thập và xử lý, điều này có thể hơi chậm.

Đánh giá ngăn chặn index float: 4/5

Đánh giá kiểm soát thiệt hại index float: 2/5

5. Công cụ thông số URL (URL Parameter Tool)

Công cụ thông số URL

Trong Google Search Console, bạn có thể chỉ định cách Googlebot xử lý các thông số.

Ba nhược điểm của công cụ thông số URL:

  • Nó chỉ có tác dụng nếu URL dựa trên thông số.
  • Nó không hướng đến bất kỳ công cụ tìm kiếm nào ngoại trừ Google.
  • Nó được thiết kế chỉ để kiểm soát thu thập thông tin.

Mặc dù không trực tiếp kiểm soát index, nhưng nếu bạn chỉ định “Không thu thập thông tin” (No Crawl” trên thông số, John Mueller đã nhận xét rằng các URL đó cuối cùng sẽ bị loại khỏi index.

Nhưng cái gì cũng có cái giá của nó, nếu Googlebot không thể thu thập dữ liệu, các tín hiệu có thể không được xử lý, điều này có thể ảnh hưởng đến xếp hạng hoặc trích xuất các liên kết nội bộ để thêm vào hàng đợi thu thập thông tin, có thể làm chậm index trang web.

Đánh giá ngăn chặn index float: 3/5

Đánh giá kiểm soát thiệt hại index float: 1/5

6. Robots.txt

Robots.txt

Không cho phép các lệnh trong tệp robots.txt cho các công cụ tìm kiếm biết trang nào không được phép thu thập dữ liệu.

Tương tự như công cụ thông số URL, công cụ này không trực tiếp kiểm soát index. Nếu trang được liên kết từ các nơi khác trên web, Google có thể cho rằng nó có liên quan để index.

Ngoài ra, việc chặn trong tệp robots.txt không phải là tín hiệu rõ ràng về cách các công cụ tìm kiếm nên xử lý các URL đang được index.

Vì vậy, theo thời gian, có khả năng các trang sẽ bị loại khỏi index vì Google có xu hướng không bao gồm các trang không thể thu thập dữ liệu, đây sẽ là quá trình chậm.

Đánh giá ngăn chặn index float: 2/5

Đánh giá kiểm soát thiệt hại index float: 1/5

7. Thẻ Noindex

Thẻ Noindex

Để chặn hoàn toàn một trang khỏi bị index, bạn cần sử dụng thẻ meta robot “noindex” hoặc thẻ X-Robots-Tag. Đừng sử dụng lệnh noindex trong tệp robots.txt vì điều này không được các công cụ tìm kiếm đánh giá cao.

Lệnh noindex ảnh hưởng đến xếp hạng:

  • Ngăn chặn bổ sung hoặc, sau khi được xử lý, đảm bảo deindex khỏi các công cụ tìm kiếm.
  • Làm cho các URL không được index được thu thập thông tin ít thường xuyên hơn.
  • Ngăn chặn bất kỳ tín hiệu xếp hạng nào đối với URL
  • Nếu sử dụng trong thời gian dài, cũng sẽ dẫn đến “nofollow”, có nghĩa là Google sẽ không thêm các liên kết đó vào hàng đợi thu thập thông tin và không chuyển các tín hiệu xếp hạng tới các trang được liên kết.

Đánh giá ngăn chặn index float: 4/5

Đánh giá kiểm soát thiệt hại index float: 4/5

8. Bảo vệ mật khẩu

Bảo vệ mật khẩu

Mật khẩu bảo vệ các tệp trên máy chủ của bạn ngăn các công cụ tìm kiếm theo dõi. Các URL không thể được thu thập, index hoặc chuyển tiếp bất kỳ tín hiệu xếp hạng nào.

Rõ ràng điều này cũng chặn người dùng, do đó, nó bị giới hạn trong deindex nội dung bạn chọn để di chuyển sau khi đăng nhập.

Bất kỳ deindex nào cũng yêu cầu các công cụ tìm kiếm thử và thu thập dữ liệu đường dẫn URL, nhận thấy nó không còn và sau đó xóa nội dung.

Điều này có thể mất khá nhiều thời gian vì càng nhiều URL trong phần đó nó thu thập dữ liệu, nó sẽ càng hiểu rằng không có giá trị nào được trả về ngân sách thu thập thông tin và càng thấp trong hàng đợi thu thập thông tin, nó sẽ ưu tiên các URL tương tự.

Đánh giá ngăn chặn index float: 2/5

Đánh giá kiểm soát thiệt hại index float: 4/5

9. Công cụ xoá URL (Remove URL)

Công cụ xoá URL

Nếu bạn có muốn nhanh deindex một trang khỏi Google, sử dụng công cụ Xóa URL. Yêu cầu thường được xử lý vào ngày gửi.

Hạn chế là chỉ chặn tạm thời. Yêu cầu xóa thành công sẽ kéo dài khoảng 90 ngày trước khi nội dung có thể xuất hiện lại trong SERP.

Như vậy, trường hợp sử dụng hữu ích duy nhất ở đây là khi bạn cần khẩn cấp chặn một trang nhưng không thể nhận được nguồn. Sẽ cần thực hiện các biện pháp khác trước khi thời gian mất tín hiệu tạm thời (blackout) kết thúc nếu bạn muốn trang không được index.

Đánh giá ngăn chặn index float: 1/5

Đánh giá kiểm soát thiệt hại index float: 3/5

Đánh giá kiểm soát thiệt hại index float

Nhìn chung, phòng bệnh hơn chữa bệnh.

Cần có cấu ​​trúc trang web được thiết kế chiến lược và chiến lược nội dung tập trung vào người dùng sẽ mang lại thành công lâu dài trong SEO.

Bên cạnh đó, cần sử dụng hợp lý các liên kết chính tắc (canonical link) và sử dụng hợp lý thẻ meta robot noindex để ngăn chặn index bloat.

Google có trí nhớ đặc biệt tốt. Khi các trang được thu thập thông tin, Google khó có thể quên các trang này. Điều này có thể làm cho việc deindex chậm và khá mệt mỏi.

Một khi bạn có chiến lược deindex thích hợp, hãy kiên nhẫn. Các kết quả có thể chậm, nhưng đáng để chờ đợi.

Bài viết sơ lược dịch nguồn searchenginejournal.com, thắc mắc vui lòng comment phía dưới.

Đừng quên chia sẻ để nhận thêm nhiều bài viết hay chất lượng về SEO.

Trả lời

Cùng chủ để Tài liệu SEO

Đăng ký nhận tài liệu SEO

Điền email vào form dưới đây để đăng ký nhận tin tức SEO, tài liệu SEO, Ebook SEO mới nhất!