Duplicate Content là gì? Cách khắc phục lỗi Duplicate Content

983 Views
24/04/2021
Tin tức
Rate this post

Nếu làm công việc quản trị Website thì chắc hẳn bạn đã nhiều lần nghe về “Duplicate Content”. Nhưng bạn không hiểu thuật ngữ này là gì, nó đang nói về điều gì, nó có gây ảnh hưởng đến Website của bạn hay không? Trong bài viết hôm nay, AZTECH sẽ tìm hiểu chi tiết về Duplicate Content cũng như cách khắc phục.

Duplicate Content là gì?

duplicate content

Duplicate Content là gì

Duplicate Content – nội dung trùng lặp là một thuật ngữ được sử dụng phổ biến trong lĩnh vực SEO, cụ thể là việc các nội dung giống nhau xuất hiện trên Website của bạn hay trên nhiều Website khác. Điều này sẽ gây khó khăn cho Google trong việc quyết định phiên bản nào là bản gốc, nếu không thể tìm được bản gốc Google sẽ phải chọn phiên bản tốt nhất, giả sử phiên bản được chọn chỉ là bản sao thì đó sẽ là thiệt hại to lớn cho bản gốc. Do đó, để tránh tình trạng này diễn ra quá mức, Google sẽ hạn chế hiển thị các nội dung có sự trùng lặp.

Trùng lặp nội dung gây ảnh hưởng gì?

Đối với Website

Các SEOers đều hiểu rõ tầm quan trọng của content trong chiến lược tối ưu hóa công cụ tìm kiếm. Một Website có chất lượng hay không, có đủ lực giữ chân người dùng hay không phải phục thuộc vào content. Lượng truy cập Website nhiều hay ít cũng phụ thuộc vào content. Suy ra, xếp hạng của Website phụ thuộc vào content rất nhiều. Nhưng nếu content của Website bạn bị Google cho là sao chép thì sao?

Các bạn nên hiểu rằng Google không thích nội dung trùng lặp. Hằng ngày, có đến hàng triệu Website cần được Google thu thập và index (lập chỉ mục). Việc có quá nhiều kết quả tìm kiếm sẽ khiến bộ máy của Google trở nên nặng nề. Do đó Google sẽ không tốn tài nguyên của mình để lưu trữ những nội dung trùng lặp. Điều này có nghĩa một Website có lỗi Duplicate Content sẽ bị Google bỏ qua và không được index, mà một khi không được index thì Website đó coi như mất cơ hội tiếp cận người dùng.

Đối với người dùng

Nhu cầu tìm kiếm thông tin của chúng ta diễn ra đều đặn mỗi ngày và Google chính là bộ máy tìm kiếm thông tin lớn nhất hiện nay. Cho dù là bất kỳ ai thì chúng ta đều muốn tìm được những thông tin hữu ích, đáp ứng được nhu cầu tìm kiếm của mình. Nhưng khó chịu làm sao khi trang đầu kết quả tìm kiếm cho ra 10 Website khác nhau nhưng nội dung thì lại như một. May mắn thay Google rất quan tâm đến trải nghiệm của người dùng. Để thể hiện là một người chủ hiếu khách, Google sẽ lọc mạnh mẽ các nội dung nhằm mang lại lượng nội dung chất lượng, mới lạ cho người dùng.

Nguyên nhân dẫn đến Duplicate Content và cách khắc phục

Duplicate Content do sao chép

Quảng cáo Landing Page (trang đích)

Landing Page là một trang Web đơn, được thiết kế để dẫn dắt, thuyết phục người đọc cho một mục tiêu tập trung duy nhất”. Các doanh nghiệp thường dùng trang đích để thúc đẩy tỷ lệ chuyển đổi, do đó các nội dung trang đích lấy từ trang Web gốc, và nó được điều chỉnh để tối ưu các từ khóa mục tiêu. Vì nội dung trang đích và trang Web khá giống nhau nên dẫn đến tình trạng Duplicate Content là chắc chắn

Để khắc phục lỗi này, bạn cần ngăn Google lập chỉ mục cho trang đích sử dụng thẻ meta robots với lệnh “noindex” vào phần <head> của trang. Xem hình minh họa dưới đây để hiểu rõ hơn

duplicate content

Thêm lệnh “noindex” vào phần

Hoặc cách làm ổn thỏa nhất đó là không liên kết Landing Page với Website hoặc không đưa Landing Page vào sitemap trang Web của bạn.

Bị đối thủ sao chép nội dung của Website

Đây chắc chắn là nguyên nhân phổ biến nhất gây ra Duplicate Content. Trang Web của bạn mới lập, độ tin cậy chưa cao, tốc độc index còn chậm bị đối thủ “già đời” hơn ăn cắp nội dung. Mà Website chất lượng, lâu năm thường được Google thu thập dữ liệu và index khá nhanh. Điều này sẽ dẫn đến tình trạng Website ăn cắp được coi là tác giả gốc và có xếp hạng cao hơn bạn.

Hãy đảm bảo rằng các bài viết sau khi xuất bản phải được index sớm nhất có thể bằng cách submit URL với Google. Hoặc bạn có thể gửi yêu cầu DMCA đến Google để yêu cầu gỡ bỏ bài đăng đó.

Duplicate Content do lỗi kỹ thuật

Ngoài bị trùng lặp về nội dung thì có một vài lý do kỹ thuật cũng có thể dẫn đến việc bị Google xếp vào lỗi Duplicate Content

WWW/ non-WWW hoặc HTTP/HTTPS

URL của Website có thể hiển thị ở các dạng www hay non-www như www.site.com hoặc site.com. Việc Website của bạn xuất hiện cả 2 phiên bản này trên kết quả tìm kiếm là có thể xảy ra do thao tác khi chuyển hướng tên miền không đúng cách. Điều này có thể sẽ gây ra lỗi Duplicate Content vì các bot tìm kiếm không nhận ra đó là phiên bản thứ hai của Website bạn và sẽ cho rằng bạn đang sao chép thông tin từ một Website khác. Điều này cũng diễn ra tương tự với dạng URL http://https://.

Để khắc phục lỗi này, bạn nên dùng lệnh chuyển hướng 301 nhằm thông báo cho Google biết đâu là trang Web chính xác để tiến hành xếp hạng.

Lỗi do phân loại bài viết

Phân loại là chức năng phân nhóm nội dung, chức năng này thường dùng trong CMS (Hệ thống quản trị nội dung) nhằm hỗ trợ các danh mục và thẻ.

Để hiểu rõ hơn về lỗi này chúng ta giả sử bạn có một bài viết được phân loại vào 3 danh mục a,b,c và bài đăng đó có thể được truy cập thông qua cả 3 URL:

  • https://www.example.com/category-a/topic/
  • https://www.example.com/category-b/topic/
  • https://www.example.com/category-c/topic/

Điều này chắc chắn sẽ làm Google hoang mang và xếp vào lỗi Duplicate Content. Bạn khắc phục lỗi này bằng chuẩn hóa cách đặt URL cho thống nhất. Nếu làm như vậy bạn sẽ có một hệ thống Website chuẩn, thân thiện với bot tìm kiếm. Và Google rất thích những trang Web thân thiện.

URL viết hoa hay có “/”

Google đánh giá các dạng URL như https://example.com/url-a/https://example.com/url-A/ hay https://example.com/url-ahttps://example.com/url-a/ là các link khác nhau nhưng nếu chúng đều dẫn về một bài đăng thì chắc chắn bạn sẽ bị Duplicate Content.

Bạn cũng cải thiện lỗi này bằng cách sử dụng lệnh 301 redirect để chuyển hướng nội dung sang URL chuẩn.

URL hình ảnh đính kèm

Có một vài trang Web có một danh mục dành riêng cho việc post hình ảnh. Đây là một trang trắng không có nội dung văn bản nào. Vì không có nội dung nào khác ngoài hình ảnh, mà việc các Website sử dụng những hình ảnh giống nhau là chuyện phổ biến nên bạn cũng có thể bị mắc lỗi trùng lặp nội dung vì nguyên nhân này.

Với trường hợp này, tốt nhất bạn không nên tạo danh mục chỉ chứa hình ảnh. Trường hợp bắt buộc phải tạo thì bạn hãy dùng lệnh “noindex” để ngăn Google index phần này.

Trang Web có phiên bản cho Mobile

Để Website thân thiện với thiết bị di động thì Website sẽ có thêm một phiên bản dành cho Mobile, cụ thể như www.example.com là phiên bản dành cho máy tính và m.example.com dành cho người dùng thiết bị di động. Phiên bản này có nội dung giống với bản gốc nhưng khác URL. Điều này cũng có thể dẫn đến tình trạng Duplicate Content.

Để khắc phục lỗi này, trên trang dành cho máy tính bạn dùng thẻ rel=“alternate” trỏ đến URL tương ứng trên thiết bị di động. Thẻ này giúp bot Google khám phá vị trí của các trang dành cho thiết bị di động trên trang Web của bạn. Đồng thời sử dụng thẻ rel=“canonical” trỏ đến URL tương ứng dành cho máy tính. Thẻ này giúp bot Google biết phiên bản nào là nội dung gốc để có thể xếp hạng

URL thân thiện với bản in

Cũng tương tự như URL thân thiện với Mobile, chúng có nội dung giống hệt bản gốc và chỉ khác mỗi URL. Ví dụ:

  • example.com/page
  • example.com/print/page

Cách khắc phục lỗi này cũng tương tự như khi khắc phục lỗi URL thân thiện với thiết bị di động.

Lỗi do phân trang bình luận

Các CMS có tính năng cho phép các trang bình luận bị phân thành nhiều trang, các trang bình luận được phân trang sẽ hiển thị nội dung gốc, chỉ có những nhận xét ở dưới cùng là khác nhau. Điều này sẽ tạo ra Duplicate Content vì vô tình tạo ra các phiên bản URL có nội dung giống nhau. Xem ví dụ minh họa bên dưới:

  • example.com/post/
  • example.com/post/comment-page‑2
  • example.com/post/comment-page‑3

Giải pháp cho lỗi này là bạn tắt tính năng phân trang bình luận hoặc sử dụng các liên kết phân trang rel= “prev, next” để báo hiệu rằng đây là một loạt các trang được phân trang.

Session IDs – Phiên truy cập

Session IDs giúp lưu giữ thông tin khách hàng truy cập, do đó mỗi khi người dùng vào và thoát trang sẽ để lai một chuỗi số ID, ví dụ như www.example.com/page1?sessionid=12455. Điều này rất dễ làm Website của bạn dính Duplicate Content vì nội dung các trang người dùng truy cập đều giống nhau. Để tránh mắc lỗi này, bạn nên chuẩn hóa URL ngay từ đầu.

Phiên bản thử nghiệm được lập chỉ mục

Việc thử nghiệm các công cụ, tính năng mới để tìm cái nào tốt và hữu ích cho Website được rất nhiều bạn áp dụng. Nhưng khi dựng mô hình để thử nghiệm, hãy đảm bảo rằng bot Google không thể xem các tin đó để tránh việc được Google index. Vì khi chính thức sử dụng có thể gây Duplicate Content với phiên bản thử nghiệm. Nếu bạn chỉ xây dựng mô hình chạy thử ở một số page thì cách tốt nhất là bạn nên xóa URL đó đi.

Cách check trùng lặp nội dung trên Website

Nếu bạn lo lắng Duplicate Content gây ảnh hưởng xấu đến Website của mình nên muốn kiểm soát vấn đề này thì bạn có thể check trùng lặp nội dung bằng các cách

Sử dụng Google để check trùng lặp nội dung

Cách đơn giản nhất để kiếm tra Duplicate Content là sử dụng công cụ tìm kiếm Google. Bạn sao chép khoảng 10 từ đầu tiên của câu và để chúng vào dấu “ ”. Sau đó, bỏ 10 từ đó lên giao diện tìm kiếm của Google. Đây là một cách được Google đều xuất trong việc check nội dung trùng lặp.

Tuy nhiên, để kiểm tra nội dung trùng lặp trên nội bộ Website thì cách làm này sẽ không có tác dụng. Lúc này bạn nên sử dụng các công cụ check miễn phí như:

Small SEO Tools

Đây là công cụ kiểm tra Duplicate Content được SEOers sử dụng nhiều nhất. Với giao diện đơn giản, thân thiện với người sử dụng. Bạn chỉ cần copy nội dung cần check, những dòng, đoạn văn dính sao chép sẽ hiển thị màu đỏ kèm theo đó là thông báo “Plagiarism”

duplicate content

Giao diên công cụ Small SEO Tools

Copyscape

Đây là một công cụ kiểm tra Duplicate Content cho kết quả chính xác nhất., chỉ mất khoảng vài giây là đã có thể kiểm nội dung có trùng lặp với những nội dung đã đăng trước đó hay không. Tương tự như Small SEO Tool, Copyscape cũng làm nổi bật nội dung bị trùng lặp và ghi rõ trùng lặp bao nhiêu phần trăm.

duplicate content

Công cụ Copyscape

Plagiarisma

Với công cụ này, bạn cho phép bạn kiểm tra nội dung trùng lặp với nhiều hình thức như URL, bài viết dưới dạng văn bản, file tải trực tiếp (định dạng PDF, doc, docx, html)

duplicate content

Plagiarisma cho phép check bằng cách tải trực tiếp file

Siteliner

Công cụ này cho phép bạn kiểm tra lỗi Duplicate Content trên toàn bộ Website của mình 1 lần/tháng. Đồng thời, nó cũng có thể kiểm tra được các liên kết bị hỏng và xác định các trang nổi bật nhất với Google

duplicate content

Siteliner cho phép kiểm tra lỗi Duplicate Content trên toàn bộ Website 1 lần/tháng

Hy vọng bài viết này đã cung cấp cho bạn những thông tin về Duplicate Content cũng như cách khắc phục lỗi trùng lặp nội dung hiệu quả. Từ đó tránh được những lỗi cơ bản trong quá trình xây dựng content Website.

Ngoài ra, hiện AZTECH có cung cấp dịch vụ chăm sóc Website chuyên nghiệp. Nếu bạn đang gặp khó khăn trong việc quản trị Website, thì đừng ngần ngại liên hệ với chúng tôi qua HOTLINE: 0903.858.865 để được tư vấn tận tình.

| CÁC BÀI VIẾT LIÊN QUAN:

KHÁCH HÀNG

vietravel
ap shop
Ganador
K fish
Eva nature
Phone box Việt Nam
star net coffee and food
Trường mầm non South Sky Kindergarten
ballooning
Nhân Wedding
Kate j
Nha khoa Kim Khôi
Nội thất Soha Living
Kong tea
Nội thất Hạ Long
Sen Việt Yoga
Kiwami
Đông y Phúc Sinh
Chè bưởi Phương Nga
oriental-plaza
newstar
Việt Nam tourism
Thẩm mỹ viện Phương Đông
Pnut spa
Giày SUTUMI
Logo Nutriblend
Ila
Art click
Du học Đức Anh
White palace
Hướng nghiệp Á Âu
La Luna Resort
Sky 89
Long Hậu Riverside
Oceanami
Novotel villas
Barya citi
Logo Vinhomes
Logo Vinamlik
Logo LetsViet
Logo Domino Pizza
nên chạy quảng cáo facebook vào giờ nào
fpt
Nguyễn Kim
Salsa
HSB
ayt group
hyundai
Lava coffee
Zpizza
Logo-YouTV
Logo Today TV
Logo Aqua Palace
0903 858 865
Paste your AdWords Remarketing code here