2011-11-03 28 views
8

Những ngày này tôi gặp một số kết quả tìm kiếm của Google chứa các trang web có liên kết khớp chính xác với từ tìm kiếm của tôi. Làm thế nào là nó có thể cho các trang web để tự động thay đổi nội dung của họ hoặc thay vì cách họ lừa google vào lập chỉ mục trang của họ cho từ khóa của tôi. Tôi đã đọc về các trang trại nội dung nhưng điều đó dường như không phải là câu trả lời đúng. Ai đó có thể cho tôi biết kỹ thuật này được gọi là gì không? Tôi sẽ cố gắng hiểu thêm về nó.Cách một số trang web có liên kết giả xuất hiện trong kết quả của Công cụ Tìm kiếm

Trả lời

8

Hiểu biết của tôi là cách duy nhất để truy cập Google hoặc bất kỳ công cụ lập chỉ mục nào khác là để rô bốt thực sự thu thập dữ liệu trang web của bạn và tạo kết quả. Rõ ràng, Google có thể crawl trang web động:

tuy nhiên tôi thấy đây là một sự thay đổi chứ không phải sau đó mang tính cách mạng tiến hóa liên quan đến câu hỏi của bạn với.

Những gì tôi nghĩ đang xảy ra đằng sau hậu trường là sự kết hợp của những điều này:

  • Content index
  • chỉ số chuẩn bị
  • tài khoản gửi nội dung
  • cập nhật tìm kiếm Người giới thiệu

Tôi sẽ cố gắng giải thích từng điều này trên một trang web hư cấu bán nhạc - bạn có rất nhiều ví dụ về compa tái trải nghiệm. Tất nhiên nó sẽ nằm trên miền example.com.

Chỉ mục nội dung

Rõ ràng, là trang web muốn cung cấp nội dung nào đó, bạn thực sự có một số nội dung. Thông thường, bạn nhóm nội dung này bằng cách nào đó. Giả sử trang web âm nhạc của chúng tôi có thể nhóm nội dung theo thể loại khác nhau:

  • Author
  • thể loại Music
  • tài khoản nộp
  • Content xếp hạng

Mỗi số này có thể được biểu diễn một cách trừu tượng như một thẻ . Ví dụ: trang web của chúng tôi có thể chọn example.com/tags/eagles đại diện cho Eagles hoặc example.com/tags/rock để đại diện cho tất cả các ban nhạc rock. Google sẽ có thể lập chỉ mục các trang này, vì vậy bất kỳ tìm kiếm tiềm năng nào cũng có thể tạo ra một liên kết đến trang web của chúng tôi.

Chỉ mục đã chuẩn bị

Chỉ mục đã chuẩn bị tương tự, nhưng là chỉ mục chung thay vì nội dung thực. Điều này có thể được chuẩn bị bằng nhiều cách, chẳng hạn như:

  • Hãy điển và thêm tất cả các từ
  • Thu thập thông tin một vài triệu trang từ trang Web (có thể sử dụng liên kết được cung cấp bởi công cụ tìm kiếm!) Và nhận cụm từ thường lặp đi lặp lại từ đó
  • nội dung Grab từ diễn đàn miễn phí
  • Sử dụng Wikipeda
  • Nhận văn bản từ cuốn sách tự do có sẵn, chẳng hạn như những từ Project Gutenberg

trang web của chúng tôi sẽ, ví dụ, có được bất kỳ từ nào từ các văn bản có liên quan đến âm nhạc theo bất kỳ cách nào và tạo các thẻ tương tự với các thẻ trước đó. Ví dụ. chỉ bằng cách thu thập thông tin trang Rock music trên Wikipedia, bạn có thể nhận được rất nhiều thẻ.

Nội dung do người dùng gửi

Đây là điều thường xảy ra sau khi trang web của bạn hoạt động. Giả sử chúng tôi đặt một hộp tìm kiếm trên trang web của chúng tôi và sau đó người dùng đến và nhập "nhạc rock". Doh, chúng tôi đã biết điều đó, vì vậy không có gì tốt từ tìm kiếm đó. Tuy nhiên, giả sử chúng ta đi qua các nhật ký máy chủ web của chúng ta và xem một số tìm kiếm cho langeleik. Bây giờ, đó sẽ là thứ mà chúng ta có thể chưa lập chỉ mục trước đây. Thật tuyệt, vừa tạo một thẻ khác trên trang web của chúng tôi.

Rõ ràng, Google không biết điều đó - vì vậy chúng tôi tạo một mục nhập trong số sitemap của chúng tôi và nó có sau khi thu thập dữ liệu Googlebot khác. Khi người dùng tìm kiếm trên Google cho "langeleik", một trong các liên kết có thể là một liên kết đến example.com/tags/langeleik.

Có các hình thức đầu vào người dùng khác và có thể có giá trị hơn - nhận xét, bài đăng trên diễn đàn, v.v. Do đó, có nhiều diễn đàn chung không có mục đích khác ngoại trừ diễn đàn lưu trữ. Đó là một nguồn dữ liệu tuyệt vời và bạn nhận được nội dung mới miễn phí.

Cuối cùng, tất cả điều này sẽ chuyển đến sơ đồ trang web của bạn. Bạn có thể có sơ đô web rất lớn, thấy điều này:

Giới thiệu

Điều cuối cùng là giới thiệu. Một lần nữa sau khi trang web của bạn được thiết lập và hoạt động, một số tìm kiếm của Google sẽ đến trực tiếp với bạn. Đó là khi bạn có thể tận dụng các tiêu đề HTTP Referer (có, đó là một lỗi chính tả - check it out trên Wikipedia), thấy điều này:

Lưu ý rằng tìm kiếm Google là cả hai:

  • Incomplete
  • Fuzzy

Vì vậy, bạn có thể tìm kiếm "langeleik" ở trên, nhưng một số liên kết có tiêu đề ví dụ: "Langeleik và Harpe". Không có gì khác thường, nhưng cũng lưu ý ngược lại - nếu bạn tìm kiếm "langeleik và harpe", nó sẽ không chỉ tìm thấy tất cả các trang có cả hai điều khoản, nhưng cũng có các trang với nhau. Nếu chúng tôi biết về harpe, nhưng không phải cho langeleik và ai đó tìm kiếm "langeleik và harpe", chúng tôi sẽ nhận được thông qua tiêu đề HTTP Referer a q paramter chẳng hạn như q=langeleik+harpe. Tuyệt vời - chỉ cần thêm một từ để thêm vào sơ đồ trang web của chúng tôi, nếu chúng tôi muốn.

Đối với sự mờ, lưu ý rằng khi bạn tìm kiếm "đại bàng", bạn có thể nhận mọi thứ từ các loài chim thông qua các nhóm NFL đến một ban nhạc rock. Vì vậy, mặc dù chúng tôi là một trang web âm nhạc, chúng tôi có thể mở rộng chân trời của chúng tôi (nếu muốn) lên tin tức mới nhất về NFL - một cái gì đó hoàn toàn không liên quan và rất hữu ích cho một số trang web.

Kết luận - đó là ảo tưởng

Tôi xem xét sự kết hợp của tất cả những nguồn xây dựng sơ đồ trang web rất phong phú này. Bạn có thể dễ dàng tạo ra hàng triệu thẻ duy nhất bằng cách sử dụng các kỹ thuật trên. Do đó, "bất kỳ thứ gì" bạn nhập sẽ được tìm thấy trên example.com/tags.

Tuy nhiên, bạn phải lưu ý rằng đây chỉ là một hình ảnh illusion. Ví dụ: nếu bạn tìm kiếm "ertfghedctgb" (dễ dàng gõ trên bàn phím QWERTY thông thường - ert + fgh + edc + tgb), rất có thể bạn sẽ không nhận được bất kỳ thứ gì từ Google (tôi hiện không). Nó chỉ là không phổ biến, đủ cho bất cứ ai để đặt này trong sơ đồ trang web của họ (hoặc không đủ phổ biến cho công cụ tìm kiếm để chỉ mục nó).

+4

bằng cách thêm ertfghedctgb vào câu trả lời này từ đó sẽ trở thành kết quả của google trong vòng vài giờ – SinistraD

+1

@SinistraD :) quan sát tốt! –

+1

Nó bây giờ là một kết quả tìm kiếm :) – nathanjosiah

1

Tất cả trình duyệt và trình thu thập thông tin gửi một chuỗi được gọi là chuỗi HTTP_USER_AGENT đến máy chủ web theo mọi yêu cầu, trừ khi nó không được phần mềm thêm vào mục đích. Chuỗi này xác định trình duyệt nào được sử dụng, phiên bản nào, công cụ hiển thị và một số chi tiết khác. (Xem http://en.wikipedia.org/wiki/User_agent)

Máy chủ web có thể đọc HTTP_USER_AGENT và thay đổi nội dung được phân phát. Ví dụ, nó được sử dụng như một phần của việc phát hiện thời tiết bạn đang ở trên một thiết bị cầm tay hoặc một màn hình lớn, trong trường hợp này bạn có thể muốn bố cục khác nhau của trang web đã cho.

Mọi người bỏ nhiều tiền vào việc hướng lưu lượng truy cập đến trang web của họ, đặc biệt là thông qua các công cụ tìm kiếm lớn như Google và Bing. Thuật ngữ SEO, viết tắt của Search Engine Optimization, là một kỹ thuật mà chủ sở hữu của trang web tối ưu hóa nội dung của mình để làm cho nó dễ dàng cho các công cụ tìm kiếm để cung cấp cho các truy cập có liên quan. Nếu bạn có một trang web phức tạp sử dụng nhiều JavaScript và Ajax, bạn có thể muốn phân phối một trang tĩnh đến các công cụ tìm kiếm để cho phép họ đọc nội dung của bạn.

Các trang web độc hại đôi khi cung cấp nội dung được tối ưu hóa, được tạo tự động cho các công cụ tìm kiếm để xếp hạng cao trong tìm kiếm nhưng mang lại cho người dùng một trang đơn giản với quảng cáo thay vì tăng doanh thu.

Câu trả lời này được cung cấp thay thế cho câu trả lời có nội dung động thông thường, như đã được mô tả bởi icyrock-com, là nguyên nhân của việc nhận được một trang khác mà Google cho biết.

Các vấn đề liên quan