2013-04-05 38 views
51

Tôi sử dụng Github để lưu trữ văn bản của một trong các trang web của tôi, nhưng vấn đề là Google cũng lập chỉ mục văn bản trong Github. Vì vậy, cùng một văn bản sẽ hiển thị cả trên trang web của tôi và trên Github. ví dụ. this search Lần truy cập hàng đầu là trang web của tôi. Hit thứ hai là kho Github.Cách ngăn Google lập chỉ mục kho lưu trữ Github của tôi

Tôi không quan tâm nếu mọi người nhìn thấy các nguồn nhưng tôi không muốn Google lập chỉ mục nó (và có thể phạt cho nội dung trùng lặp). Có cách nào, ngoài việc lưu trữ riêng tư, để yêu cầu Google ngừng lập chỉ mục nó?

Điều gì sẽ xảy ra trong trường hợp Github Pages? Đó là những trang mà nguồn nằm trong kho Github. Họ có cùng một vấn đề trùng lặp?

Hãy this search lượt truy cập nhiều nhất dẫn đến the Marpa site nhưng tôi không thấy số source được liệt kê trong kết quả tìm kiếm. Làm sao?

+7

Nhìn vào robots.txt của Github, tôi thấy các đốm màu trong ngành thạc sĩ được phép nhưng tất cả các ngành khác bị vô hiệu hóa . Đó có lẽ là lời giải thích cho nội dung Marpa không được lập chỉ mục. Vì vậy, có thể nếu tôi sử dụng một nhánh khác và loại bỏ nhánh chính khỏi kho lưu trữ, việc lập chỉ mục sẽ dừng lại. – szabgab

+0

[robots.txt chỉ thị tóm tắt] [1] [1] (http://antezeta.com/news/avoid-search-engine-indexing) –

Trả lời

65

Các https://github.com/robots.txt tập tin của GitHub cho phép việc lập chỉ mục của các đốm màu tại các chi nhánh 'thầy', nhưng hạn chế tất cả các ngành khác. Vì vậy, nếu bạn không có chi nhánh 'chủ', Google không được phép lập chỉ mục các trang của bạn.

Làm thế nào để loại bỏ các 'bậc thầy' chi nhánh:

Trong clone của bạn tạo ra một chi nhánh mới - chúng ta hãy gọi nó là 'chính' và đẩy nó vào GitHub

git checkout -b main 
git push -u origin main 

On GitHub thay đổi chi nhánh mặc định (thấy trong phần Cài đặt của kho lưu trữ của bạn) hay đây https://github.com/blog/421-pick-your-default-branch

Sau đó, loại bỏ các chi nhánh chủ từ clone của bạn và từ GitHub:

git branch -d master 
git push origin :master 

Nhận những người khác có thể đã chia đôi kho lưu trữ của bạn để thực hiện tương tự.

Ngoài ra, nếu bạn muốn hỗ trợ về tài chính GitHub, bạn có thể đi riêng https://help.github.com/articles/making-a-public-repository-private

+2

Cảm ơn. Tôi đã làm theo các bước nhưng tôi đã thực hiện trực tiếp từ github.com – Gabriel

+1

Thú vị. Tôi đã xóa chi nhánh chính cho trên trang web Github repo của tôi vì lý do hygenic, không nhận ra nó sẽ có tác dụng phụ tốt đẹp này. –

+0

Làm cách nào để các trang github hiển thị chính xác nếu không có chi nhánh chính? – Bevan

-5

Awnser ngắn. Có, bạn có thể với robots.txt.

Nếu bạn muốn ngăn Googlebot thu thập nội dung trên trang web của bạn, bạn có một số tùy chọn, bao gồm sử dụng robots.txt để chặn quyền truy cập vào tệp và thư mục trên máy chủ của bạn.

Bạn chỉ cần tệp robots.txt nếu trang web của bạn bao gồm nội dung mà bạn không muốn công cụ tìm kiếm lập chỉ mục. Nếu bạn muốn công cụ tìm kiếm lập chỉ mục mọi thứ trong trang web của mình, bạn không cần tệp robots.txt (thậm chí không cần tệp robots.txt).

Mặc dù Google sẽ không thu thập thông tin hoặc lập chỉ mục nội dung của các trang bị chặn bởi robots.txt, chúng tôi vẫn có thể lập chỉ mục các URL nếu chúng tôi tìm thấy chúng trên các trang khác trên web. Do đó, URL của trang và, có khả năng, các thông tin công khai khác như văn bản liên kết trong liên kết tới trang web hoặc tiêu đề từ Dự án thư mục mở (www.dmoz.org), có thể xuất hiện trong kết quả tìm kiếm của Google.

Nguồn:

http://support.google.com/webmasters/bin/answer.py?hl=en&answer=93708 http://support.google.com/webmasters/bin/answer.py?hl=en&answer=156449

+9

Tệp robots.txt cần phải ở gốc của trang web trang web và tôi không có quyền truy cập ghi vào http://github.com/robots.txt Việc thu thập thông tin cũng có thể bị hạn chế trong tiêu đề HTML, nhưng tôi không nghĩ rằng tôi có thể thay đổi các trang được tạo bởi Github cho mã nguồn của tôi . – szabgab

+0

Trong trường hợp ai đó muốn không cho phép robot trên trang GitHub được xây dựng của họ: Những người sử dụng GitHub Pages có thể thêm tệp robots.txt vào kho lưu trữ Trang người dùng của họ và sử dụng nó để điều khiển rô bốt trên tất cả các trang được xây dựng (username.github.io/*). Tuy nhiên, chúng có thể không ẩn nguồn cho trang người dùng của chúng vì nó phải nằm trong '' 'master'''. Đối với kho dự án, '' 'master''' có thể bị xóa và một nhánh khác có thể được sử dụng cho các trang GitHub. Không có điều nào trong số này áp dụng cho OP vì szabgab cho biết anh ấy không sử dụng Github Pages. – olavimmanuel

0

Nếu muốn dính vào chi nhánh tổng thể có vẻ là không có cách nào xung quanh bằng cách sử dụng repo tin (và bán gia tăng tài khoản GitHub của bạn) hoặc sử dụng một dịch vụ cung cấp tin repos miễn phí như Bitbucket.

+0

Tôi đã (khoảng một giờ trước) đã xóa nhánh 'chủ' và bây giờ tôi có nhánh 'chính' nhưng tôi tự hỏi, điều này có đủ không? – szabgab

+1

Như robots.txt GitHubs cho thấy, nó là đủ. https://github.com/robots.txt – iltempo

Các vấn đề liên quan