2010-11-24 44 views
40

Tôi có một số trang web và tôi không thể nhớ nơi tôi đã viết một số dòng mã. Khi các trang của tôi được Google lập chỉ mục, tôi muốn biết liệu Google có cung cấp cơ sở để tìm kiếm trong mã nguồn HTML/đánh dấu chính nó không, thay vì chỉ cho phép tìm kiếm trong phần hiển thị, một phần của trang?Tìm kiếm trong nguồn html với GOOGLE?

Cảm ơn

+0

Mã có ở phía máy khách hoặc máy chủ không? – mjimcua

+0

rất dễ dàng với http://nerdydata.com –

Trả lời

-7

Một số dòng mã trên trang web của bạn (nếu không phải tập lệnh khách hàng) không hiển thị khi google thu thập dữ liệu trang web của bạn. Làm thế nào google sẽ tìm thấy một cái gì đó trong mã php của bạn khi truy cập vào trang web kết quả đầu ra của công việc mã?

http://google.com/codesearch sẽ tìm kiếm các nguồn có sẵn công khai, vì vậy nếu bạn lưu trữ nguồn của mình trên github chẳng hạn, nó sẽ tìm thấy nguồn đó.

+0

Tôi nghĩ về phần html, được tạo ra bởi một tập lệnh php hoặc tĩnh, đây là những gì google có quyền truy cập giống như mọi người ... – Entretoize

29

Có một công cụ tìm kiếm mới có tên gọi NerdyData cho phép bạn tìm kiếm trên HTML/CSS/JS mã nguồn

Họ chỉ số hơn 160 triệu lĩnh vực công cộng và tôi đã tìm thấy các dữ liệu hữu ích.

+1

Trong trường hợp của tôi, công cụ trang web bị rò rỉ các url riêng tư từ một miền cụ thể * (Tôi chắc chắn nó không đến từ người dùng) *. Làm thế nào tôi có thể tìm kiếm trong nguồn của một tên miền duy nhất? * (để tìm chỗ rò rỉ đến từ đâu) * – user2284570

+4

Vì OP đã yêu cầu một cơ sở cú pháp của Google tìm kiếm trong HTML, tôi giả sử họ đang tìm kiếm một tài khoản miễn phí. NerdyData không phải là hoặc không còn nữa. –

+2

@jj_, cảm ơn vì đã chỉ ra điều đó. Đó là dịch vụ miễn phí khi tôi đăng liên kết vào năm 2013. –

3

Google không thể tìm kiếm mã của bạn từ trang web.Yoy có thể sử dụng http://nerdydata.com/ Đây là công cụ tìm kiếm mã tốt nhất mà tôi đã sử dụng! Tôi nghĩ bạn sẽ nhận được mã chính xác từ trang web này.

-2

Bạn cũng có thể thử meanpath để tìm kiếm trong mã nguồn HTML. Mặc dù nó là một công cụ thương mại nó cho phép bạn đánh giá dịch vụ của họ. Tính đến tháng 11 năm 2014, trang tuyên bố đã lập chỉ mục các trang trên 141,670,458 tên miền trực tiếp.

19

tôi đã đi qua các nguồn sau trên chuyến đi của tôi (một số đã được đề cập ở trên):

công cụ tìm kiếm HTML Mark-up-tập trung

Tôi cũng muốn thực hiện như sau:

lớn, trang web crawl tài liệu lưu trữ dữ liệu

Các '115m' Meanpath website URL crawl article nổi bật tập quán của Common Crawl's URL Index (cùng với URL khác dữ liệu).

Làm cách nào chúng tôi có thể phân tích dữ liệu thu thập thông tin này?

Để biết cách bắt đầu phân tích một số dữ liệu khổng lồ này, hãy xem Big Data/Map-reduce-type frameworks(s).

Google lists some ideas on using Apache's Spark project để phân tích Common Crawl's dump(s).Để hiểu the file format(s) used by Common Crawl, hãy tham khảo những điều sau đây:

Các bài viết, Accessing-Common-Crawl-Dataset-on-S3, phác thảo truy cập Common Crawl's 250TB+ dump(s) một cách chi phí thấp mà không chuyển nhượng rằng tải dữ liệu bên ngoài Mạng AWS/S3 của Amazon. Tất nhiên, giả định rằng bạn sẽ sử dụng một số kết hợp AWS/EC2/S3 v.v ... để phân tích dữ liệu thu thập thông tin.

Cuối cùng, Patrick Durusau duy trì some interesting Common-Crawl-usage-related blog pages.

Cá nhân, tôi thấy chủ đề này hấp dẫn, tôi đề nghị chúng tôi lấy dữ liệu thu thập dữ liệu này trong khi HOT! ;-)

+0

Trong trường hợp của tôi, công cụ trang web đang rò rỉ các url riêng tư từ một miền cụ thể * (Tôi chắc chắn nó không đến từ người dùng) *. Làm thế nào tôi có thể tìm kiếm trong nguồn của một tên miền duy nhất?* (để tìm chỗ rò rỉ đến từ đâu) * – user2284570

+0

Giả sử bạn có quyền truy cập vào bảng điều khiển Bash giống Unix (thử 'Git Bash', unxutils hoặc cygwin trên Windows), bạn có thể sử dụng một số giải pháp dựa trên các kết hợp khác nhau của wget/curl/xidel/grep/awk chẳng hạn. [Bài đăng SO này] (http://stackoverflow.com/questions/2804467/spider-a-website-and-return-urls-only) chứa các giải pháp khác nhau, [đây là tìm kiếm của Google mà tôi đã sử dụng] (https: // www.google.com/search?q=extract+urls+(curl+OR+wget)). –

+0

Về cơ bản, bạn sẽ muốn lặp qua các URL quan trọng trong miền của mình để tìm/lưu trữ các trang nào bị 'rò rỉ'. –

5

Bạn có thể thử PublicWWW để tìm kiếm trong nguồn/đánh dấu. Nó cho phép tìm bất kỳ HTML, JavaScript, CSS và văn bản thuần túy nào trong mã nguồn trang web trên 167 triệu trang web.

Với PublicWWW bạn có thể:

  • Tìm các trang web liên quan thông qua các mã HTML độc đáo họ chia sẻ, ví dụ: widget & ID nhà xuất bản.

  • Xác định các trang web sử dụng hình ảnh hoặc huy hiệu nhất định.

  • Tìm hiểu xem ai đang sử dụng chủ đề của bạn.
  • Xác định các trang web đề cập đến bạn.
  • Tìm các chi nhánh của đối thủ cạnh tranh của bạn.
  • Xác định các trang web nơi đối thủ cạnh tranh của bạn cá nhân cộng tác hoặc tương tác.
  • Tham khảo để sử dụng thư viện hoặc nền tảng.
  • Tìm các ví dụ mã trên mạng.
  • Tìm ra ai đang sử dụng tiện ích JS nào trên trang web của họ.
  • ...

Tất nhiên bạn không chỉ tìm thấy trang web sử dụng đoạn mã/đoạn mã đánh dấu.

+0

Đáng chú ý là chỉ các trang web trong top 1 triệu được tiết lộ miễn phí. Kết quả từ 3 triệu đầu được tiết lộ sau khi đăng ký. Phần còn lại được thanh toán. Ngoài ra, kết quả được hiển thị chỉ hiển thị tên miền và không phải là URL đầy đủ. – glebm

Các vấn đề liên quan