2009-04-02 37 views
5

Tôi tò mò về công nghệ đằng sau một công cụ tìm kiếm như torrentz.com. Từ những gì tôi có thể quan sát, nó không lưu trữ bất kỳ tập tin torrent nào, mà là kết nối bạn với các máy chủ khác.Làm thế nào để bạn xây dựng một bộ chỉ mục tập tin torrent?

  • bạn tìm kiếm từ khóa, nó sẽ hiển thị danh sách các tiêu đề tiềm năng phù hợp với tìm kiếm của bạn.
  • sau đó bạn chọn một trong số này và nó cung cấp cho bạn danh sách các máy chủ tiềm năng khác lưu trữ tệp torrent tương ứng.

    Làm thế nào để họ thu thập sau đó tổng hợp dữ liệu:

chiến lược đằng sau việc thu thập và lập chỉ mục tất cả những gì nội dung gì Tôi quan tâm đến đặc biệt là gì?
Đây có phải là dịch vụ cơ sở gửi, trong đó mỗi máy chủ này gửi nội dung của nó để lập chỉ mục?
Đây có phải là thuật toán thu thập dữ liệu không? Nếu vậy làm thế nào để bạn thậm chí bắt đầu thu thập dữ liệu một trang web như piratebay.org?
Họ có quyền truy cập vào cơ sở dữ liệu của các máy chủ khác không?

Kiến thức và hiểu biết của tôi về giao thức bittorrent không phức tạp lắm, nhưng tài liệu mà tôi tìm thấy trực tuyến đã chỉ cho tôi nhiều hơn về các quy trình liên quan đến xây dựng dịch vụ theo dõi, điều đó không chính xác với những gì tôi quan tâm. cái nhìn sâu sắc và tài liệu đọc được khuyến khích được đánh giá cao.

Trả lời

6

Để bắt đầu, hãy bắt đầu lập chỉ mục nguồn cấp dữ liệu rss của họ và thu thập dữ liệu từ đó. Bước tiếp theo sẽ là lập chỉ mục các trang của portal (như Mininova, tpb, v.v.) nhưng hãy chú ý đến việc bạn có thể bị cấm (ip based) để làm như vậy, vì điều đó sẽ kích thích lượng lớn dữ liệu được yêu cầu từ máy chủ của họ (i đừng nghĩ rằng họ quá hạnh phúc về điều đó) ..

Điều đó nói rằng tôi nghi ngờ rằng họ có quyền truy cập vào cơ sở dữ liệu của máy chủ khác, nhưng đúng hơn là thu thập thông tin + rss. Một điều khác mà bạn có thể sử dụng là khi ai đó thực hiện truy vấn của một mục mà bạn không có trong cơ sở dữ liệu qyour, bạn thực hiện truy vấn trên cổng chính của bt, lưu vào bộ nhớ cache kết quả trong db của bạn, và sau đó hiển thị các kết quả. Sau đó, nếu người dùng khác thực hiện cùng một truy vấn (đó là kịch bản khá phổ biến), bạn có thể hiển thị dữ liệu được lưu trong bộ nhớ cache của mình + dữ liệu mới từ rss.

Các vấn đề liên quan