Tôi có một ma trận numpy/scipy thưa thớt lớn, trong đó mỗi hàng tương ứng với một điểm trong không gian chiều cao. Tôi muốn làm cho truy vấn của các loại sau đây:Nhạy cảm theo địa phương Hashing mảng thưa thớt thưa thớt
Cho một điểm P (một hàng trong ma trận) và một khoảng cách epsilon, tìm tất cả các điểm với khoảng cách tối đa là epsilon từ P.
Chỉ số khoảng cách tôi đang sử dụng là tương tự như Jaccard, vì vậy, bạn có thể sử dụng các thủ thuật Nhạy cảm về mặt địa phương như MinHash.
Có triển khai MinHash cho mảng thưa thớt thưa thớt ở đâu đó không (dường như tôi không thể tìm thấy) hoặc có cách dễ dàng để thực hiện việc này không?
Lý do tôi không chỉ kéo thứ gì đó được xây dựng cho mảng không thưa thớt của Github là các cấu trúc dữ liệu thưa thớt trong scipy có thể gây nổ trong thời gian phức tạp.
Cho đến nay tôi đã thực hiện triển khai sử dụng https://github.com/go2starr/lshhdc – utdiscant