Vì lý do hiệu suất, tôi cần phải phân tách một tập hợp các đối tượng được nhận dạng bởi một chuỗi thành các nhóm. Đối tượng có thể được xác định bằng cách một số hoặc một chuỗi trong tiền tố hình thức (đủ điều kiện) với dấu chấm tách các bộ phận của định danh:Hàm băm tốt nhất cho số nhận dạng chữ và số hỗn hợp
12
323
12343
2345233
123123131
ns1:my.label.one
ns1:my.label.two
ns1:my.label.three
ns1:system.text.one
ns2:edit.box.grey
ns2:edit.box.black
ns2:edit.box.mixed
định danh Numeric là từ 1 đến vài triệu. Các định danh văn bản có nhiều khả năng có rất nhiều bắt đầu với cùng một tiền tố không gian tên (ns1 :) và với cùng một tiền tố đường dẫn (edit.box.).
Hàm băm tốt nhất cho mục đích này là gì? Sẽ tốt nếu tôi có thể dự đoán bằng cách nào đó kích thước của thùng dựa trên số liệu thống kê định danh đối tượng. Có một số bài viết hay để xây dựng hàm băm tốt dựa trên một số thông tin thống kê?
Có hàng triệu số nhận dạng như vậy, nhưng mục đích là chia chúng thành các nhóm 1-2 nghìn dựa trên hàm băm.
Bạn đã cân nhắc sử dụng một hoặc nhiều hàm băm mục đích chung sau: http://www.partow.net/programming/hashfunctions/index.html chúng cực kỳ nhanh và hiệu quả. –