có đúng là e-mail có thể được trùng lặp bằng cách sử dụng một số tiêu đề của chúng như RFC thông báo của chúng-id phải là duy nhất không?Email trùng lặp
Có cách nào để tính cơ hội 1 cú đánh email đơn lẻ bị bỏ qua trong phương pháp pc này dưới đây (băm sha512 của 3 tiêu đề đó) không?
// $email is a parsed array containing 3 keys (mime headers) -> message_id, subject and date. $hashStr = $email['message_id']; $hashStr .= $email['subject']; $hashStr .= $email['date']; $uniqueEmailId = hash('sha512', $hashStr);
Nó là loại nhiệm vụ quan trọng mà không có email duy nhất sẽ được bỏ qua, rất có thể là chúng ta đang phải deduplicate qua nhiều (> 2) tỷ file kịch câm.
ID thư không phải là GUID theo nghĩa đó. Nó độc đáo trên toàn cầu, nhưng được xây dựng theo cách thực hiện cụ thể. Kỹ thuật thông thường là kết hợp dấu thời gian hex # ở bên trái với tên máy chủ ở bên phải dấu @. Xem RFC 2822 pp22-24 –