Tôi mới học máy, và cho dự án đầu tiên của tôi, tôi muốn viết một bộ lọc spam Bayes ngây thơ. Tôi đã tự hỏi nếu có bất kỳ tập huấn công khai có sẵn của thư rác có nhãn/thư rác không, tốt nhất là trong văn bản thuần túy và không phải là một bãi chứa của một cơ sở dữ liệu quan hệ (trừ khi họ in đẹp?).Bộ sưu tập Bộ lọc Thư rác Công khai
Tôi biết cơ sở dữ liệu công khai sẵn có như vậy cho các loại phân loại văn bản khác, cụ thể là văn bản tin bài viết. Tôi đã không thể tìm thấy cùng một loại điều cho email.
Nếu bạn đang ở trong năm 2011 với chúng tôi, chỉ cần kiểm tra hộp thư rác của bạn tại Gmail. Nên là một nguồn thư rác khá nhất quán. ;) – coreyward
Tài khoản Gmail của tôi chỉ có khoảng 50 thư rác trong đó và mỗi thư sẽ bị xóa sau 30 ngày. Đáng ngạc nhiên, tôi không nhận được nhiều spam để bắt đầu. – JeremyKun