2011-01-20 43 views
34

Tôi mới học máy, và cho dự án đầu tiên của tôi, tôi muốn viết một bộ lọc spam Bayes ngây thơ. Tôi đã tự hỏi nếu có bất kỳ tập huấn công khai có sẵn của thư rác có nhãn/thư rác không, tốt nhất là trong văn bản thuần túy và không phải là một bãi chứa của một cơ sở dữ liệu quan hệ (trừ khi họ in đẹp?).Bộ sưu tập Bộ lọc Thư rác Công khai

Tôi biết cơ sở dữ liệu công khai sẵn có như vậy cho các loại phân loại văn bản khác, cụ thể là văn bản tin bài viết. Tôi đã không thể tìm thấy cùng một loại điều cho email.

+3

Nếu bạn đang ở trong năm 2011 với chúng tôi, chỉ cần kiểm tra hộp thư rác của bạn tại Gmail. Nên là một nguồn thư rác khá nhất quán. ;) – coreyward

+0

Tài khoản Gmail của tôi chỉ có khoảng 50 thư rác trong đó và mỗi thư sẽ bị xóa sau 30 ngày. Đáng ngạc nhiên, tôi không nhận được nhiều spam để bắt đầu. – JeremyKun

Trả lời

26

Đây là những gì tôi đang tìm kiếm: http://untroubled.org/spam/

lưu trữ này được xung quanh một gigabyte các thư rác tích lũy nén hẹn hò 1998 - 2011. Bây giờ tôi chỉ cần nhận được email không phải spam. Vì vậy, tôi sẽ chỉ truy vấn Gmail của riêng tôi cho rằng sử dụng chương trình getmail và hướng dẫn tại mattcutts.com

+1

Cảm ơn bạn! Bản lưu trữ này được cập nhật với các thư spam cho đến khi '2017-05-30 05: 34' !!! – loretoparisi

8

Chắc chắn, có Spambase, theo như tôi biết, là dữ liệu spam được trích dẫn rộng rãi nhất được đặt trong tài liệu học máy.

Tôi đã sử dụng tập dữ liệu này nhiều lần; mỗi lần tôi ấn tượng bao nhiêu nỗ lực đã được đưa vào định dạng và tài liệu của tập dữ liệu này.

Một vài đặc điểm của tập Spambase:

  • 4601 điểm dữ liệu - tất cả hoàn

  • mỗi bao gồm 58 tính năng (thuộc tính)

  • mỗi điểm dữ liệu được dán nhãn 'spam' hoặc 'không có spam'

  • xấp xỉ. 40% được dán nhãn thư rác

  • của các tính năng, tất cả đều liên tục (so với rời rạc)

  • một tính năng tiêu biểu: trung bình chuỗi liên tục của vốn chữ


Spambase được lưu trữ trong UCI Machine Learning Repository; ngoài ra, nó cũng có sẵn trên Website cho Điều khoản tính toán ML/Thống kê tuyệt vời, Các thành phần của việc học thống kê bởi Hastie et al.

+1

Điều này dường như không thực sự có văn bản email trong đó, mà là một tập hợp các từ cụ thể. Có lẽ tôi đang thiếu nơi để tìm nội dung? – JeremyKun

+0

Không có văn bản email? Hãy xem lại 58 tính năng bao gồm tập dữ liệu - hầu hết trong số chúng được bắt nguồn hoàn toàn từ văn bản email. Văn bản email thô sẽ yêu cầu phân tích cú pháp cẩn thận thành các tính năng trước khi bạn có thể sử dụng nó trong Naive Bayes. – doug

+2

Phải, nhưng tôi muốn văn bản thô để tôi có thể quyết định những tính năng nào có liên quan. Đây là một kinh nghiệm học tập, vì vậy tôi muốn làm điều đó từ đầu. – JeremyKun

6

Bạn có thể xem xét xem tập hợp spam/ham TREC (mà tôi nghĩ là bộ sưu tập email từ Enron được công khai từ vụ kiện của tòa án). TREC thường chạy một loạt các nhiệm vụ xử lý văn bản cạnh tranh, vì vậy nó có thể cung cấp cho bạn một số tài liệu tham khảo để so sánh.

Nhược điểm là chúng được lưu trữ ở định dạng mbox thô, mặc dù có các trình phân tích cú pháp có sẵn bằng nhiều ngôn ngữ (Apache Tika là một ví dụ tốt).

Trang web không phải là TREC, nhưng điều này có vẻ là một cái nhìn tổng quan tốt các nhiệm vụ có liên hệ với các dữ liệu: http://plg.uwaterloo.ca/~gvcormac/spam/

+0

Điều này là tốt, và kể từ khi đăng câu hỏi của tôi, tôi đã nhận ra rằng thật khó để có được xung quanh bằng cách sử dụng định dạng mbox cho các bãi email. Nhưng dù sao, tôi đã tìm thấy một số dữ liệu, và quyết định nó dễ dàng hơn để chỉ phân loại một cái gì đó khác (web cạo yelp ý kiến ​​để phân loại tích cực, thực sự). – JeremyKun

7

SpamAssassin có public corpus cả những tin nhắn spam và không phải spam, mặc dù nó hasn' t được cập nhật trong một vài năm. Đọc tệp readme.html để tìm hiểu xem có gì ở đó.

0

Tôi cũng có câu trả lời, here bạn có thể tìm thấy cơ sở dữ liệu Bayesian được làm mới hàng ngày để đào tạo ban đầu và cũng là kho lưu trữ được tạo hàng ngày chứa thư rác bị bắt. Bạn sẽ tìm thấy hướng dẫn cách sử dụng nó trên trang web.

3

Có thể tìm thấy một bộ đào tạo spam hiện đại hơn tại kaggle. Hơn nữa, bạn có thể kiểm tra tính chính xác của trình phân loại của bạn trên trang web của họ bằng cách tải lên kết quả của bạn.

Các vấn đề liên quan