2011-11-18 23 views
6

Tôi đang thực hiện một dự án trong phân loại tin tức. Về cơ bản, hệ thống sẽ phân loại bài viết tin tức dựa trên chủ đề được xác định trước (ví dụ: thể thao, chính trị, quốc tế). Để xây dựng hệ thống, tôi cần các bộ dữ liệu miễn phí để đào tạo hệ thống.Tin tức Bài viết số liệu

Cho đến giờ, sau vài giờ googling và liên kết từ here các tập dữ liệu phù hợp duy nhất tôi có thể tìm thấy là this. Trong khi điều này hy vọng sẽ đủ, tôi nghĩ rằng tôi sẽ cố gắng tìm thêm.

Lưu ý rằng các bộ dữ liệu tôi muốn:

  1. Có bài báo đầy đủ, không chỉ tiêu đề
  2. là bằng tiếng Anh
  3. Trong định dạng .txt, không XML hoặc db

Ai có thể giúp tôi?

Trả lời

0

Bạn có thể xây dựng nó, bạn có thể viết một tập lệnh Python/Perl/PHP, nơi bạn chạy tìm kiếm, sau đó khi bạn tìm thấy câu trả lời, bạn có thể cô lập các thuộc tính với regex ... Tôi nghĩ là lựa chọn tốt nhất. Không phải là dễ dàng nhưng nên được vui vẻ, cuối cùng bạn có thể chia sẻ số liệu này với chúng tôi.

+1

Vâng, tôi đang cố gắng tìm tập dữ liệu vì tôi sẽ bận rộn với dự án vì vậy tôi cố gắng giảm bớt những việc cần làm. Hơn nữa, tôi không biết cách viết một kịch bản bằng Python/Perl/PHP. – Hearty

1

Bạn đã cố gắng sử dụng Reuters21578? Đây là tập dữ liệu phổ biến nhất cho phân loại văn bản. Nó được định dạng trong SGML, nhưng nó khá đơn giản để phân tích cú pháp và chuyển đổi sang định dạng txt.

Các vấn đề liên quan