2010-08-02 16 views
5

Tôi đang tìm cách làm một số phân tích văn bản trong một chương trình tôi đang viết. Tôi đang tìm kiếm các nguồn văn bản thay thế ở dạng thô của nó tương tự như những gì được cung cấp trong các bãi chứa Wikipedia (download.wikimedia.com).Tôi có thể tìm văn bản thô trên web ở đâu?

Tôi không muốn phải trải qua những rắc rối của bò các trang web, cố gắng phân tích html, trích văn bản vv ..

Trả lời

7

Những loại văn bản Bạn đang tìm kiếm?

Có rất nhiều sách điện tử miễn phí (tiểu thuyết và phi hư cấu) ở định dạng .txt có sẵn tại Project Gutenberg.

Họ cũng có large DVD images toàn bộ sách có sẵn để tải xuống.

+0

+1 Tôi đến đây để đăng PG. – Joe

0

các gutenberg project có một lượng lớn ebooks trong các định dạng khác nhau (bao gồm cả văn bản đơn giản)

3

NLTK cung cấp một API Python đơn giản để truy cập many text corpora, bao gồm Gutenberg, Reuters, Shakespeare, và những người khác.

>>> from nltk.corpus import brown 
>>> brown.words() 
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...] 
Các vấn đề liên quan