2010-02-24 30 views
6

Tôi đang có hiệu quả cố gắng để giải quyết vấn đề tương tự như câu hỏi này:Tìm kiếm một cơ sở dữ liệu của n-gram lấy từ wikipedia

Finding related words (specifically physical objects) to a specific word

trừ yêu cầu rằng lời nói đại diện cho đối tượng vật lý. Câu trả lời và câu hỏi được chỉnh sửa dường như chỉ ra rằng một khởi đầu tốt là xây dựng một danh sách tần số của n-gram bằng cách sử dụng văn bản wikipedia như một kho văn bản. Trước khi tôi bắt đầu tải xuống bãi chứa khổng lồ wikipedia, có ai biết nếu danh sách như vậy đã tồn tại không?

PS nếu các poster ban đầu của câu hỏi trước xem đây, tôi rất thích biết làm thế nào bạn đi về việc giải quyết các vấn đề, như kết quả của bạn có vẻ :-) tuyệt vời

Trả lời

1

Google as a publicly available cơ sở dữ liệu terabyte n-garam (lên đến 5).
Bạn có thể yêu cầu trong 6 DVD hoặc tìm một torrent lưu trữ nó.

+0

Có, tôi đã xem xét tập dữ liệu đó - thậm chí còn đáng sợ hơn các bãi wikipedia! – mojones

+3

Nó không có sẵn để sử dụng thương mại – Joel

+0

Có ai tìm thấy một torrent của nó? – placeybordeaux

Các vấn đề liên quan