Tôi hiện đang bắt tay vào một dự án sẽ thu thập và xử lý một lượng lớn dữ liệu (hàng trăm hợp đồng biểu diễn) và khai thác chúng để trích xuất dữ liệu có cấu trúc, được gọi là nhận dạng đối tượng, trùng lặp, phân loại, v.v.Học máy có quy mô lớn - Python hoặc Java?
Tôi quen thuộc với các công cụ ML từ cả Java và thế giới Python: Lingpipe, Mahout, NLTK, vv Tuy nhiên, khi nó đi xuống để chọn một nền tảng cho vấn đề quy mô lớn như vậy - tôi thiếu kinh nghiệm để quyết định giữa Java hoặc Python.
Tôi biết điều này nghe có vẻ giống như một câu hỏi mơ hồ, nhưng tôi đang tìm kiếm lời khuyên chung về việc chọn Java hoặc Python. JVM cung cấp hiệu suất tốt hơn (?) Trên Python, nhưng các thư viện như Lingpipe vv có khớp với hệ sinh thái Python không? Nếu tôi đã sử dụng Python này, nó sẽ dễ dàng mở rộng quy mô và quản lý nó trên nhiều máy tính như thế nào.
Tôi nên đi đến đâu và tại sao?
[Jython] (http://www.jython.org/) :-) –
Thuật toán được sử dụng là quan trọng (hoặc nhiều hơn) so với ngôn ngữ trong các tác vụ ML quy mô lớn; ví dụ, kỹ thuật dựa trên eigenvector có thể không khả thi khi xử lý nhiều dữ liệu. Vì vậy, trong khi nó là giá trị suy nghĩ về các công cụ có sẵn của từng ngôn ngữ cho các vấn đề quy mô lớn, các thuật toán ML được sử dụng có thể thống trị hiệu suất. – Junier
Câu hỏi của bạn rất thú vị nhưng cũng rất rộng, tôi thậm chí không biết tôi có thể đưa ra câu trả lời. Một lời khuyên sẽ là sử dụng Mahout (dự án từ Hadoop) trực tiếp giải quyết mối quan tâm của bạn. Cố gắng làm cho câu hỏi của bạn rõ ràng hơn và chi tiết hơn, hoặc nó có thể sẽ bị đóng ngay cả khi nó có tiềm năng. –