Tôi đang làm việc trên một vấn đề phân loại web dựa trên văn bản tương đối lớn và tôi đang lập kế hoạch sử dụng trình phân loại đa thức Naive Bayes trong sklearn trong python và . Tuy nhiên, tôi hơi lo ngại rằng sklearn/python có thể quá chậm đối với một vấn đề có thể liên quan đến phân loại hàng triệu trang web. Tôi đã đào tạo trình phân loại trên hàng nghìn trang web từ DMOZ. Khung nghiên cứu như sau:Sử dụng sklearn và Python để thực hiện phân loại ứng dụng lớn/bài tập cạo râu
1) Trình thu thập thông tin trên một tên miền và loại bỏ văn bản từ 20 liên kết trên trang web (độ sâu không lớn hơn một). (Số lượng từ được mã hóa ở đây có vẻ khác nhau giữa vài nghìn đến tối đa 150K để chạy mẫu trình thu thập thông tin) 2) Chạy bộ phân loại NB multionmial skulearn với khoảng 50.000 tính năng và ghi lại tên miền tùy thuộc vào kết quả
Câu hỏi của tôi là liệu trình phân loại dựa trên Python có thể thực hiện nhiệm vụ cho một ứng dụng quy mô lớn hay tôi nên thử viết lại trình phân loại (và có thể cả trình gỡ rối và từ) trong môi trường nhanh hơn? Nếu có thì môi trường đó có thể là gì? Hoặc có lẽ Python là đủ nếu đi kèm với một số song song của mã? Cảm ơn