Câu hỏi rất đơn giản. Phần nào trong số CBOW & bỏ qua-gram hoạt động tốt hơn cho tập dữ liệu lớn? (Và câu trả lời cho tập dữ liệu nhỏ sau.)word2vec: CBOW & hiệu suất bỏ qua khối lượng đào tạo tập dữ liệu kích thước
Tôi bối rối bởi vì, bởi Mikolov mình, [Link]
Skip-gram: hoạt động tốt với lượng nhỏ dữ liệu huấn luyện, đại diện tốt ngay cả hiếm từ hoặc cụm từ.
CBOW: nhanh hơn nhiều lần để đào tạo hơn so với bỏ qua-gram, độ chính xác tốt hơn một chút cho các từ thường xuyên
nhưng, theo Google TensorFlow, [Link]
CBOW làm mềm hơn rất nhiều thông tin phân phối (bằng cách xử lý toàn bộ ngữ cảnh dưới dạng một quan sát). Đối với hầu hết các phần, điều này hóa ra là một điều hữu ích cho các tập dữ liệu nhỏ hơn.
Tuy nhiên, bỏ qua gram xử lý từng cặp mục tiêu theo ngữ cảnh dưới dạng quan sát mới và điều này có xu hướng hoạt động tốt hơn khi chúng tôi có các tập dữ liệu lớn hơn. Chúng tôi sẽ tập trung vào mô hình bỏ qua gram trong phần còn lại của hướng dẫn này.
Đây là một bài Quora mà hỗ trợ ý nghĩ đầu tiên [Link], và sau đó là Quora bài khác mà thấy ý nghĩ thứ hai [Link] --both vẻ derivable từ các nguồn đáng tin cậy nói trên.
Hoặc là nó giống như những gì Mikolov nói:
Nhìn chung, việc thực hành tốt nhất là cố gắng vài thí nghiệm và xem những gì làm việc tốt nhất cho bạn, như các ứng dụng khác nhau có những yêu cầu khác nhau.
Nhưng chắc chắn có một phán quyết kinh nghiệm hoặc phân tích hoặc câu nói cuối cùng về vấn đề này?