word2vec: CBOW & hiệu suất bỏ qua khối lượng đào tạo tập dữ liệu kích thước

Câu hỏi rất đơn giản. Phần nào trong số CBOW & bỏ qua-gram hoạt động tốt hơn cho tập dữ liệu lớn? (Và câu trả lời cho tập dữ liệu nhỏ sau.)word2vec: CBOW & hiệu suất bỏ qua khối lượng đào tạo tập dữ liệu kích thước

Tôi bối rối bởi vì, bởi Mikolov mình, [Link]

Skip-gram: hoạt động tốt với lượng nhỏ dữ liệu huấn luyện, đại diện tốt ngay cả hiếm từ hoặc cụm từ.

CBOW: nhanh hơn nhiều lần để đào tạo hơn so với bỏ qua-gram, độ chính xác tốt hơn một chút cho các từ thường xuyên

nhưng, theo Google TensorFlow, [Link]

CBOW làm mềm hơn rất nhiều thông tin phân phối (bằng cách xử lý toàn bộ ngữ cảnh dưới dạng một quan sát). Đối với hầu hết các phần, điều này hóa ra là một điều hữu ích cho các tập dữ liệu nhỏ hơn.

Tuy nhiên, bỏ qua gram xử lý từng cặp mục tiêu theo ngữ cảnh dưới dạng quan sát mới và điều này có xu hướng hoạt động tốt hơn khi chúng tôi có các tập dữ liệu lớn hơn. Chúng tôi sẽ tập trung vào mô hình bỏ qua gram trong phần còn lại của hướng dẫn này.

Đây là một bài Quora mà hỗ trợ ý nghĩ đầu tiên [Link], và sau đó là Quora bài khác mà thấy ý nghĩ thứ hai [Link] --both vẻ derivable từ các nguồn đáng tin cậy nói trên.

Hoặc là nó giống như những gì Mikolov nói:

Nhìn chung, việc thực hành tốt nhất là cố gắng vài thí nghiệm và xem những gì làm việc tốt nhất cho bạn, như các ứng dụng khác nhau có những yêu cầu khác nhau.

Nhưng chắc chắn có một phán quyết kinh nghiệm hoặc phân tích hoặc câu nói cuối cùng về vấn đề này?

Nguồn

2016-08-30 Sean

Khi Mikolov có nghĩa là CBOW hoạt động tốt cho tập dữ liệu lớn hơn và SG cho tập dữ liệu nhỏ hơn, tôi cho rằng số lượng dữ liệu được xem xét. Vì CBOW xem xét một từ mục tiêu và nhiều từ ngữ cảnh, nó cần một tập dữ liệu lớn hơn để đào tạo cho các vectơ đích so với các tập dữ liệu được sử dụng trong SG. Ngược lại, trong SG do nhiều từ mục tiêu cho từ ngữ đơn, nó cần các tập dữ liệu nhỏ hơn.

Google Tensor Flow nói về phân phối các từ trong tập dữ liệu để tạo các vectơ chất lượng hơn là số lượng tập dữ liệu được sử dụng. Khi mô hình CBOW xem xét nhiều hơn các từ ngữ tương tự cho tất cả các từ mục tiêu trong một câu, một bộ dữ liệu lớn hơn (phân tán) là cần thiết và ngược lại cho SG.

Trong chung, cả hai đều có nghĩa như nhau:

CBOW mô hình = dataset với câu ngắn nhưng số lượng lớn các mẫu (bộ dữ liệu lớn hơn)
mô hình SG = dataset với câu dài và số lượng mẫu thấp (tập dữ liệu nhỏ hơn)

Nguồn

2016-11-09 12:31:00 yazhi

word2vec: CBOW & hiệu suất bỏ qua khối lượng đào tạo tập dữ liệu kích thước

Trả lời

Các vấn đề liên quan