2016-01-22 20 views
6

Tôi đang sử dụng chức năng Doc2Vec của gensim bằng Python để chuyển đổi tài liệu sang vectơ.Tôi nên diễn giải thông số "kích thước" trong hàm Doc2Vec của gensim như thế nào?

Một ví dụ về việc sử dụng

model = Doc2Vec(documents, size=100, window=8, min_count=5, workers=4)

Làm thế nào tôi nên giải thích các tham số size. Tôi biết rằng nếu tôi đặt size = 100, độ dài của vector đầu ra sẽ là 100, nhưng nó có nghĩa là gì? Ví dụ: nếu tôi tăng size lên 200, điểm khác biệt là gì?

+1

Ah, kích thước ma thuật đen! – alvas

Trả lời

1

Sự khác biệt là chi tiết mà mô hình có thể chụp. Nói chung, các kích thước bạn cung cấp cho Word2Vec, mô hình càng tốt - đến một điểm nhất định.

Thông thường kích thước nằm trong khoảng từ 100-300. Bạn luôn phải cân nhắc rằng nhiều kích thước hơn cũng có nghĩa là cần nhiều bộ nhớ hơn.

+0

Xin chào, cảm ơn bạn rất nhiều vì đã bình luận của bạn. Nhưng câu hỏi của tôi, mô hình "bắt" là gì? Ví dụ, trong mô hình TF, nếu tôi đặt kích thước = 100, nó sẽ trả về 100 từ thường xuyên nhất - thật dễ hiểu. Nhưng trong Doc2Vec, tôi không hiểu lắm. – mamatv

+0

Vấn đề là bạn chỉ đơn giản là không thể nói những gì ảnh hưởng nhiều kích thước sẽ có. Bạn phải nhìn nó theo một cách khác. Khi bạn có 100 thứ nguyên, bạn chỉ có 100 biến để mô hình hóa các mối quan hệ của một từ. Nhưng với 300 kích thước bạn có 300. Vì vậy, trong lý thuyết nó có thể nắm bắt chi tiết hơn, bởi vì nó có nhiều biến để chơi với trong quá trình đào tạo. Hay ngắn gọn: Tweet vs Sách, bạn sẽ tìm thấy tổng quan chi tiết hơn về chủ đề ở đâu? : D – Saytiras

+0

Xin chào @Saytiras, tôi hoàn toàn hiểu nó :), nhưng câu hỏi của tôi là, "100" có nghĩa là gì. Ví dụ, như tôi đã nói, trong mô hình TF, 100 có nghĩa là 100 từ thường xuyên nhất trong văn bản, vì vậy nếu tôi thay đổi tham số thành 200, nó sẽ trả lại cho tôi 200 từ thường xuyên nhất. Nhưng trong Doc2Vec, nó thực sự có ý nghĩa gì, trong ngôn ngữ kỹ thuật? – mamatv

7

Word2Vec chụp đại diện phân phối của một từ mà về cơ bản có nghĩa là, nhiều tế bào thần kinh chụp một khái niệm đơn (khái niệm có thể từ ý nghĩa/tình cảm/phần ngôn luận vv), và cũng một neuron đơn nào chiếm nhiều khái niệm .

Các khái niệm này được tự động học và không được xác định trước, do đó bạn có thể nghĩ chúng là ẩn/ẩn. Cũng vì lý do tương tự, các vectơ từ có thể được sử dụng cho nhiều ứng dụng.

Thông tin kích thước khác là khả năng của mạng thần kinh của bạn đại diện cho các khái niệm này, nhưng sẽ cần nhiều dữ liệu hơn để đào tạo các vectơ này (vì chúng được khởi tạo ngẫu nhiên). Trong trường hợp không có đủ số câu/sức mạnh tính toán, tốt hơn là giữ cho số size nhỏ.

Doc2Vec theo cấu trúc mạng nơron hơi khác so với Word2Vec, nhưng ý nghĩa của size là tương tự.

+0

Xin chào, bạn có nghĩa là '' kích thước'' là số lượng tế bào thần kinh trong mạng nơron Doc2Vec được sử dụng để đào tạo và xuất ra vectơ? –

+0

số nơron trong mỗi lớp của mạng nơron sẽ phụ thuộc vào kiến ​​trúc, cho dù DBOW hay DM. Thanh toán giấy (được đề cập trong câu trả lời) – kampta

Các vấn đề liên quan