Tôi đang sử dụng Word2Vec với số liệu khoảng 11.000.000 mã thông báo tìm cách thực hiện cả hai từ giống nhau (như một phần trích xuất từ đồng nghĩa cho tác vụ hạ lưu) nhưng tôi không hiểu rõ nên sử dụng với Word2Vec. Có ai có một heuristic tốt cho nhiều kích thước để xem xét dựa trên số lượng thẻ/câu?Word2Vec: Số kích thước
Trả lời
Khoảng thời gian điển hình là từ 100-300. Tôi sẽ nói rằng bạn cần ít nhất 50D để đạt được độ chính xác thấp nhất. Nếu bạn chọn ít kích thước hơn, bạn sẽ bắt đầu mất các thuộc tính của không gian chiều cao. Nếu thời gian đào tạo không phải là một việc lớn đối với ứng dụng của bạn, tôi sẽ gắn bó với kích thước 200D vì nó mang lại các tính năng tốt đẹp. Độ chính xác cực có thể đạt được với 300D. Sau khi tính năng từ 300D sẽ không cải thiện đáng kể, và đào tạo sẽ rất chậm.
Tôi không biết giải thích lý thuyết và giới hạn nghiêm ngặt về lựa chọn kích thước trong không gian chiều cao (và có thể không có giải thích độc lập cho ứng dụng), nhưng tôi sẽ giới thiệu bạn đến Pennington et. al, Figure2a. trục y hiển thị độ chính xác thu được. Điều đó sẽ cung cấp sự biện minh thực nghiệm cho đối số trên.
Tham chiếu "GloVe: Global Vectors forWord Representation" hiện không phải là accesible trong liên kết, nhưng nó chắc chắn có thể truy cập ở nơi khác trên web. – arivero
Đây có vẻ là phiên bản của bản ghi: http://www.aclweb.org/anthology/D14-1162 Và đây là tìm kiếm Scholar cho tất cả các phiên bản của bài báo: https://scholar.google.com/scholar ? cluster = 15824805022753088965 & hl = vi & as_sdt = 0,47 –
là có bất kỳ 200d được đào tạo word2vec, tôi thấy chúng tôi có găng tay với 200d, nhưng chúng ta có thể sử dụng găng tay với word2vec? – bicepjai
Tôi nghĩ rằng số thứ nguyên từ word2vec tùy thuộc vào ứng dụng của bạn. Giá trị thực nghiệm nhất là khoảng 100. Sau đó, nó có thể hoạt động tốt.
- 1. word2vec: CBOW & hiệu suất bỏ qua khối lượng đào tạo tập dữ liệu kích thước
- 2. SSRS chỉ số kích thước
- 3. C# tham số đại biểu kích thước
- 4. kích thước mảng '__curl_rule_01__' là số âm
- 5. Giới hạn kích thước tham số JSON
- 6. sqlalchemy Kích thước cột số nguyên
- 7. Sai số của kích thước trên model.fit
- 8. Cách tải xuống word2vec?
- 9. Cách nhận số từ vựng từ gensim word2vec?
- 10. gensim word2vec: Tìm số từ trong từ vựng
- 11. Kích thước NSImage không phải kích thước thật với một số hình ảnh?
- 12. Kích thước phân chia và kích thước khối trong Hadoop
- 13. Tăng kích thước Multiarray
- 14. Kích thước khối Hadoop và vấn đề kích thước tệp?
- 15. UIImageView: Thay đổi kích thước thành kích thước hình ảnh?
- 16. Mảng có kích thước không thay đổi kích thước động
- 17. MPI_Recv: Nhận kích thước khác với kích thước được gửi
- 18. Lấy kích thước của các kích thước trong mảng
- 19. Đọc byte kích thước "số nguyên" từ mảng char *.
- 20. Kích thước bàn phím số 5 của iPhone
- 21. Xác định kích thước của mảng bằng biến số
- 22. Kích thước tối đa chỉ số UNIQUE trong MySQL
- 23. Không kích thước của vector số không trống trong R
- 24. Lỗi Java Java: Kích thước vượt quá Số nguyên.MAX_VALUE
- 25. Thay đổi kích thước jqGrid dựa trên số hàng?
- 26. SqlCommand Các thông số kích thước nhầm lẫn
- 27. Cách nhân các số có kích thước terabyte?
- 28. Cách tìm kích thước của dãy số nguyên
- 29. chuyển tham số layout_weight từ kích thước (dimens)
- 30. Số JavaScript, tất cả cùng kích thước trong bộ nhớ?
Bạn có thể thử với các kích thước trong phạm vi 100, 100,200,300. Đây là những gì đã được chứng minh để cho kết quả tốt. Xem http://arxiv.org/pdf/1301.3781.pdf –
Tôi tự hỏi nếu kết quả và giới hạn về đóng gói hình cầu có liên quan ở đây https://gilkalai.wordpress.com/2016/03/23/a-breakthrough-by- maryna-viazovska-chì-to-the-chờ đợi-giải pháp-cho-the-densest-đóng gói-vấn đề-in-dimension-8-và-24/ – arivero