2014-10-26 18 views
7

Tôi đang sử dụng Word2Vec với số liệu khoảng 11.000.000 mã thông báo tìm cách thực hiện cả hai từ giống nhau (như một phần trích xuất từ ​​đồng nghĩa cho tác vụ hạ lưu) nhưng tôi không hiểu rõ nên sử dụng với Word2Vec. Có ai có một heuristic tốt cho nhiều kích thước để xem xét dựa trên số lượng thẻ/câu?Word2Vec: Số kích thước

+0

Bạn có thể thử với các kích thước trong phạm vi 100, 100,200,300. Đây là những gì đã được chứng minh để cho kết quả tốt. Xem http://arxiv.org/pdf/1301.3781.pdf –

+0

Tôi tự hỏi nếu kết quả và giới hạn về đóng gói hình cầu có liên quan ở đây https://gilkalai.wordpress.com/2016/03/23/a-breakthrough-by- maryna-viazovska-chì-to-the-chờ đợi-giải pháp-cho-the-densest-đóng gói-vấn đề-in-dimension-8-và-24/ – arivero

Trả lời

9

Khoảng thời gian điển hình là từ 100-300. Tôi sẽ nói rằng bạn cần ít nhất 50D để đạt được độ chính xác thấp nhất. Nếu bạn chọn ít kích thước hơn, bạn sẽ bắt đầu mất các thuộc tính của không gian chiều cao. Nếu thời gian đào tạo không phải là một việc lớn đối với ứng dụng của bạn, tôi sẽ gắn bó với kích thước 200D vì nó mang lại các tính năng tốt đẹp. Độ chính xác cực có thể đạt được với 300D. Sau khi tính năng từ 300D sẽ không cải thiện đáng kể, và đào tạo sẽ rất chậm.

Tôi không biết giải thích lý thuyết và giới hạn nghiêm ngặt về lựa chọn kích thước trong không gian chiều cao (và có thể không có giải thích độc lập cho ứng dụng), nhưng tôi sẽ giới thiệu bạn đến Pennington et. al, Figure2a. trục y hiển thị độ chính xác thu được. Điều đó sẽ cung cấp sự biện minh thực nghiệm cho đối số trên.

+1

Tham chiếu "GloVe: Global Vectors forWord Representation" hiện không phải là accesible trong liên kết, nhưng nó chắc chắn có thể truy cập ở nơi khác trên web. – arivero

+0

Đây có vẻ là phiên bản của bản ghi: http://www.aclweb.org/anthology/D14-1162 Và đây là tìm kiếm Scholar cho tất cả các phiên bản của bài báo: https://scholar.google.com/scholar ? cluster = 15824805022753088965 & hl = vi & as_sdt = 0,47 –

+0

là có bất kỳ 200d được đào tạo word2vec, tôi thấy chúng tôi có găng tay với 200d, nhưng chúng ta có thể sử dụng găng tay với word2vec? – bicepjai

0

Tôi nghĩ rằng số thứ nguyên từ word2vec tùy thuộc vào ứng dụng của bạn. Giá trị thực nghiệm nhất là khoảng 100. Sau đó, nó có thể hoạt động tốt.

Các vấn đề liên quan