2015-06-05 28 views
5

Tôi đang thực hiện một số công việc phân tích văn bản bằng Python. Thật không may, tôi cần phải chuyển sang R để sử dụng một gói cụ thể (thật không may, gói không thể được nhân rộng trong Python một cách dễ dàng).Vận chuyển Ma trận thưa thớt từ Python sang R

Hiện nay các văn bản được phân tách thành đếm Bigram, giảm đến mức từ vựng khoảng 11.000 bigrams, và sau đó được lưu trữ như một cuốn từ điển:

{id1: {'bigrams':[(bigram1, count), (bigram2, count), ...]}, 
id2: {'bigrams': ...} 

tôi cần phải có được điều này vào một dgCMatrix trong R, nơi các hàng là id1, id2, ... và các cột là các bigram khác nhau sao cho một ô đại diện cho 'count' cho id-bigram đó.

Mọi đề xuất? Tôi nghĩ về việc mở rộng nó chỉ với một CSV lớn, nhưng điều đó có vẻ như siêu không hiệu quả cộng với có thể không khả thi do những ràng buộc về bộ nhớ.

+1

Ví dụ về giá trị thực tế và số lượng lớn hơn có thể hữu ích hơn. Vì nó là bạn đang mong đợi chúng ta làm khá nhiều công việc trước khi thậm chí cố gắng để mã. Có lẽ bạn ưa thích các lập trình viên Python nắm bắt bố cục này tốt hơn so với bộ mã hóa R yếu ớt này, nhưng bạn có thể vui lòng cung cấp nhiều chất hơn không? –

Trả lời

4

Bạn có thể viết ma trận ở định dạng MatrixMarket bằng cách sử dụng scipymmwrite và sau đó đọc nó vào R bằng cách sử dụng readMM từ gói Matrix?

+1

Điều này đã hiệu quả! Nó không phải là một cách siêu hiệu quả làm việc đó (theo như tôi có thể nói), nhưng quản lý để có được nó để chạy trên máy tính của tôi tốt. – Craig

+0

Hy vọng rằng nó khá hiệu quả về thời gian! LOL! :) Mừng vì tôi có thể giúp. – earino

Các vấn đề liên quan