2010-03-11 26 views
9

Apache Pig thể tải dữ liệu từ các tập tin chuỗi Hadoop sử dụng lợn tiết kiệm SequenceFileLoader:Lưu trữ dữ liệu để SequenceFile từ Apache Pig

REGISTER /home/hadoop/pig/contrib/piggybank/java/piggybank.jar;

DEFINE SequenceFileLoader org.apache.pig.piggybank.storage.SequenceFileLoader();

log = LOAD '/data/logs' USING SequenceFileLoader AS (...)

Có còn là một thư viện có thể cho phép ghi vào các tập tin chuỗi Hadoop từ Pig không?

Trả lời

2

Chỉ là vấn đề triển khai StoreFunc để thực hiện việc này.

Điều này có thể bây giờ, mặc dù nó sẽ trở thành một chút công bằng dễ dàng hơn một khi Pig 0,7 đi ra, vì nó bao gồm một thiết kế lại hoàn toàn của các giao diện Load/Store.

Các "Hadoop mở rộng gói" Twitter là về để mở nguồn mã nguồn mở tại github, bao gồm mã để tạo Load và cửa hàng funcs dựa trên Nghị định thư Buffers Google (xây dựng trên Input/Output định dạng cho cùng - bạn đã có những tập tin trình tự, rõ ràng). Kiểm tra xem nó ra nếu bạn cần các ví dụ về cách làm một số công cụ ít tầm thường hơn. Nó nên được khá đơn giản mặc dù.

Các vấn đề liên quan