2015-08-12 23 views
5

Thuật toán MLlib của Apache Spark (ví dụ: Cây quyết định) lưu mô hình ở một vị trí (ví dụ: myModelPath) nơi tạo hai thư mục, tức là. myModelPath/datamyModelPath/metadata. Có nhiều tệp trong các đường dẫn này và các tệp đó không phải là tệp văn bản. Có một số tệp có định dạng *.parquet.Định dạng tệp mô hình Apache Spark MLlib

Tôi có vài câu hỏi:

  • định dạng của những tập tin này là gì?
  • Tệp/tệp nào chứa mô hình thực tế?
  • Tôi có thể lưu mô hình ở một nơi khác, ví dụ như trong DB không?

Trả lời

4

Định dạng của những tệp này là gì?

  • data/*.parquet tập tin nằm trong Apache Parquet định dạng lưu trữ hình cây cột
  • metadata/part-* trông giống như JSON

Những tập tin/file chứa mô hình thực tế?

  • model/*.parquet

Tôi có thể lưu các mô hình để ở một nơi khác, ví dụ như trong một DB?

Tôi không biết về bất kỳ phương pháp trực tiếp nhưng bạn có thể tải mô hình như một khung dữ liệu và lưu trữ nó trong một cơ sở dữ liệu sau:

model_df = sqlContext.parquetFile("/path/to/data/") 
model_df.write.jdbc(...) 
Các vấn đề liên quan