2013-07-04 27 views
12

Apache Giraph vs Neo4j: Có phải các thuật toán traversal qua nút hoàn toàn khác nhau trong đề tài hai hệ thống xử lý đồ thị? Nếu chúng ta đi ngang qua nói một biểu đồ xã hội bằng cách sử dụng Giraph và Neo4j trên dữ liệu được lưu trữ trong máy đơn lẻ (không phân phối), điều này sẽ hoạt động tốt hơn và tại sao?Neo4j vs Apache Giraph trong đồ thị traversal

Trả lời

22

Kéo xuống Neo4j. Các tính toán đồ thị của Giraph chạy như các công việc Hadoop, bởi vì chúng có nghĩa là làm việc cho các đồ thị phân tán lớn. Chi phí quản lý các công việc này quá lớn để có hiệu quả trên một biểu đồ quy mô nhỏ chạy trên một cụm máy phân tán giả.

Không chỉ vậy, nhưng đặc sản của Neo4j là traversals. Một lý do lớn cho điều đó là bởi vì Neo4j thực sự lưu trữ các mối quan hệ lân cận trong các danh sách được liên kết kép trong hệ thống tệp. Hãy xem bài viết trên blog này:

http://digitalstain.blogspot.nl/2010/10/neo4j-internals-file-storage.html

Nó giải thích cách Neo4j được tối ưu hóa theo cách mà họ lưu trữ các biểu đồ, đồ thị cho các hoạt động nhanh như traversals.

+3

Tôi đồng ý với câu trả lời này. Neo4j có nghĩa là phân tích dữ liệu theo thời gian thực, trên một tập hợp dữ liệu cỡ nhỏ/trung bình (hàng triệu nút/mối quan hệ), trong khi hình giễu/phần trước có nghĩa là cho công việc phân tán quy mô lớn, trên các kích thước internet. – Nicholas