2009-01-22 30 views
14

Tôi đang nghĩ về việc sử dụng Hadoop để xử lý file văn bản lớn trên cửa sổ hiện tại của tôi 2003 server (khoảng 10 máy lõi tứ với 16GB RAM)Hadoop trên cửa sổ máy chủ

Các câu hỏi là:

  1. Có hướng dẫn nào tốt về cách cấu hình cụm hadoop trên các cửa sổ không?

  2. Yêu cầu là gì? java + cygwin + sshd? Còn gì nữa không?

  3. HDFS, nó có đẹp trên cửa sổ không?

  4. Tôi muốn sử dụng hadoop ở chế độ phát trực tuyến. Bất kỳ lời khuyên, công cụ hoặc thủ thuật để phát triển mapper/reducers của riêng tôi trong C#?

  5. Bạn sử dụng gì để gửi và giám sát công việc?

Cảm ơn

+3

Cái gì đó như trường hợp vmware của Linux chạy trên Windows có thể ít đau đớn hơn là cố gắng sử dụng Windows trực tiếp. –

Trả lời

9

Từ Hadoop documentation:

Win32 được hỗ trợ như một phát triển nền tảng. Hoạt động phân phối có không được kiểm tra tốt trên Win32, do đó, không được hỗ trợ dưới dạng sản xuất nền tảng.

Tôi nghĩ dịch là: "Bạn đang sở hữu một mình".

Điều đó nói rằng, có thể có hy vọng nếu bạn không nôn nao về cài đặt Cygwin và một shim Java, theo Getting Started page of the Hadoop wiki:

Nó cũng có thể để chạy các daemon Hadoop như dịch vụ Windows sử dụng Trình bao bọc dịch vụ Java (tải xuống riêng biệt này). Điều này vẫn yêu cầu Cygwin được cài đặt là Hadoop yêu cầu lệnh df của nó.

Tôi đoán điểm mấu chốt là nó không có vẻ không thể, nhưng bạn sẽ bơi ngược dòng. Tôi đã thực hiện một vài cài đặt Hadoop (trên Linux cho sản xuất, Mac cho dev) bây giờ, và tôi sẽ không bận tâm với Windows khi nó rất đơn giản trên các nền tảng khác.

+0

Có xu hướng đồng ý, tôi đã cài đặt Hadoop trên Windows và không quá thẳng về phía trước, phải troll qua một số lỗi java khó chịu để giải quyết một số vấn đề triển khai nút mà tôi không đề xuất với bất kỳ ai. Bạn có thể làm theo hướng dẫn này: [link] (http://v-lad.org/Tutorials/Hadoop/14%20-%20start%20up%20the%20cluster.html) để có quá trình cài đặt Cygwin tốt, nếu bạn đang bắt đầu làm sạch nó có thể đơn giản hơn. Tôi đã tìm thấy một hướng dẫn để cài đặt Hadoop mà không cần sử dụng Cygwin (bạn chỉ cần thay đổi một vài tài liệu tham khảo), dường như không thể đào nó ra, nhưng đó thực sự là ** lãnh thổ chưa được thám hiểm. – ToOsIK

9

Mặc dù không phải là câu trả lời bạn có thể muốn nghe, tôi rất khuyên bạn nên sử dụng lại máy như, máy chủ Linux và chạy Hadoop ở đó. Bạn sẽ được hưởng lợi từ các hướng dẫn và kinh nghiệm và thử nghiệm được thực hiện trên nền tảng đó, và dành thời gian của bạn giải quyết các vấn đề kinh doanh hơn là các vấn đề hoạt động.

Tuy nhiên, bạn vẫn có thể viết công việc của mình trong C#. Vì Hadoop hỗ trợ triển khai "streaming", bạn có thể viết công việc của mình bằng bất kỳ ngôn ngữ nào. Với khung Mono, bạn sẽ có thể lấy khá nhiều bất kỳ mã .NET nào được viết trên nền tảng Windows và chỉ chạy cùng một nhị phân trên Linux.Bạn cũng có thể truy cập HDFS từ Windows khá dễ dàng - trong khi tôi không khuyên bạn nên chạy các dịch vụ Hadoop trên Windows, bạn chắc chắn có thể chạy ứng dụng DFS từ nền tảng Windows để sao chép các tệp vào và ra khỏi hệ thống tệp được phân phối .

Để gửi và giám sát công việc, tôi nghĩ rằng bạn chủ yếu là của riêng bạn ... Tôi không nghĩ rằng có bất kỳ hệ thống mục đích chung tốt nào được phát triển cho quản lý công việc Hadoop.

+0

Cảm ơn câu trả lời của bạn. Unfortunatelly Tôi không thể reimage các máy chủ, có lẽ tôi sẽ chỉ sử dụng một số trường hợp EC2 Linux.Đi đến Mono là một chút khôn lanh có thể làm việc. Luca –

+0

chúc may mắn! phần EC2 nên khá dễ dàng, và trong kinh nghiệm của tôi hầu hết các mã .NET chạy trên Mono mà không cần biên dịch lại - vì vậy hy vọng rằng sẽ không thực sự cần một "cổng" –

+0

Tôi nghĩ rằng Cloudera có một số công cụ quản lý hadoop ... dựa trên những gì tôi thấy trên youtube – LamonteCristo

2

Nếu bạn đang tìm kiếm bản đồ/giảm, bạn có thể thử nhìn vào bản đồ mới của MySpace/giảm khung chạy trên cửa sổ http://qizmt.myspace.com/

+0

+1 cho qizmt ref. Một lựa chọn tuyệt vời để bắt đầu, đã được thử nghiệm sản xuất, sử dụng cơ sở hạ tầng hiện có của mình và yêu cầu sửa đổi tối thiểu. –

Các vấn đề liên quan