2012-12-26 21 views
11

Số lượng dữ liệu đủ điều kiện để được phân loại là Bigdata?Dữ liệu lớn như thế nào là "Bigdata"?

Với quy mô dữ liệu nào người ta có thể quyết định rằng đây là lúc để đi cho các công nghệ như Hadoop và sử dụng sức mạnh của máy tính phân tán?

Tôi tin rằng có một phí bảo hiểm nhất định khi thực hiện các công nghệ này, vậy làm cách nào để đảm bảo sử dụng các phương pháp Bigdata sẽ tận dụng hệ thống hiện tại?

+2

nếu bạn phải đặt câu hỏi này, lượng dữ liệu của bạn không lớn :-) –

+0

Không, tôi muốn biết cách quyết định sử dụng công nghệ hadoop hay không. –

+1

@Shill Nếu bạn muốn biết điều đó, bạn nên chỉ rõ yêu cầu của bạn là bao nhiêu (bạn cần phải làm việc với bao nhiêu dữ liệu, loại truy vấn nào bạn đang thực hiện) và hỏi câu hỏi cụ thể đó, điều này?" Chỉ cần hỏi về số lượng dữ liệu cấu thành "dữ liệu lớn" quá mơ hồ là rất hữu ích. Mọi người có thể trích dẫn các số cụ thể dựa trên khối lượng công việc của riêng họ, nhưng nó không nhất thiết phải áp dụng cho bạn. –

Trả lời

9

Để trích dẫn từ trang wiki cho Bigdata:

Khi nó trở nên khó khăn để lưu trữ, tìm kiếm, phân tích, chia sẻ vv một số tiền nhất định của dữ liệu sử dụng các công cụ quản lý cơ sở dữ liệu truyền thống của chúng tôi, rằng lớn và tập dữ liệu phức tạp được gọi là Bigdata.

Về cơ bản, tất cả đều tương đối. Những gì được coi là Bigdata khác nhau tùy thuộc vào khả năng của tổ chức quản lý tập dữ liệu. Đối với một số tổ chức, phải đối mặt với hàng trăm gigabyte dữ liệu lần đầu tiên có thể kích hoạt nhu cầu xem xét lại các tùy chọn quản lý dữ liệu. Đối với những người khác, có thể mất hàng chục hoặc hàng trăm terabyte trước khi kích thước dữ liệu trở thành một cân nhắc quan trọng.

Lượng dữ liệu chỉ là một trong những yếu tố chính trong việc xác định Bigdata. Variety trong dữ liệu và velocity mà tại đó dữ liệu tăng là hai yếu tố chính khác trong việc xác định tập dữ liệu là Bigdata.

Variety trong dữ liệu có nghĩa là có nhiều loại dữ liệu và tập tin khác nhau mà có thể yêu cầu để được phân tích và xử lý theo những cách đó là ngoài giới hạn của ví dụ databases.Some quan hệ truyền thống của giống này bao gồm các file âm thanh và phim, hình ảnh, tài liệu , dữ liệu không gian địa lý, nhật ký web và chuỗi văn bản.

Velocity là về tốc độ thay đổi trong dữ liệu và tốc độ thay đổi phải được xử lý để tạo ra giá trị đáng kể. Các công nghệ truyền thống đặc biệt kém phù hợp để lưu trữ và sử dụng dữ liệu tốc độ cao. Vì vậy, cách tiếp cận mới là cần thiết. Nếu dữ liệu được đề cập được tạo ra và tổng hợp rất nhanh và phải được sử dụng nhanh chóng để phát hiện ra các mẫu và vấn đề, thì vận tốc càng lớn và bạn càng có nhiều khả năng gặp vấn đề Bigdata trong tầm tay.

Bằng cách này nếu bạn đang tìm kiếm giải pháp 'tiết kiệm chi phí', bạn có thể khám phá amazon's EMR.

+0

Hummm cảm ơn bạn Amar. Vì vậy, về cơ bản nó là tất cả chủ quan. –

+0

vâng khá nhiều. – Amar

+0

Và có, chúng tôi đã sử dụng EMR rồi. Nhưng có rất nhiều thứ khác chúng tôi làm mà bây giờ chúng tôi đang lên kế hoạch chuyển sang EMR và do đó đã tìm kiếm thông tin chi tiết về tất cả các yếu tố cần xem xét. –

12

"Dữ liệu lớn" là một thuật ngữ hơi mơ hồ, được sử dụng nhiều hơn cho mục đích tiếp thị hơn là đưa ra các quyết định kỹ thuật. Những gì một người gọi là "dữ liệu lớn" khác có thể xem xét chỉ là hoạt động hàng ngày trên một hệ thống duy nhất.

Quy tắc chung của tôi là dữ liệu lớn bắt đầu khi bạn có bộ dữ liệu đang hoạt động không vừa với bộ nhớ chính trên một hệ thống. Bộ làm việc là dữ liệu bạn đang tích cực làm việc tại một thời điểm nhất định. Vì vậy, ví dụ, nếu bạn có một hệ thống tập tin lưu trữ 10 TB dữ liệu, nhưng bạn đang sử dụng để lưu trữ video để chỉnh sửa, biên tập viên của bạn chỉ có thể cần vài trăm hợp đồng biểu diễn tại bất kỳ thời điểm nào; và họ thường phát trực tuyến dữ liệu đó ra khỏi đĩa mà không yêu cầu truy cập ngẫu nhiên. Nhưng nếu bạn đang cố gắng thực hiện các truy vấn cơ sở dữ liệu đối với một tập dữ liệu đầy đủ 10 TB đang thay đổi một cách thường xuyên, bạn không muốn phục vụ dữ liệu đó ra khỏi đĩa; bắt đầu trở thành "dữ liệu lớn".

Để biết quy tắc cơ bản, tôi có thể định cấu hình máy chủ Dell sẵn có cho 2 TB RAM ngay bây giờ.Nhưng bạn phải trả một khoản phí bảo hiểm đáng kể cho những thứ mà nhiều RAM vào một hệ thống duy nhất. RAM 512 GB trên một máy chủ duy nhất có giá cả phải chăng hơn, vì vậy nói chung sẽ hiệu quả hơn khi sử dụng 4 máy với RAM 512 GB so với một máy tính có 2 TB. Vì vậy, bạn có thể nói rằng trên 512 GB dữ liệu làm việc thiết lập (dữ liệu mà bạn cần truy cập cho bất kỳ tính toán nào được cung cấp trên cơ sở hàng ngày) sẽ đủ điều kiện là "dữ liệu lớn".

Với chi phí bổ sung phát triển phần mềm cho hệ thống "dữ liệu lớn" trái ngược với cơ sở dữ liệu truyền thống, đối với một số người có thể có hiệu quả về chi phí để chuyển sang hệ thống 2 TB đó hơn là thiết kế lại hệ thống của họ một số hệ thống, do đó tùy thuộc vào nhu cầu của bạn, bất cứ nơi nào giữa 512 GB và 2 TB dữ liệu có thể là điểm mà bạn cần phải chuyển sang hệ thống "dữ liệu lớn".

Tôi sẽ không sử dụng cụm từ "dữ liệu lớn" để đưa ra bất kỳ quyết định kỹ thuật nào. Thay vào đó, hãy xây dựng các nhu cầu thực tế của bạn và xác định loại công nghệ nào cần thiết để giải quyết những nhu cầu đó ngay bây giờ. Hãy xem xét tăng trưởng một chút, nhưng cũng nên nhớ rằng các hệ thống vẫn đang phát triển về năng lực; vì vậy đừng cố gắng lên kế hoạch. Nhiều hệ thống "dữ liệu lớn" có thể khó sử dụng và không linh hoạt, vì vậy nếu bạn không thực sự cần chúng để truyền dữ liệu và tính toán đến hàng chục hoặc hàng trăm hệ thống, chúng có thể gây rắc rối nhiều hơn chúng đáng giá.

+0

Có. Cảm ơn bạn. –

Các vấn đề liên quan