"Dữ liệu lớn" là một thuật ngữ hơi mơ hồ, được sử dụng nhiều hơn cho mục đích tiếp thị hơn là đưa ra các quyết định kỹ thuật. Những gì một người gọi là "dữ liệu lớn" khác có thể xem xét chỉ là hoạt động hàng ngày trên một hệ thống duy nhất.
Quy tắc chung của tôi là dữ liệu lớn bắt đầu khi bạn có bộ dữ liệu đang hoạt động không vừa với bộ nhớ chính trên một hệ thống. Bộ làm việc là dữ liệu bạn đang tích cực làm việc tại một thời điểm nhất định. Vì vậy, ví dụ, nếu bạn có một hệ thống tập tin lưu trữ 10 TB dữ liệu, nhưng bạn đang sử dụng để lưu trữ video để chỉnh sửa, biên tập viên của bạn chỉ có thể cần vài trăm hợp đồng biểu diễn tại bất kỳ thời điểm nào; và họ thường phát trực tuyến dữ liệu đó ra khỏi đĩa mà không yêu cầu truy cập ngẫu nhiên. Nhưng nếu bạn đang cố gắng thực hiện các truy vấn cơ sở dữ liệu đối với một tập dữ liệu đầy đủ 10 TB đang thay đổi một cách thường xuyên, bạn không muốn phục vụ dữ liệu đó ra khỏi đĩa; bắt đầu trở thành "dữ liệu lớn".
Để biết quy tắc cơ bản, tôi có thể định cấu hình máy chủ Dell sẵn có cho 2 TB RAM ngay bây giờ.Nhưng bạn phải trả một khoản phí bảo hiểm đáng kể cho những thứ mà nhiều RAM vào một hệ thống duy nhất. RAM 512 GB trên một máy chủ duy nhất có giá cả phải chăng hơn, vì vậy nói chung sẽ hiệu quả hơn khi sử dụng 4 máy với RAM 512 GB so với một máy tính có 2 TB. Vì vậy, bạn có thể nói rằng trên 512 GB dữ liệu làm việc thiết lập (dữ liệu mà bạn cần truy cập cho bất kỳ tính toán nào được cung cấp trên cơ sở hàng ngày) sẽ đủ điều kiện là "dữ liệu lớn".
Với chi phí bổ sung phát triển phần mềm cho hệ thống "dữ liệu lớn" trái ngược với cơ sở dữ liệu truyền thống, đối với một số người có thể có hiệu quả về chi phí để chuyển sang hệ thống 2 TB đó hơn là thiết kế lại hệ thống của họ một số hệ thống, do đó tùy thuộc vào nhu cầu của bạn, bất cứ nơi nào giữa 512 GB và 2 TB dữ liệu có thể là điểm mà bạn cần phải chuyển sang hệ thống "dữ liệu lớn".
Tôi sẽ không sử dụng cụm từ "dữ liệu lớn" để đưa ra bất kỳ quyết định kỹ thuật nào. Thay vào đó, hãy xây dựng các nhu cầu thực tế của bạn và xác định loại công nghệ nào cần thiết để giải quyết những nhu cầu đó ngay bây giờ. Hãy xem xét tăng trưởng một chút, nhưng cũng nên nhớ rằng các hệ thống vẫn đang phát triển về năng lực; vì vậy đừng cố gắng lên kế hoạch. Nhiều hệ thống "dữ liệu lớn" có thể khó sử dụng và không linh hoạt, vì vậy nếu bạn không thực sự cần chúng để truyền dữ liệu và tính toán đến hàng chục hoặc hàng trăm hệ thống, chúng có thể gây rắc rối nhiều hơn chúng đáng giá.
Nguồn
2012-12-26 19:46:54
nếu bạn phải đặt câu hỏi này, lượng dữ liệu của bạn không lớn :-) –
Không, tôi muốn biết cách quyết định sử dụng công nghệ hadoop hay không. –
@Shill Nếu bạn muốn biết điều đó, bạn nên chỉ rõ yêu cầu của bạn là bao nhiêu (bạn cần phải làm việc với bao nhiêu dữ liệu, loại truy vấn nào bạn đang thực hiện) và hỏi câu hỏi cụ thể đó, điều này?" Chỉ cần hỏi về số lượng dữ liệu cấu thành "dữ liệu lớn" quá mơ hồ là rất hữu ích. Mọi người có thể trích dẫn các số cụ thể dựa trên khối lượng công việc của riêng họ, nhưng nó không nhất thiết phải áp dụng cho bạn. –