tôi có thuật toán sẽ đi qua một tập dữ liệu lớn đọc một số tệp văn bản và tìm kiếm các cụm từ cụ thể trong các dòng đó. Tôi có nó thực hiện trong Java, nhưng tôi didnt muốn đăng mã để nó không nhìn tôi đang tìm kiếm một ai đó để thực hiện nó cho tôi, nhưng nó là sự thật tôi thực sự cần rất nhiều sự giúp đỡ !!! Điều này đã không được lên kế hoạch cho dự án của tôi, nhưng tập dữ liệu hóa ra là rất lớn, vì vậy giáo viên nói với tôi rằng tôi phải làm như thế này.Cần trợ giúp triển khai thuật toán này với bản đồ Hadoop MapReduce
EDIT (tôi đã không làm rõ tôi previos version) Tập hợp dữ liệu tôi có là trên một cụm Hadoop, và tôi nên thực hiện MapReduce nó
Tôi đã đọc về MapReduce và thaught rằng tôi lần đầu tiên thực hiện thực hiện tiêu chuẩn và sau đó nó sẽ được nhiều hơn/ít dễ dàng hơn để làm điều đó với mapreduce. Nhưng đã không xảy ra, kể từ thuật toán là khá ngu ngốc và không có gì đặc biệt, và bản đồ giảm ... tôi không thể quấn tâm trí của tôi xung quanh nó.
Vì vậy, đây là một thời gian ngắn pseudo code của thuật toán của tôi
LIST termList (there is method that creates this list from lucene index)
FOLDER topFolder
INPUT topFolder
IF it is folder and not empty
list files (there are 30 sub folders inside)
FOR EACH sub folder
GET file "CheckedFile.txt"
analyze(CheckedFile)
ENDFOR
END IF
Method ANALYZE(CheckedFile)
read CheckedFile
WHILE CheckedFile has next line
GET line
FOR(loops through termList)
GET third word from line
IF third word = term from list
append whole line to string buffer
ENDIF
ENDFOR
END WHILE
OUTPUT string buffer to file
Ngoài ra, như bạn có thể thấy, mỗi lần khi "phân tích" được gọi, tập tin mới đã được tạo ra, tôi hiểu bản đồ mà giảm là khó khăn để ghi vào nhiều kết quả đầu ra ???
Tôi hiểu bản đồ trực quan, và ví dụ của tôi có vẻ hoàn toàn phù hợp với mapreduce, nhưng khi nói đến điều này, rõ ràng là tôi không biết đủ và tôi đang STUCK!
Vui lòng trợ giúp.
Xin chào! Thanx cho câu trả lời !!! Nhưng tôi không chắc tôi hiểu:/Bạn có thể cho tôi biết thêm thông tin không? Bạn có thể có một số ví dụ như thế không ??? – Julia