Tôi tiếp tục nhìn thấy những cảnh báo khi sử dụng trainImplicit
:Spark MLlib - cảnh báo trainImplicit
WARN TaskSetManager: Stage 246 contains a task of very large size (208 KB).
The maximum recommended task size is 100 KB.
Và sau đó kích thước nhiệm vụ bắt đầu tăng. Tôi đã cố gắng gọi repartition
trên RDD đầu vào nhưng cảnh báo giống nhau.
Tất cả các cảnh báo này đến từ các lần lặp ALS, từ flatMap và cũng từ tổng hợp, ví dụ nguồn gốc của giai đoạn mà flatMap hiển thị các cảnh báo này (w/Spark 1.3.0, nhưng chúng cũng được hiển thị trong Spark 1.3. 1):
org.apache.spark.rdd.RDD.flatMap(RDD.scala:296)
org.apache.spark.ml.recommendation.ALS$.org$apache$spark$ml$recommendation$ALS$$computeFactors(ALS.scala:1065)
org.apache.spark.ml.recommendation.ALS$$anonfun$train$3.apply(ALS.scala:530)
org.apache.spark.ml.recommendation.ALS$$anonfun$train$3.apply(ALS.scala:527)
scala.collection.immutable.Range.foreach(Range.scala:141)
org.apache.spark.ml.recommendation.ALS$.train(ALS.scala:527)
org.apache.spark.mllib.recommendation.ALS.run(ALS.scala:203)
và từ tổng hợp:
org.apache.spark.rdd.RDD.aggregate(RDD.scala:968)
org.apache.spark.ml.recommendation.ALS$.computeYtY(ALS.scala:1112)
org.apache.spark.ml.recommendation.ALS$.org$apache$spark$ml$recommendation$ALS$$computeFactors(ALS.scala:1064)
org.apache.spark.ml.recommendation.ALS$$anonfun$train$3.apply(ALS.scala:538)
org.apache.spark.ml.recommendation.ALS$$anonfun$train$3.apply(ALS.scala:527)
scala.collection.immutable.Range.foreach(Range.scala:141)
org.apache.spark.ml.recommendation.ALS$.train(ALS.scala:527)
org.apache.spark.mllib.recommendation.ALS.run(ALS.scala:203)
bạn có thể cung cấp ví dụ về dữ liệu và mã không? – ipoteka
Unfortunatelly no. – Tarantula
Tôi ngạc nhiên một khuôn khổ hiện đại cho rằng 208KB là "lớn". Tự hỏi lý do sẽ là gì ... – Paul