Spark Filter函數

在Spark中,Filter函數返回一個新數據集,該數據集是通過選擇函數返回true的源元素而形成的。因此,它僅檢索滿足給定條件的元素。

Filter函數示例

在此示例中,將過濾給定數據並檢索除35之外的所有值。
要在Scala模式下打開Spark,請按照以下命令操作。

$ spark-shell

Spark Filter函數

使用並行化集合創建RDD。

scala> val data = sc.parallelize(List(10,20,35,40))

現在,可以使用以下命令讀取生成的結果。

scala> data.collect

Spark Filter函數

應用過濾器函數並傳遞執行所需的表達式。

scala> val filterfunc = data.filter(x => x!=35)

現在,可以使用以下命令讀取生成的結果。

scala> filterfunc.collect

Spark Filter函數