학습/Apache Spark
-
[Spark] dataframe내 Vector타입 컬럼 필터링학습/Apache Spark 2020. 1. 7. 17:22
spark dataframe의 컬럼이 string이나 단순 numeric 타입인 경우 filter 메서드를 사용하여 쉽게 필터링 할 수 있다. df.filter("컬럼명 != '필터값'") 그러나 컬럼이 Vector타입인 경우 동일한 방식으로는 필터링 할 수 없기 때문에 아래의 방법을 적용해야 한다. 1. 예제 데이터 프레임 생성 %spark // 임포트 라이브러리 import org.apache.spark.ml.feature.VectorAssembler import org.apache.spark.ml.linalg.Vectors import org.apache.spark.ml.linalg.Vector import org.apache.spark.sql.functions.udf // 데이터프레임 생성 val..