참고로 나의 CentOS 노트북에는 Hadoop 1.2.1 이 깔려 있다.
[1] 다운로드
https://spark.apache.org/downloads.html
[2] 다운로드 옵션
1.1.0
Pre-built for Hadoop1.x
Direct Download....
이렇게 옵션을 주고 spark-1.1.0-bin-hadoop1.tgz 를 받았다.
[3] pre-requiste...
Spark runs on Java 6+ and Python 2.6+. For the Scala API, Spark 1.1.0 uses Scala 2.10. You will need to use a compatible Scala version (2.10.x).
[4] 설치
설치는 걍... 압축 풀면 끝난다...
[5] 테스트 Scala 버전 M/R 실행.
spark top 폴더에서 아래 처럼 수행.
[spiccato@hoonnote spark-1.1.0-bin-hadoop1]$ ./bin/run-example SparkPi 10
결과는
Pi is roughly 3.142752
vi 로 run-example 파일을 열어보자 아래 같은 내용이 보인다.
if [[ ! $EXAMPLE_CLASS == org.apache.spark.examples* ]]; then
EXAMPLE_CLASS="org.apache.spark.examples.$EXAMPLE_CLASS"
fi
"$FWDIR"/bin/spark-submit \
--master $EXAMPLE_MASTER \
--class $EXAMPLE_CLASS \
"$SPARK_EXAMPLES_JAR" \
"$@"
즉, 위 소스는 EXAMPLE_CLASS 안에 있는 듯 하다.
위 위치에서 SparkPi.scala 소스를 열어 보았다.
위 스칼라 소스를 수행하면 수행 시간은 0.620 초가 소요된다.
[6] 테스트 Python 버전 M/R 실행.
소스는 아래와 같다.
위 파이썬 소스를 수행하면 수행 시간이 scala 보다 2배정도 느린 1.270 초가 소요된다.
위 결과 만으로 절대 비교 하면, Python이 느린 것 처럼 보이긴 하지만,
만약 Python 코드를 Scala 코드로 Convert 하는 시간이 위 시간 만큼의 차이를 주고, 실제 계산 수행은 동일하다고 한다면, 대용량 데이타를 처리하는 시간은 동일하다고 할수도 있을 것이므로 이는 좀더 지켜보아야 할것 같다.
[7] 결론
로컬모드 설치는 압축만 풀면 된다...
댓글 없음:
댓글 쓰기