2014년 10월 11일 토요일

Spark 설치기 2 - Stand Alone 설치

우선 나의 Portable 개발 환경인 CentOS 노트북에 먼저 Stand Alone 설치....

참고로 나의 CentOS 노트북에는 Hadoop 1.2.1 이 깔려 있다.

[1] 다운로드

https://spark.apache.org/downloads.html

[2] 다운로드 옵션

1.1.0
Pre-built for Hadoop1.x
Direct Download....

이렇게 옵션을 주고 spark-1.1.0-bin-hadoop1.tgz 를 받았다.

[3] pre-requiste...


Spark runs on Java 6+ and Python 2.6+. For the Scala API, Spark 1.1.0 uses Scala 2.10. You will need to use a compatible Scala version (2.10.x).

[4] 설치

설치는 걍... 압축 풀면 끝난다...

[5] 테스트 Scala 버전 M/R 실행.

spark top 폴더에서 아래 처럼 수행.
[spiccato@hoonnote spark-1.1.0-bin-hadoop1]$ ./bin/run-example SparkPi 10

결과는
Pi is roughly 3.142752

vi 로 run-example 파일을 열어보자 아래 같은 내용이 보인다.

if [[ ! $EXAMPLE_CLASS == org.apache.spark.examples* ]]; then
  EXAMPLE_CLASS="org.apache.spark.examples.$EXAMPLE_CLASS"
fi

"$FWDIR"/bin/spark-submit \
  --master $EXAMPLE_MASTER \
  --class $EXAMPLE_CLASS \
  "$SPARK_EXAMPLES_JAR" \
  "$@"

즉, 위 소스는 EXAMPLE_CLASS 안에 있는 듯 하다.

위 위치에서 SparkPi.scala 소스를 열어 보았다.

위 스칼라 소스를 수행하면 수행 시간은  0.620 초가 소요된다.

[6] 테스트 Python 버전 M/R 실행.

소스는 아래와 같다.

위 파이썬 소스를 수행하면 수행 시간이 scala 보다 2배정도 느린 1.270 초가 소요된다.
위 결과 만으로 절대 비교 하면, Python이 느린 것 처럼 보이긴 하지만,
만약 Python 코드를 Scala 코드로 Convert 하는 시간이 위 시간 만큼의 차이를 주고, 실제 계산 수행은 동일하다고 한다면, 대용량 데이타를 처리하는 시간은 동일하다고 할수도 있을 것이므로 이는 좀더 지켜보아야 할것 같다.

[7] 결론

로컬모드 설치는 압축만 풀면 된다...

댓글 없음:

댓글 쓰기