2016년 1월 5일 화요일

SparkR 설치 사용기 1 - Installation Guide On Yarn Cluster & Mesos Cluster & Stand Alone Cluster

SparkR은 설치 및 사용기, 기타 내부 작동방식 등에 대한 자료가 너무 부족한거 같다. 내부 작동 방식에 대하여 너무 궁금했었는데, 여러가지 Mode 로 설치해보고 다양한 삽집을 거친 후, 조금씩 돌아가는 코드들을 만들어 돌려 보고 나서야, 조금씩 내부 구조가 감이 잡히기 시작했다.

사용을 해보기 전 가졌던 의문들은 다음과 같다. 의문에 대한 답은 정답이 아닐지도 모른다. 아직 코드 레벨에서 SparkR Core Code 까지는 까보고 확인해 보진 않았기 때문이다. 하지만, 실제 돌아가는 코드들을 하나 둘 만들어 수행해가며 실험을 해보니, 아래와 같은 유추가 가능하였다.

  1. Spark 는 Yarn 이나 Mesos 위에서 구동시 Spark 엔진을 모든 노드에 깔아줄 필요가 없다. R도 그럴가?
    1. SparkR은 R없이 동작되지 않는다. Local R과 Spark 엔진 사이에는 Layer 가 잘 나누어져 있는듯 하다. SparkR 모듈에서 R의 모든것을 처리하는 것이 아니라 인터페이스도 한다는 의미이다. 즉, bin 디렉토리에서 sparkR 을 수행하면, 로컬의 R이 반드시 있어야 그 위에서 무언가가 sparkR로서 완벽한 구동이 가능하다.
  2. R에서 사용하는 외부 Package 들은 모든 노드에 직접 설치 수행해 주어야 하나?
    1. 실험해 보니... 그렇다. 모든 노드에 설치해주지 않으면, 해당 모듈이 설치되지 않는 노드에서 계산 시 해당 노드에서만 에러가 난다.
    2. 외부 Package 설치는 일반적인 R의 그것과 동일하였다. SparkR 이 아닌 그냥 R 콘솔에서 install.package("패키지명") 하여 설치하면, SparkR 에서도 잘 인식 한다.
  3. 경로 참조는 어떤식으로 이루어 지나?
    1. 여러가지 메소드를 사용해보았는데, 동작 방식이 다소 차이가 있었다.
    2. 어떤 메소드는 해당 노드의 로컬경로를 찾는 것이 있다. (주로 R 고유 메소드 들..)
    3. 그리고, 어떤 메소드는 Hadoop 에서 해당 경로를 찾는 것도 있었다. (옵션 인자 를 확인해보진 않았지만, default 옵션이 그렇게 동작하는 것들이 있었다.)
    4. SparkR 이 제공하는 특화 메소드들은 몇몇 Hadoop 이 default 인것들이 보인다.
  4. 전통적인 R 스타일의 코드는 동작하지 않나? 예를 들어 R이 제공하는 data.frame 을 모두 SparkR 이 제공하는 dataframe(RDD Base) 로 일부 코드레벨로 치환해주어야만 동작하나?
    1. 답은 아니다 이다.
    2. 전통적인 R 스타일 코드도 동작하고, SparkR 스타일로 치환한 스타일 코드 또한 당연히 잘 동작한다.
    3. 단, 전자는 병렬처리가 안되는 것을 확인하였다. 후자는 병렬 처리가 이루어 진다.
  5. Production Level 의 실용적인 R코드를 SparkR 로 치환하는 대 진입장벽은 어느정도 인가?
    1. 계산 로직을 처음부터 만드는 경우이거나, Primitive 한 계산 로직 혹은 데이타 가공 처리 위주의 Legacy R 코드는 SparkR 스타일로 치환하기가 크게 어렵진 않다. 
    2. 단, data.frame 이나 data.read 부분의 메소드 들을 SparkR  스타일로 변경해주는 약간의 작업이 필요하다. 해당 코드들은 그러나 대부분 Legacy 코드의 5% 미만인 경우가 대부분일 것이다.
    3. 외부 Package 를 그대로 사용하는 경우는 약간 제약이 따른다. 일부 그래프 패키지 등은 SparkR 스타일로 계산을 끝내고, 자료구조에 최종 결과 Dataframe 만을 남긴 이후, 해당 data 를 R스타일 자료로 옮기고 그대로 사용가능하다. (sparkR 의 dataframe 을 input 으로 받아주지 못하는 Package 가 대부분이므로...) 초기 계산 data가 매우 크다 할지라도, 계산이 끝난 데이타는 양이 작아질 수 있으므로, 이 시나리오는 그런데로 available 할 수 있다.
    4. 하지만, 외부 Package 로 마이닝 로직을 거대 Input 데이타에 데고 수행해야 하는 경우, SparkR 의 DataFrame 은 병렬성을 지원하지만, 해당 패키지가 해당 자료구조를 Input 으로 받지 못하여 Package 사용에 제약이 따른다. 이경우 현재까지는 아래와 같은 우회 해결책 외에는 해결 방법이 없어 보인다.
      1. 우선은 Spark ML  등에서 제공하는 다른 유사 알고리즘. 혹은 Mahout 등이 제공하는 외부 모듈을 사용하여 해당 연산 Job 을 분리 수행 시키는 방법이 있을 것이다. (널리 알려진 알고리즘들은 대부분 이 방법으로 수행이 가능할 것이다.)
      2. 하지만, R 에서만 존재하는 알고리즘을 꼭 써야 하는 경우는.... 어쩔 수 없이, 패키지를 그대로 사용하지 못하고, 해당 패키지의 Primitive 한 소스 코드를 열어서 자료구조를 SparkR 스타일로 치환해주는 작업이 필요하다. (패키지의 소스 난이도에 따라 available 한 방법이 아닐 수도 있다.)

아래는 우선 각 Compute Node 에 R 설치하는 과정이다.
우선 CentOS6 장비들과 CentOS7 장비들의 설치 과정이 다소 차이가 있었다.

  1. centos 6 에서 Install
    1. wget http://mirror.us.leaseweb.net/epel/6/x86_64/epel-release-6-8.noarch.rpm
    2. wget https://www.fedoraproject.org/static/0608B895.txt
    3. sudo mv 0608B895.txt /etc/pki/rpm-gpg/RPM-GPG-KEY-EPEL-6 <-폴더생성됨
    4. sudo rpm --import /etc/pki/rpm-gpg/RPM-GPG-KEY-EPEL-6
    5. rpm -qa gpg*
    6. sudo rpm -ivh epel-release-6-8.noarch.rpm
    7. sudo yum install -y npm 
    8. sudo yum install -y R
  2. centos 7 에서 Install
    1. epel-release & npm 최신 버전 설치
      1. wget https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm
      2. sudo rpm -ivh epel-release-latest-7.noarch.rpm
      3. sudo yum install -y npm
    2. 이후 R설치 시도
      1. 이 경우 몇가지 Dependency 에러가 나는 경우가 있음. 각각을 rpm 찾아서 수동 설치
      2. wget ftp://ftp.muug.mb.ca/mirror/centos/7.1.1503/os/x86_64/Packages/blas-devel-3.4.2-4.el7.x86_64.rpm
        1. sudo yum install -y blas (버전이 devel 과 일치해야 함. 일치안할때는 rpm찾아서 깔아주면 됨.)
        2. sudo yum install -y gcc-gfortran
        3. sudo rpm -ivh blas-devel-3.4.2-4.el7.x86_64.rpm
      3. wget ftp://mirror.switch.ch/pool/4/mirror/centos/7.1.1503/os/x86_64/Packages/lapack-devel-3.4.2-4.el7.x86_64.rpm
        1. sudo yum install -y lapack (버전이 devel 과 일치해야 함. 일치안할때는 rpm찾아서 깔아주면 됨.)
        2. sudo rpm -ivh lapack-devel-3.4.2-4.el7.x86_64.rpm
      4. http://rpm.pbone.net/index.php3/stat/4/idpl/26647268/dir/centos_7/com/texinfo-tex-5.1-4.el7.x86_64.rpm.html 요기에서 texinfo-tex 모듈 다운로드 하여 인스톨
        1. sudo yum install -y tex
        2. sudo yum install -y texinfo
        3. http://rpm.pbone.net/index.php3/stat/4/idpl/29077368/dir/centos_7/com/texlive-epsf-svn21461.2.7.4-32.el7.noarch.rpm.html 요기에서 tex(epsf) 모듈 다운로드 하여 인스톨
          1. sudo rpm -ivh texlive-epsf-svn21461.2.7.4-32.el7.noarch.rpm
        4. sudo rpm -ivh texinfo-tex-5.1-4.el7.x86_64.rpm
    3. Dependency 모듈 모두 설치 후 R설치 재 시도
      1. sudo yum install -y R

앞서 질문과 자답에서 언급한 것 처럼 SparkR 병렬 구동에 앞서 위와 같이 R 을 모든 Compute Node 에 설치 해주어야 한다.

그리고 나면, 아래처럼 Spark Submit 으로 R 코드를 수행 할 수 있다.

  1. SparkR 실행 On Yarn
  2. SparkR 실행 On Mesos
  3. SparkR 실행 On StandAlone
  4. 병렬 수행 후 결과 Output
    1. Legacy R 스타일 Code 수행
      1. 내부 Cat 한 로그 위주로 출력.
    2. Spark R 스타일 Code 수행
      1. 병렬 수행을 위한 Shuffle 로그도 함께 출력.
  5. R 콘솔
  6. SparkR 콘솔








2015년 12월 29일 화요일

Mesos 0.26.0 - 기본 설치 세팅 On CentOS7.X

최근 들어 Mesos 버전업이 매우 빠른 듯 하다.
약 4개월 전 TO-BE Cluster 에 최신 버전 업그레이드를 한 바 있었는데.. 금일 TO-BE 클러스터에 0.26.0 으로 다시 클러스터 버전을 업그레이드 해보았다. 고세 TO-BE 클러스터의 갯수가 3배 이상 늘어 났기도 하고...
(*주의* : 2015년 12월 30일 현재 Spark 1.5.1과 본 Mesos 버전에는 일부 so모듈상에 호환성 문제가 발견되고 있음.)

DevOps 환경인지라...TO-BE 라고는 하지만, 부분 적으로 AS-IS 운영 모드로도 사용 중인 지라, 당분간 Adhoc 배치 위주로 버전 업 된 Mesos 환경에서 여러가지 AS-IS 모듈들을 돌려 보아야 하겠다. 아래는 디테일한 튜닝 작업 전 기본 세팅 버전의 설치 스크립트 이다.

무슨 일기 쓰는 느낌이네...
  1. Download 및 설치 준비
    1. wget http://apache.mirror.cdnetworks.com/mesos/0.26.0/mesos-0.26.0.tar.gz
    2. tar xvzf mesos*.tar.gz
    3. cd mesos-0.26.0
    4. sudo wget http://repos.fedorapeople.org/repos/dchen/apache-maven/epel-apache-maven.repo -O /etc/yum.repos.d/epel-apache-maven.repo
    5. epel-release 설치
    6. sudo yum install -y epel-release
  2. Mesos dependency 모듈 설치
    1. dependency 프로그램을 위한 추가 설정
    2. $ sudo cat > /etc/yum.repos.d/wandisco-svn.repo <<EOF
      [WANdiscoSVN]
      name=WANdisco SVN Repo 1.9
      enabled=1
      baseurl=http://opensource.wandisco.com/centos/7/svn-1.9/RPMS/$basearch/
      gpgcheck=1
      gpgkey=http://opensource.wandisco.com/RPM-GPG-KEY-WANdisco
      EOF
    3. sudo yum update systemd
    4. sudo yum groupinstall -y "Development Tools"
    5. sudo yum install -y apache-maven python-devel java-1.8.0-openjdk-devel zlib-devel libcurl-devel openssl-devel cyrus-sasl-devel cyrus-sasl-md5 apr-devel subversion-devel apr-util-devel
  3. Mesos 설치
    1. cd mesos폴더
    2. ./bootstrap
    3. mkdir build
    4. cd build
    5. ../configure
    6. make -j (core갯수) V=0
    7. make check
    8. sudo make install
  4. Master Node Running Script
    1. work_dir 설정
      1. mkdir /data02/mesos
    2. build/bin 아래에 run script 만듦.
      1. /data01/mesos/mesos-0.26.0/build/bin/mesos-master.sh --ip=서버IP --work_dir=/data02/mesos &
      2. 구동.
  5. Slave Node Running Script
    1. build/bin 아래에 run script 만듦.
      1. /data01/mesos/mesos-0.26.0/build/bin/mesos-slave.sh --master=서버IP --work_dir=/data02/mesos &
      2. 구동
  6. Web 관리 콘솔 구동
    1. http://masterNo_IP:5050

2015년 11월 26일 목요일

Kafka 0.8.22 설치기

2년 하고도 6개월 전 설치한 카프카를 지금도 잘 쓰고 있다가, 매우 매우 오랜만에 Kafka 를 버전 업 설치 해 보았다. ( 그냥 다시 설치 했다는 표현이 더 맞을 것이다. )

Kafka 는 정말 에러 없이 안정적인 기능을 제공해 준 에코 시스템 중 하나이다. 거의 문제를 일으키지 않았으며, 가끔 콜렉션 레이어나 hadoop 레이어가 잠시 문제가 있거나, 재부팅을 하는 동안, 훌륭하게 버퍼 역할을 해 주었다.

아쉬운 점은 내심 2년 반 만의 업그레이드 이니, 무언가 새로운 기능들이 있었으면 했는데, 기능 개선이 거의 없었고, 심지어 버전도 얼마 오르지 않았다는 점이다.

링크드인의 한국인 개발자에 의하여 '수로' 라는 별도 파생 프로젝트가 생긴것으로 아는데, 우선 '수로'는 다음 기회에 살펴보기로 하고, TO-BE 머신의 한켠에 Kafka 최신 버전을 가볍게 세팅해 보았다. (참고, 아래 설정은 최초 Initial 세팅이다. 세세한 Production 모드 세팅은 차근 차근 할 거라는 예기...)

설치방법

  1. 다운로드 및 설치
    1. wget http://apache.mirror.cdnetworks.com/kafka/0.8.2.2/kafka_2.10-0.8.2.2.tgz
    2. tar xvzf kafka_2.10-0.8.2.2.tgz
  2. 설정
    1. config/zookeeper.properties 내 dataDir 경로 수정
      1. 해당 경로에 디렉토리 생성 후 수행.
    2. config/consumer.properties 내 zookeeper connect 주소 변경
    3. config/producer.properties 내 metadata broker list 주소 변경
    4. 브로커의 server.properties 를 2개로 copy 하여 새로 만들고 내부 변수 변경
      1. broker.id 변경
      2. port 변경
      3. log.dir 변경
      4. zookeeper 주소 변경
    5. 각 파일들을 N개 노드에 복사 싱크
  3. 구동
    1. 1번노드에서 Zookeeper 구동
      1. bin/zookeeper-server-start.sh config/zookeeper.properties &
    2. 브로커노드에서 
      1. bin/kafka-server-start.sh config/server-1.properties &
      2. bin/kafka-server-start.sh config/server-2.properties &
  4. 토픽생성
    1. 1번노드에서
      1. bin/kafka-topics.sh --create --zookeeper 서버주소:2181 --replication-factor 2 --partitions 1 --topic ssg-replicated-topic
    2. 1번노드에서
      1. bin/kafka-console-producer.sh --broker-list 서버주소1:9093,서버주소2:9094 --topic ssg-replicated-topic
    3. 3번노드에서
      1. bin/kafka-console-consumer.sh --zookeeper 서버주소:2181 --from-beginning --topic ssg-replicated-topic
  5. 메시지 전달 테스트
    1. Producer

    2. Consumer

2015년 11월 19일 목요일

Grafana (RealTime Visualization) - version upgrade (2.1.3 -> 2.5.0)

Grafana 리얼타임 시각화 도구가 최근 2.1.3에서 2.5.0 으로 급격하게 버전이 바뀌었다. 패널을 드래그&드롭 하거나 크기를 자유롭게 마우스로 변경 한다던지, ElasticSearch 등에 대한 Full Featured Query Editing 을 지원한다던지 하는 기능도 추가 되었다.

  1. 다운로드 및 설치
    1. 다운로드 & yum install
    2. sudo yum install https://grafanarel.s3.amazonaws.com/builds/grafana-2.5.0-1.x86_64.rpm
  2. 설정 변경 ( 2.1.3과 좀 바뀐부분이 많다 )
    1. vi /etc/sysconfig/grafana-server  
      1. data 디렉토리 변경
        1. DATA_DIR=/data02/grafana/data
      2. log 디렉토리 변경
        1. LOG_DIR=/data02/grafana/log
    2. 그리고 vi /etc/grafana/grafana.ini 에서도 수정
      1. ;data = /data02/grafana/data
      2. ;logs = /data02/grafana/log
      3. ;http_port = 3033
    3. vi /usr/share/grafana/conf/defaults.ini (기본 port 는 요기서도 변경 해주어야 적용이 되었다.)
      1. 기본 Port 변경
        1. http_port = 3033
      2. 기타 Password 등 변경
  3. 구동
    1. sudo service grafana-server start
    2. 구동시 자동 구동되도록 설정
      1. sudo /sbin/chkconfig --add grafana-server
  4. 관리 Web Console

2015년 11월 18일 수요일

Grafana (RealTime Visualization) 2.1.3 - 설치기

influxDB 및 graphite 와 궁합이 좋은 실시간 시각화 툴.(최근 버전은 ElasticSearch 도 지원한다.)
이 툴을 이용하면, 실시간 Dash Board 를 Wizard 모드로 쉽게 만들어 낼 수 있다. 최근에 2.5.0 버전이 나왔는데....
요건 오래전에 정리해놓고 올리지 못한 2.1.3 버전 설치 문서...

  1. 다운로드 및 설치
    1. 다운로드 & yum install
    2. sudo yum install https://grafanarel.s3.amazonaws.com/builds/grafana-2.1.3-1.x86_64.rpm
  2. 설정 변경
    1. vi /usr/share/grafana/conf/defaults.ini 
      1. data 디렉토리 변경
        1. data = /data02/grafana/data
      2. log 디렉토리 변경
        1. logs = /data02/grafana/log
      3. 기본 Port 변경(필요시에만...)
        1. http_port = 3033
      4. http_addr 수정
      5. domain 수정
      6. admin_passwd 변경
  3. 구동
    1. sudo service grafana-server start
    2. 구동시 자동 구동되도록 설정
      1. sudo /sbin/chkconfig --add grafana-server
  4. 관리 Web Console

InfluxDB (Distributed time series database for RealTime Aggregation) - version upgrade (0.9.3 -> 0.9.4.2)

InfluxDB를 Production Level 에서 사용해 보면, 초반에 느껴지는 강렬한 장점들 외에도, 보이지 않는 부분에 단점도 많이 발견 되는 것이 사실이다. 무엇보다, 아직 정식 1.0 버전이 아닌지라 아직 미완의 기능들이 존재하여, 더욱 그럴것이다.

그럼에도 불구하고 버전업이 빠르고, 여러가지 플러그인 프로젝트들도 활발하여, 어찌 되었든 매우 매력적인  NoSQL이다라는 느낌에는 변함이 없다.

0.9.3 을 사용한지 얼마 되지 않았지만, 0.9.4.2 로 현재 stable 버전이 올라가 있어(현재 0.9.5가 RC3 까지 나와 있긴 하지만..), 버전 업 적용을 해 보았다.

아쉽게도, 홈페이지 설치 메뉴얼은 아직 0.9.3 버전에서 갱신이 일부만 되어 있어 그데로 설치 했다가는 설치가 잘 되지 않는 현상이 존재한다.( 2015년 11월 17일 현재 CentOS 7.X 에서만..)

아래는 CentOS 7.X 에 /etc/init.d/ 가 아닌 systemctl 환경에서 에러가 나는 부분을 수동 구동 방식으로 해결한 설치 스크립트 세팅 방법이다. (개인적인 해결 방법이므로 비공식 구동 방법임.)


  1. 기본설치
    1. 기본적인 설치는 0.9.3과 동일하다.
      1. http://hoondongkim.blogspot.kr/2015/08/influxdb-distributed-time-series.html
  2. 클러스터 세팅
    1. 클러스터 세팅 방식이 2015년 11월 17일자 공식 홈페이지 상의 설치 문서로는 CentOS7.X 에서 구동이 되지 않는다. (0.9.3 스타일로 설명이 되어 있는데, 0.9.4.2 에서의 버그 이거나, 혹은 CentOS7.X 버전에서만의 버그 일 수 있음.)
    2. 그래서 아래처럼 해주었다.
      1. sudo vi /etc/opt/influxdb/influxdb.conf
        1. hostname = "localhost" 를 각 노드 hostname 으로 수정
        2. port 를 1번노드는 :8088 , 2번노드는 :9099 , 3번노드는 :10101 로 수정.
      2. 전체 노드에서 아래처럼 변경
        1. sudo vi /opt/influxdb/init.sh 에서 아래 수정
          1. USER=수행USER_ID (예, root)
          2. GROUP=수행GROUP_ID (예, root)
          3. PIDFILE 수정 후 Permission을 위 ID 로 Read/Wrtie 가능하게 수정.
          4. STDERR 도 경로 및 퍼미션 수정
        2. sudo vi /etc/opt/influxdb/influxdb.conf 에서 hinted-handoff 부분 dir 프로퍼티 수정
          1. 경로를 위 1에서 만든 USER_ID 가 억세스 가능한 디렉토리로 수정.
        3. root 가 아닌 경우 권한에 따라 go 랭귀지 소스를 tmp 디렉토리에서 빌드 수행시 에러 날 수 있음. go 소스 수행 권한이 있는 USER_Group 이어야 함.
      3. 1번 노드에서 아래처럼 구동
        1. 메뉴얼데로 하면 안됨.
        2. sudo /opt/influxdb/init.sh start
      4. 2번노드에서 아래처럼 INFLUXD_OPTS 값 변경 및 구동
        1. sudo vi  /opt/influxdb/init.sh 에서 INFLUXD_OPTS="-join hostname1:8088"
        2. sudo /opt/influxdb/init.sh start
      5. 3번노드에서 아래처럼 INFLUXD_OPTS 값 변경 및 구동
        1. sudo vi  /opt/influxdb/init.sh 에서 INFLUXD_OPTS="-join hostname1:8088,hostname2:9099"
        2. sudo /opt/influxdb/init.sh start
  3. 설치완료 확인
    1. 3Node 인 경우의 클러스터 구성 확인. 이후 동일한 방법으로 Node 추가 하고 클러스터 확인 하면 끝.
    2. WebConsole 확인. 아직 변화는 없넹....
 

2015년 10월 20일 화요일

Spark Yarn Cluster vs Spark Mesos Cluster : [두번째] 안정성 및 DevOps 측면 비교

지난번 Spark Yarn Cluster vs Spark Mesos Cluster (vs 기타 다양한 모드) : [첫번째] 수행성능 및 활용성 비교 이어 이번에는 안정성 및 DevOps 측면에서 비교를 해보았다.

첫번째 포스트를 보고 많은 분들이 개인적인 문의를 주셨다. 그리고, 많은 반박글도 보내주셨다. 주로 Yarn모드를 쓰시는 분들의 반박 내용이 많았는데... 그 분들과 대화를 나누어 보면, 사용하고 있는 옵션이나 세팅은 큰 차이가 없었다. 하지만, 데이타의 저장 방식이나 성격, 수행하고 있는 Batch 의 성격과 주기 그리고, HW 구성이 저마다 달라 충분히 다른 결과가 나올 수 있음을 서로 공감할 수 있었다.

나 역시 Yarn 모드 수행 초반에는 Yarn모드의 성능에 대하여 Over Estimate 한 적도 있었다. 그래서 한동안 TO-BE 아키텍처가 상당 부분 Yarn 모드였던 적이 있었다. 뒤에서도 설명하겠지만, TO-BE 아키텍처 부터 DevOps 구성을 도입 한지라, TO-BE 라고는 하지만, 상단 기간 Production 배치를 리얼 모드 테스트가 가능하였다. 그로부터(DevOps 환경으로부터) 설정을 다양하게 바꾸어 가며 충분한 태스트 해 볼 수 있었고, Job의 성격도 달리 해가며, 다양한 리얼데이타 태스트를 해본 결과 아키텍처를 좀더 우리 환경에 맞는 걸로 변경 적용 할 수 있는 경험치를 얻게 되었다.

지난번 글이 다소 Mesos 에 치우친 글이 었을 수 있을 것이다. 하지만, 모든 면에서 Mesos가 유리한것은 아니다. Yarn 모드가 유리한 부분도 분명 존재하며, 오늘 두번째 고찰에서는 그런쪽도 함께 언급 하도록 하겠다.

두 가지 모드 모두 장단점을 가지고 있는데, 취사 선택은 자신의 몫일 것이다. 자신이 보유한 HW  구성의 특성이나, 비지니스 로직의 성격, 데이타 소스의 성격에 따라, 그리고 무엇보다 중요한 Priority 에 따라 어떤 구성을 할지 선정해야 하며... 그것이 바로 AA(어플리케이션 아키텍처의)의 역할이기도 할것이다.

시작하기에 앞서

서두에 언급한 것 처럼, 여기에 언급 된 내용은 다분히 일부 기능, 혹은 일부 요소에만 국한되어, 성급한 일반화로 보여 질 수 있을 것이다. 본 내용은 논문이나 구글링을 하며 학습한 내용을 적은것이 아니라, 개인적인 경험에서 느낌점을 나열한 것일 뿐이기 때문이다. 돈을 받고 컨설팅 리포팅을 하는 입장이 아니므로, 나에게 혹은 우리 조직에 있어 중요한 요소를 실험 및 경험으로 채득하고, 그 부분에 특화하여 언급하였을 뿐이다.
MECE(Mutually Exclusive and Collectively Exhaustive) 하게 모든 고려 요소를 훓터 주고 있는 건 아니므로, 이 글을 참고하여 아키텍처를 수립하려고 하시는 분들은 꼭 자신의 데이타와 자신의 요건을 가지고 실험을 직접 해보면서 아키텍처 검증 과정을 거치시라 첨언하는 바이다.

[1] 안정성 측면

안정성은 약간 양날의 검인 부분이 존재한다. 지난번 포스트에서도 언급한 바 있지만, Yarn 모드에서는 excutor 갯수, core 갯수(물론 driver-memory 와 excutor-memory 설정도 각각 해줘야 하고...)를 수동 지정해야 하고, Mesos 모드에서는 그 할당을 Mesos 가 추상화 해 주어서, 정교한 세팅을 하지 않아도 되는... 그래서 Mesos 에 활용성 측면에서 더 많은 점수를 주었던 바 있었다. ..( Yarn 도 이런 설정이 불가능 한것은 아니다.. Yarn Dynamic Resource Allocation 으로 검색 해 보시길.. 메커니즘은 약간 다른것 같다. 특히, excutor가 remove 될때 RDD 가 같이 사라지는 문제가 있어, 이 문제를 해결하기 위해 RDD  를 전달 하는 external shuffle 메커니즘이 Mesos  의 그것과 좀 다르다. 아키텍처 특성상.. Mesos 는 해당 Tier 자체가 공유 Memory 를 고려한 프레임워크 인지라 이런 공유 RDD 처리가 좀더 메크러운 것 같다.)
활용성이라고 표현을 하긴 했지만, Production 용 배치로 Job을 돌려 보면, 약 3배 정도 Yarn 모드가 더 빈번한 Java Heap Memory 에러를 접하게 된다.(좀 빡세게 리소스를 Fully 활용하는 경우에 한하여..)

여기까지만 보면 Mesos 모드가 3배 더 안정적이다 라고 결론을 내릴 수도 있다.

하지만, 내가 내리는 결론은 약 52 : 48 정도로 안정성 측면에서는 Yarn 모드에 점수를 더 주고 싶다. 그 이유는 다양한 Job 이 경합을 벌이는 상황에서, Yarn 은 각 Job 의 성격 별로 Queue 나 User 별 그룹을 주고, 그룹 별 Resource 제한이나, 정교한 Priority 설정이 가능하다는 성격 때문이다. (DW 에서도 이런기능이 약한 DW가 있고, 강한 DW가 있다. 물론 필드에서는 기능이 있긴 하지만, 활용하지 않고 사용하는 경우도 태반이긴 하지만...)


위 처럼 복수개의 Queue 를 만들고, 수행하는 Job 별로 Priority 나 동시에 수행가능한 App의 갯수, max Resource 등을 제한하면, Production 환경에서 꼭 수행되어야 하는 Job 과 월배치 처럼 에러가 나면, 다시 돌려도 되는 Job , 그리고, adhoc 배치 처럼 에러가 나도 무방한 Job ,  혹은 Backup 용 부수적인 Job 들을 분리하여, 안정성이 높아야 할 Job 들은 에러가 덜 나고, 혹여나 에러가 나더라도, 안정성이 중요치 않은 Job 들이 에러가 나도록 세팅이 가능하다.

위의 파일을 세팅하기 위해서는 사실 위 파일만 가지고는 안된다. 우선 yarn-site.xml 에 요런식의 별도 설정 추가가 필요하다.



 위처럼 파일경로를 세팅하지 않으면, Yarn 은 Default 로 Capacity Scheduler 를 사용한다. 병렬 수행을 하면서, 그 Queue 별 그룹핑을 하기 위해 앞에서 언급한 Scheduler 세팅은 Fair Scheduler 를 사용한 예이다. (default 로는 존재하지 않아 새로 생성해 주고 내용을 체워줘야 한다.)

하지만 불행히도, Hadoop Config 상의 위 2개 파일만 세팅하면, 일반적인 MR  Job과 Hive 나 Cascading 처럼 외부 Layer 가 수행한 MR성 Job 그리고 Spark Job 간의 관리만 가능하다. 복수 Spark Job 들 내부에서도 정교하게 그루핑을 하고, Fair 모드를 사용하기 위해서는 별도의 추가 세팅이 필요하다.

해당 내용(세번째 세팅)은 아래 메뉴얼에 잘 나와 있다. (1.5.1 세팅의 예임...)
http://spark.apache.org/docs/latest/job-scheduling.html#fair-scheduler-pools

위 까지 모두 세팅을 마무리하고 나면, Spark Job 도 병렬 수행도 되고, 리소스 할당에 제한을 줄수도 있으며, Priority 를 주어 Resource 경합 시 어떤 Job 에 리소스를 몰아 줄지 보다 더 정교한 세팅이 가능하다. 아래처럼 Job 이 동시에 도는 세팅만 하고 싶어도 위 3가지 설정 중 3번째 세팅은 필수로 필요하다. (물론 그것을 구현하기 위한 다른 방법도 존재하긴 하지만..)

위와 같은 세팅은 Mesos 에는 매우 약한 부분이다. 그래서, Heap Memory 에러가 훨신 덜 나는 Mesos 라 할지라도, Yarn 에 더 많은 점수를 주었다. (Mesos 의 경우 동시 수행 세팅은 약 10배 설정이 편하고(거의 할게 없다.), Priority 및 리소스 제약 세팅은 약 30배 세팅이 복잡하다.(편법을 동원하지 않고는 거의 잘 안된다.))

[2] DevOps 측면

위처럼 Yarn 은 정교한 수동 세팅을 할 수 있는 반면, 정교한 수동 세팅은 달리 말하면, 관리 포인트가 많거나 높다 라는 의미로 해석 될 수 있다.

실제, 정교하게 튜닝해서 꽤 안정적이 된 내부 시스템들이, 새롭게 신규 개발된 job 들이 배포되거나, 혹은 한두개 Heavy 배치가 추가 되었거나, 혹은 사이트가 이벤트를 해서 갑자기 트래픽이 폭주했거나.... 혹은 앞의 상황이 하나도 없어도...데이타는 자꾸 적재되면서 크기가 커지니까... 결국에는 최적화가 깨지고 에러를 유발하는 상황을 자주 접하게 된다.

그래서 신경쓸게 너무 많고... 코딩하는게 어려운게 아니라 config 맞추는게 더 어렵다.  그것때문에 내가봤을 때는 반 애자일 적이었다. (이 부분에서는 다분히 주관적인 해석이 많이 들어갔을 수 있다...)

어찌 되었던, 자사의 시스템이 Enterprise 시스템의 한 부분으로서, 애자일 보다는 안정성 및 예측 가능성이 훨씬 더 중요하고, 안정성을 유지하기 위한 수많은 번거로움은 감수 가능한 내부 아키텍처 철학을 가지고 있다면,  Yarn 이 더 적합해 보인다.

마치 Spring 을 도입하는 많은 기업들이 그런 측면에서 안정성에 더 Priority 를 높게 주고 있는 것과 같은 맥락일 것이다. (Spring 프로젝트에서 제일 쉬운건 코딩이요..제일 어려운건 Config 였던 경험이 많이 있다.. 그럼에도 불구하고, Spring 프로젝트를 하게 되면, 개발자에 따른 코딩 스타일의 기복이 없고, 모든 코드가 획일화 된 코드와 성능과 예측 가능성을 가지게 된다.)

그 경우(안정성에 더 가중치를 둔 경우) 전통적인 엔터프라이즈 시스템의 구성처럼 Production Zone 과 QA 및 Staging Zone 그리고, Dev Zone 을 물리적으로 구분시키고, 개발 및 배포도 그에 맞추어 branch 와 workflow 관리를 하는게 일반적이다. (아래 처럼..)


git 이나 maven 이나 jenkins 같은 것들이 이를 위한 훌륭한 도구 일 수 있으며, 우리도 초반 1년 반 정도는 BigData  시스템을 그 철학으로 운영했던 경험이 있다. (초반에는 예측가능성과 안정성에 더 초첨을 뒀었기 때문이다...)

DevOps 측면에서 보자면, Yarn 보다는 Mesos 가 좀더 적합한것 같다. 우리의 현 AS-IS 시스템과 TO-BE 시스템이 이쪽에 더 비중을 두고 있는 이유이기도 한데....바로, 정교한 시스템 세팅 그리고 탄탄한 시스템 보다는, 유연하게 아키텍처가 바뀔 수 있고, 아키텍처의 버전업이 수시로 있으면서도, 운영중 Rolling Upgrade가 가능하며, 수시로 실험적인 세팅이 도입되었다가 롤백 되었다가 반복적일 수 있는 아키텍처를 지향하기 때문이다.

DevOps 측면에 더 무게를 둔 시스템은 애자일(agile), 지속적 통합(Continuos integration), 적응형(adaptive style) 개발방법론, 롤링업그레이드 등에 더 Priority 를 준 시스템일 것이다.  그러한 환경에서는 Production Zone 과 Dev Zone 이 방화벽을 사이에 두고 물리적으로 확고한 경계가 있으면 안된다. Dev Zone 이 2개일수도 있고, 3개 일수도 있으며, 지난주에는 Dev Zone 이 10개 Node 였었는데, 이번주는 Dev Zone 이 50개 Node 일수도 있다. 그리고 다음주에는 Dev Zone 이 갑자기 그대로, Production 배치가 도는 Production Zone 으로 탈 바꿈 되어 있을 수도 있으며, 때로는 Dev 프로그램들과 Production 프로그램이 공존해서 돌 수도 있는 것이다. 모든 Production 이 동일 버전으로 수행되진 않아도 되며, 안정성을 필요로하는 Job 들은 가장 안정버전의 버전으로 구동이 되고, adhoc 배치처럼 안정성이 덜 중요한 Job 들은 Production 배치임에도 불구하고, 최신 버전의 환경 구성에 수행되면서, 그 자체가 Dev이면서, 그 자체가 Staging Test 이며, 그 자체가 리얼 운영 QA 단계를 포함한 운영 배포이기도 한 상태가 될 수 있다. 각 단계를 배포 과정을 거치면서 water fall 형태로 하나하나 수행해야 할 필요가 없으며, 한번의 배포가 Dev,QA,Staging,Production 배포를 모두 끝내 줄수도 있다.(마치 아래 처럼..) 그리고 무엇보다... 나선형 개발 방법론 처럼, 하다가 아키텍처나 호환성이 좋지 않으면, 특정 시점의 구성으로 돌아가 언제든 아키텍처나 버전을 달리하며 테스트가 가능하다. 특정 시스템이나 특정 버전으로 돌아가는데 10분이 넘게걸리면 이미 애자일이나 DevOps 를 거론하기에는 자격 미달이다.


이 측면(DevOps 측면)에서 보면, 프로세스 가상화 개념의 Mesos 모드가 90:10 정도로 훨씬 더 유리하다. Hadoop 은 stable 하게 한곳에 있을 수 있고, 분리된 Layer 로서의 Mesos Layer 는 Hadoop Node 를 모두 쓸수도 부분만 쓸수도 있으며, 안쓰는 NoSQL 노드도 다이나믹하게 끌어 들일 수도 있다. Mesos 위에 Docker 를 올려서 다시한번 추상화된 다른 Layer 를 올릴수도 있다. 그리고 무엇보다 Public Cloud 까지 동원할 수 있다. 순수하게 계산 노드 이므로... 이 모든게 가능한 이유는 Mesos 모드는 정교한 컨피그가 없어도 되기 때문이다.

이 경우는 Yarn 이 하나의 시스템안에 Queue 로 Zone 을 나누는것과 달리 mesos 의 경우는 구동 zone 자체를 복수개를 운영하는 시나리오를 취할 수 있다. 복수 Zone 은 각각 Dev, QA, Staging, Production 일 수 있으며, Node 의 갯수가 다이나믹할 수 있고, 리소스를 극명하게 분리할 수도 있으며, 경우에 따라 하나의 머신에 복수 Zone을 띄울 수도 있다.

이 경우 이러한 구성을 자동화 함에 있어, 좀 무겁게는 Open Stack 이 사용될 수도 있고, 좀 가볍게는 Vagrant 가 사용될 수도 있으며, 갑자기 노드가 부족하면, Mesos 노드만 Azure 나 AWS 등 Public Cloud 로 원하는 만큼 무한정 늘려 사용할 수도 있다. 월배치나 분기 배치가 너무나 헤비하다..그러면, 종량제로 다이나믹하게 하루 정도만 수백대를 더 붙여서 돌리고 파기 할 수도 있다. 물론 개발환경을 개발자에게 다이나믹하게 할당해 줄수도.... 수십 테라를 실험한다고 해도....자유롭게 독립적인 테스트 환경을 구비 해줄 수도 있다.

그러면서도 내부 HDFS 는 Fix 된 체로 내부 IDC에 존재하고, dev 존이 Public Cloud 라 할지라도 VPN등 보안 프로토콜을 경유 하여, 내부 데이타를 가지고 리얼 데이타 테스트가 가능한 것이다.

Spark 1.4.1 을 쓰다가 Spark 1.5.1 로 롤링 업그레이드를 하는 시나리오를 가정해보자.

  1. 초반.
    1. 1.4.1과 1.5.1의 노드 비율이 초반에는 9:1 일수 있다. 
    2. 10% 의 TO-BE 노드에서는 안정성이 필요하지 않는... adhoc 배치들만 돌리면서 일정 기간 테스트 수행을 할 수 있다.
  2. 중반.
    1. adhoc 배치들이 어느정도 잘 도는 시점이 되면, 비율을 6:4 정도로 To-be 에 초반보다 좀 더 할당해주고 as-is 에서 돌던 Heavy 월 배치 중 완료 시간이 민감하지 않은 일부 배치들을 몽땅 to-be 에서 구동 되도록 바꾸고 1~2주 진행상황을 살펴 볼 수 있다. 빌드하지 않아도 쉡 옵션 레벨에서 변경 가능한것이 많은 도움이 된다. 
    2. 이 경우는 Dev 가 real-data 로 QA 및  Staging 역할 까지 하는 경우이며, 아직 까지는 Test 베드 이지만, Production 역할 도 하는 시점이다...
  3. 중 후반.
    1. 중반정도까지 수행해도 안정적인 경우 일배치 중 장애시 민감도가 덜한 부분 부터 점진적으로 TO-BE 로 이관하는 단계이다.
    2. 그러면서 점진적으로 AS-IS 의 노드를 줄이면서, TO-BE 노드로 다이나믹하게 이관되는 시점이다.
  4. 후반
    1. 충분한 시간 TO-BE 로 Production 배치들에 대한 안정성 검증이 어느정도 마무리 되었기 때문에, 최적화 튜닝 및 시스템 리소스 상황을 모니터링을 하면서, 전체 노드 이관이 완료 적용되는 시점이다.
    2. 이 단계를 포함 여기까지의 모든 과정이 Rolling Upgrade  단계였다.
    3. 물론 요 시점 부터는 튜닝 옵션들을 바꾸어 가며, 조금더 최적화를 진행해야 하는 단계이기도 하다.

위를 진행함에 있어, Mesos 의 장점은 바로 프로세스 가상화라는 점이다. Spark 가 각 노드에 안깔려 있어도 무방하다. Spark gz 압축 파일이 HDFS 같은 공유 리파지토리에 버전별로 저장되어 있으면, Job 을 수행할때, 어떤 버전을 써서 돌릴지 Job 별로 다이나믹하게 분배가 가능하다. 즉, 위의 Zone 에서는 그런 시나리오가 없었지만, 동일한 Zone 에서 복수의 버전을 돌리는 것도 가능하다는 의미이다. 버전을 바꾸어가면 테스트하는게 1분도 안걸리고, 동시에 N개의 버전을 동시 테스트 하는 것도 가능하다.

예를 들어 보겠다. Spark-submit 스크립트에서 master 의 주소를 바꾸어 가며 수행하는 경우, 버전이 서로 다른 서로 다른 Zone 을 다르게 구동할 수 있으며, 버전이 같은데 서로 다른 Zone 으로 구동도 가능하다. 그리고 동일 Zone 에서 버전을 달리 주는 것도 가능한데..바로 아래처럼 spark.executor.uri 옵션에 수행할 spark 버전을 다르게 주어 가능한 것이다. Spark 가 버전별로 복수 노드에 다 설치될 필요가 없고, 위처럼 옵션만 달리하여, Mesos 만 깔린 여러 Node 에 복수개의 Zone 이나 복수개의 버전을 다이나믹하게 조합하여 테스트 할 수가 있다.



부가적으로... Spark-Streaming 의 경우 Yarn 환경에서는 분리된 Yarn 클러스터를 두거나, 정교한 Fair 스케줄러 세팅을 해야 하는 반면, Mesos 환경에서는 Zone 을 분리하는 방식이 Mesos 의 Fair 스케쥴러에 Fine Graind 세팅을 해서 구동하는 것보다 훨씬 더 안정적이며, 훨씬 더 성능이 좋게 나왔다.

[3] 결론.

잡설이 좀 길어 졌는데, 어찌되었든, 결론은 Yarn 모드가 장점이 있고, Mesos 모드가 장점이 있는 것 같다. 각각의 장점 중 어느 부분을 취할지는 AA의 몫일 것이며, 현 상황 이 시스템을 도입하려는 조직의 Dev 스타일의 철학적인 부분에 달려 있으리라 본다.

내가 주장하는 결론은 애자일을 위해선 Mesos를... Enterprise 수준의 안정성을 위해서는 Yarn 이 조금 더 낳은 것 같다 이다.