1. Databricks Cloud 가입하기

- Databricks Cloud

데이터브릭스 클라우드는 데이터브릭스라는 기업에서 만든 제품으로, 클라우드 환경에서 Spark를 사용할 수 있게 해 주는 제품
클라우드(Cloud Computing)는 다양한 정의가 있을 수 있지만, 우선 업체에서 가지고 있는 컴퓨터 자원을 사용자에게 사용할 수 있도록 제공해주는 서비스

- 가입하기

가입 url : https://databricks.com/try-databricks

COMMUNITY EDITION 클릭 -> 정보입력 및 회원가입 완료하기

</img>

가입완료 화면

</img>

내용 설명 (강의에 있는 내용 그대로 복붙)
Databricks Cloud UI
상단
- Explore the Quickstart Tutorial : Quickstart 튜토리얼 문서로 이동합니다
- Import & Explore Data : 데이터를 올리고 노트북을 시작합니다
- Created a Blank Notebook : 빈 Notebook을 시작합니다

- Common Tasks : 노트북 생성, 데이터 업로드, Table 생성, 클러스터 생성, 라이브러리 Import, 문서 보기 등
- Recents : 최근 사용한 노트북이 보입니다
- What's new in v2.100 : 최근 추가된 기능을 보여줍니다

02. 가상 Cluster 생성하기

Clusters - Create Cluster를 클릭

</img> </img>

Cluster 생성하기

- Cluster Name을 지정하고 저장합니다. 여기서는 pyspark-cluster로 하겠습니다.
- Create Cluster 클릭해주세요. 조금 기다리면 State가 Pending에서 Running으로 바뀝니다.
- 참고로 Community Edition에서 생성된 Cluster들은 2시간 뒤에 자동으로 종료됩니다!

</img>

03. 가상 Cluster에 라이브러리 설치하기

라이브러리는 Maven, PyPI, Upload, CRAN, Workspace, DBFS/S3을 통해 설치할 수 있습니다.
Maven과 PyPI에서 라이브러리를 설치

클러스터의 이름을 클릭

</img>

Libraries -> Install New 클릭

</img>

Graphframes 설치

 Graph 알고리즘을 Apache Spark에서 사용할 수 있게 해주는 라이브러리

</img>

아래처럼 클릭 후 install 클릭

</img>

Python Package 설치하기

판다스 설치

</img>

04. Databricks Cloud Notebook 사용하기

노트북 생성하기

</img>

Cluster에는 방금 전에 만든 pyspark-cluster 값이 선택되어 있는데, 이렇게 되면 notebook이 해당 cluster에 붙은(attached) 상태로 생성되는 것을 뜻한다.
-> 가장 하단에 있는 옵션이 클러스터 선택!
선택된 클러스터를 삭제하거나 분리(detached)하면 notebook은 사용 불가
+ 클러스터를 띄우지 않은 상태에서 notebook을 생성하면 클러스터 선택 메뉴가 보이지 않는다. 

# 코드를 python으로 싱행한다고 명시
%python
# 아래는 python 코드
value = 'Spark'
print("This! is%s Notebook!" % value)

</img>

05. Amazon Web Service Access Key 가져오기

1. Databricks Cloud 가입하기

02. 가상 Cluster 생성하기

03. 가상 Cluster에 라이브러리 설치하기

04. Databricks Cloud Notebook 사용하기

05. Amazon Web Service Access Key 가져오기

강의에서는 AWS를 사용하나 이미 AWS무료 사용량을 다써서 로컬로 도전해보자!