ローカルインストールしたスタンドアローンSparkの確認

前回インストールしたSparkに少しだけ触って、機能しているか見てみます。

チュートリアル地獄に敢えてはまって、SparkのQuick Startのステップをいくつか実行してみます。

まずは、Master起動とシェルによるアクセス。

$ start-master.sh
starting org.apache.spark.deploy.master.Master, logging to /opt/spark/logs/spark-hk-org.apache.spark.deploy.master.Master-1-hkpc.out
$ spark-shell
19/12/20 10:45:08 WARN Utils: Your hostname, hkpc resolves to a loopback address: 127.0.1.1; using 10.0.1.40 instead (on interface wlp0s20f3)
19/12/20 10:45:08 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
(以下略)

シェルが起動するので、Quick Startの通り、ローカルファイルの行数と、Sparkという文字が含まれる行の行数を数えます。

scala> val textFile = spark.read.textFile("git/aas/README.md")
textFile: org.apache.spark.sql.Dataset[String] = [value: string]

scala> textFile.count()
res1: Long = 48

scala> textFile.first()
res2: String = Advanced Analytics with Spark Source Code

scala> val linesWithSpark = textFile.filter(line => line.contains("Spark"))
linesWithSpark: org.apache.spark.sql.Dataset[String] = [value: string]

scala> linesWithSpark.count()
res3: Long = 5

とりあえず、機能しているようです。次の投稿ではデータをロードしてみます。

コメント

タイトルとURLをコピーしました