AWS Glueのチュートリアル

自分でやってみたのに何も記録しないのもムズムズするのでここに適当に書く.

  1. まずクローラ(Crawler)を作成. これでどこかからデータをあさってくる.

  2. そのクローラが漁ってきた情報について, データベースにテーブルとして記録されている. テーブルのもつ情報としては, カラム名とかデータ型とか.
    実際のデータをこのデータベースに保存しているわけではない...と思う.
    あくまでメタデータだけ.

  3. クローラが漁ったデータを加工するジョブを作成.
    チュートリアルでは, カラムを3つ削った上で, ファイルの形式をcsvからparquetに変換した.
    カラムマッピングで行き先から外すだけだが, これでどれだけ細かい加工でできるんだろうか.
    最終的にジョブを実行すると, parquet形式に変換されたファイルが指定したS3バケットにずらりと並んでいた.

とまあ, とりあえず頭でさっとまとめて吐き出してみた.
中身が全くないのはご愛嬌.
内容も正しいか全くわからん.
もっと調べたいけど今はそんな元気ないな...


前回も貼った参考URL:

dev.classmethod.jp

dev.classmethod.jp