AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入

感想文

全体は3部構成になっていて。 その中は第1章から14章まで別れていて非常に体系だてられている。

AWSのレイヤーとしてデータレイクを作る、運用するにあたってメインに取り扱われてるコンポーネント

  • s3
  • glue
  • athena
  • redshift
  • quicksight
  • lakeformation

そのほかAWSの基本的な知識して取り扱われてるコンポーネント

  • IAM
  • ELB

特にIAMは慣れてないと若干とっつきにくい気がする。

個人的な読みどころ

自分はGlueとかAthenaをすでに使っていたけど、 抽象的にふわっとしか理解していなかった箇所がちゃんと説明できるようになったかなと(AthenaがGlueのデータカタログ として取り扱われている箇所とか)。

あとはGlue以上に抽象的で意味が理解しにくい印象だったLakeFormationのチュートリアル的なものもあってよかった。 (サンプルはELBのログをカタログに登録するところ)

前半のデータレイクの概念は実務的な感じといいうよりは自身が設計を起こす際にきちんと人に説明できるようになる。ってところで役に立った気がする。 ちなみにamazonのデータレイク をandesと呼ばれってることを初めて知った。

aws.amazon.com

これを読みながら一度きちんとGlue,LakeFormationあたりをきちんと整理し直したいなと思った次第。