- はじめに
- 本記事の目的
- 本記事で紹介すること/ 紹介しないこと
- 使用技術とツールの紹介
- アーキテクチャ概要
- 全体のフローの説明
- 各コンポーネントの役割
- 手順詳細
- ステップ1: スケジューラによるCloud Runの実行
- スケジューラの設定
- ステップ2: YouTube Data APIからのデータ取得
- Secret ManagerからAPIキーを取得
- YouTubeData APIのコール
- ステップ3: 取得データをJSON形式で保存
- Google Cloud Storage(GCS)への保存
- PubSubへメッセージをPublish
- ステップ4: GCSの格納をトリガーにメッセージを配信
- Subscriptionの設定
- ステップ5: データをBigQueryへ挿入
- GCSからファイルを取得
- BQへデータの挿入
- ステップ1: スケジューラによるCloud Runの実行
- まとめ
- 今後の拡張ポイント
- 感想
- 参考資料
- 公式ドキュメントへのリンク
はじめに
本記事の目的
学習目的で実装をしているデータパイプライン構築で得た知見のアウトプットです。 YouTubeDataAPIはGCPに登録をすれば無料で利用できるAPIで、人気動画の一覧やその動画の視聴数、再生時間などのデータを取得することが可能です。 本記事では作成したパイプラインの全体像と各リソースの役割について解説します。
続きを読む