【GCP】BIG QUERYを触り程度に理解してみる

かねまさ（エンジニア）

2024.04.02

IT技術

GCP

はじめに

こんにちは！今回は高速データ処理を行えるBIG QUERYを調べ、実際に使ってみるところまでやっていきたいと思います！

調べるきっかけ

業務でBIG QUERYを使用して「あるURLにどのくらいアクセスが来ているのか」ということを調べる機会があり、BIG QUERY自体触ることが初めてだったのでこの機会に初歩的なBIG QUERYの使い方を理解してみようと思いました。

BIG QUERYとは？

BigQuery は、ML、地理空間分析、ビジネスインテリジェンスなどの組み込み機能を使用してデータの管理と分析を支援する、フルマネージドのエンタープライズデータウェアハウスです。BigQuery のサーバーレスアーキテクチャにより、SQL クエリを使用して、インフラストラクチャ管理なしで組織の最も大きな課題に対応できます。BigQuery のスケーラブルな分散型分析エンジンを使用すると、数テラバイト、数ペタバイトのデータに対し、数秒もしくは数分でクエリを完了できます。

実際にやってみる

データをセット

BIG QUERYを開く

下記画像赤枠部分の「+追加」を押下

下記画像赤枠部分の「公開データセット」を押下

下記画像赤枠部分に「github activity data」と入力しenter

下記画像赤枠部分の「github activity data」を押下

下記画像赤枠部分の「データセットを表示」を押下

画面が切り替わりデータがセットされる（赤枠部分）

「bigquery-public-data」/「github_repos」/「commits」の詳細を確認すると2億を超えるデータが存在することが確認できる

SQLクエリ実行

下記画像赤枠部分の虫眼鏡マークを押下し、クエリ実行画面を表示

下記クエリをコピーして下記画像赤枠部分の「実行」ボタンを押下

1SELECT subject AS subject,
2 COUNT(*) AS num_duplicates
3FROM
4bigquery-public-data.github_repos.commits
5GROUP BY subject
6ORDER BY num_duplicates DESC
7LIMIT 100