• トップ
  • ブログ一覧
  • 【GCP】BIG QUERYを触り程度に理解してみる
  • 【GCP】BIG QUERYを触り程度に理解してみる

    かねまさ(エンジニア)かねまさ(エンジニア)
    2024.04.02

    IT技術

    はじめに

    こんにちは!今回は高速データ処理を行えるBIG QUERYを調べ、実際に使ってみるところまでやっていきたいと思います!

    調べるきっかけ

    業務でBIG QUERYを使用して「あるURLにどのくらいアクセスが来ているのか」ということを調べる機会があり、BIG QUERY自体触ることが初めてだったのでこの機会に初歩的なBIG QUERYの使い方を理解してみようと思いました。

    BIG QUERYとは?

    BigQuery は、ML、地理空間分析、ビジネス インテリジェンスなどの組み込み機能を使用してデータの管理と分析を支援する、フルマネージドのエンタープライズ データ ウェアハウスです。BigQuery のサーバーレス アーキテクチャにより、SQL クエリを使用して、インフラストラクチャ管理なしで組織の最も大きな課題に対応できます。BigQuery のスケーラブルな分散型分析エンジンを使用すると、数テラバイト、数ペタバイトのデータに対し、数秒もしくは数分でクエリを完了できます。

    実際にやってみる

    データをセット

    BIG QUERYを開く

    下記画像赤枠部分の「+追加」を押下

    下記画像赤枠部分の「公開データセット」を押下

    下記画像赤枠部分に「github activity data」と入力しenter

    下記画像赤枠部分の「github activity data」を押下

    下記画像赤枠部分の「データセットを表示」を押下

    画面が切り替わりデータがセットされる(赤枠部分)

    「bigquery-public-data」/「github_repos」/「commits」の詳細を確認すると2億を超えるデータが存在することが確認できる

     

    SQLクエリ実行

    下記画像赤枠部分の虫眼鏡マークを押下し、クエリ実行画面を表示

    下記クエリをコピーして下記画像赤枠部分の「実行」ボタンを押下

    1SELECT subject AS subject,
    2 COUNT(*) AS num_duplicates
    3FROM
    4bigquery-public-data.github_repos.commits
    5GROUP BY subject
    6ORDER BY num_duplicates DESC
    7LIMIT 100

    結果

    2億を超えるデータを4秒で検索可能

    githubのコミット名で一番多いコミット名は「Updata README.md」

    おわりに

    いかがだったでしょうか?

    複雑なセットアップも必要なくSQLが実行でき、big queryを試すことができるのでぜひ気になる方は一度試してみてください!

    参照URL

    https://cloud.google.com/bigquery/docs/introduction?hl=ja

    https://www.youtube.com/watch?v=Ve4L3Uiom18

    かねまさ(エンジニア)

    かねまさ(エンジニア)

    おすすめ記事