【GCP】BIG QUERYを触り程度に理解してみる
IT技術
はじめに
こんにちは!今回は高速データ処理を行えるBIG QUERYを調べ、実際に使ってみるところまでやっていきたいと思います!
調べるきっかけ
業務でBIG QUERYを使用して「あるURLにどのくらいアクセスが来ているのか」ということを調べる機会があり、BIG QUERY自体触ることが初めてだったのでこの機会に初歩的なBIG QUERYの使い方を理解してみようと思いました。
BIG QUERYとは?
BigQuery は、ML、地理空間分析、ビジネス インテリジェンスなどの組み込み機能を使用してデータの管理と分析を支援する、フルマネージドのエンタープライズ データ ウェアハウスです。BigQuery のサーバーレス アーキテクチャにより、SQL クエリを使用して、インフラストラクチャ管理なしで組織の最も大きな課題に対応できます。BigQuery のスケーラブルな分散型分析エンジンを使用すると、数テラバイト、数ペタバイトのデータに対し、数秒もしくは数分でクエリを完了できます。
実際にやってみる
データをセット
BIG QUERYを開く
下記画像赤枠部分の「+追加」を押下
下記画像赤枠部分の「公開データセット」を押下
下記画像赤枠部分に「github activity data」と入力しenter
下記画像赤枠部分の「github activity data」を押下
下記画像赤枠部分の「データセットを表示」を押下
画面が切り替わりデータがセットされる(赤枠部分)
「bigquery-public-data」/「github_repos」/「commits」の詳細を確認すると2億を超えるデータが存在することが確認できる
SQLクエリ実行
下記画像赤枠部分の虫眼鏡マークを押下し、クエリ実行画面を表示
下記クエリをコピーして下記画像赤枠部分の「実行」ボタンを押下
1SELECT subject AS subject,
2 COUNT(*) AS num_duplicates
3FROM
4bigquery-public-data.github_repos.commits
5GROUP BY subject
6ORDER BY num_duplicates DESC
7LIMIT 100
結果
2億を超えるデータを4秒で検索可能
githubのコミット名で一番多いコミット名は「Updata README.md」
おわりに
いかがだったでしょうか?
複雑なセットアップも必要なくSQLが実行でき、big queryを試すことができるのでぜひ気になる方は一度試してみてください!
参照URL
ライトコードでは、エンジニアを積極採用中!
ライトコードでは、エンジニアを積極採用しています!社長と一杯しながらお話しする機会もご用意しております。そのほかカジュアル面談等もございますので、くわしくは採用情報をご確認ください。
採用情報へ
プライベートの休日はインドアもアウトドアもどちらになることもあります。