はてぶ・Qiita・Zennのトレンド記事を紹介
(2026年1月30日号)データエンジニアリングユニオン通信 Season2 #15
がく@ちゅらデータエンジニアです。こんばんわ!なんとかブログ更新頻度は保ててるかな・・・保ててるよね!1月がもう終わった・・・・なんか時がすぎるの早すぎん??? データエンジニアリングユニオンとは(テンプレ)隔週金曜日の12時〜13時で、データエンジニアリングのTO
FrostyFriday Week84 Basic - Staging
がく@ちゅらデータエンジニアです。こんばんわっ!さて、久しぶりにFrosty Friday Live Challange で、チャレンジしてきました。ちゃんとチャレンジしないとねーテックセラピーなんですよ、奥さんテックセラピー!聞いたことある?え、ない???普段触
【25日目】Databricks Advent Calendar 2025 総まとめ 〜Databricksの発展的トピックを添えて〜
みなさんこんにちは、クルトンです!ついに25日目、最終日のブログとなります。ここまで読んでくださった皆さん、本当にありがとうございます!今年(と言いつつ2026年になってしまったので正確には去年)のアドベントカレンダーでは、Databricksの基礎から、データエンジニアリ
【24日目】MLOps パイプラインの構築 〜 モデルを育て、届け、改善し続ける仕組みを Databricks で実現する 〜
みなさんこんにちは、クルトンです!Day23では Delta Sharing を通して、Databricksが安全に“外へ共有する力”を持っていることを整理しました。そして今日のDay24は、モデルを作る → 提供する → 監視する → 改善する というサイクルを自動で回す「
【23日目】Delta Sharing を使った安全なデータ共有 〜 コピーせず、統制された“共有”を実現する 〜
みなさんこんにちは、クルトンです!Day22ではUnity Catalogを使った データセキュリティとコンプライアンス について整理しました。今日のDay23はそのセキュリティ基盤を活かして “外部にデータを安全に共有する” 技術であるDelta Sharing について整
【22日目】データセキュリティとコンプライアンス 〜 Unity Catalog で「安全にデータを扱う」基盤づくり 〜
みなさんこんにちは、クルトンです!前回のDay21では Databricks のコスト管理 を学び、「効率良く運用するための基盤」について整理してきました。そして今日Day22のテーマは、運用におけるもう1本の柱について整理していきましょう。 🛡️ データセキュリティとコ
【21日目】Databricks のコスト管理とリソース最適化 〜 “意図して安くする” 技術を身につけよう 〜
みなさんこんにちは、クルトンです!ここまでのDay1〜20では、レイクハウス基盤の基礎から、生成AIアプリ・MLOpsまで一通り整理してきました。そして本日Day21からは、Databricksを実務で使う上で避けて通れない 「運用フェーズ」 について整理していきます。本日
【20日目】Prompt Engineering 入門 〜 LLM の回答品質を最大化する技術 〜
みなさんこんにちは、クルトンです!本日は Prompt Engineering(プロンプトエンジニアリング) を扱います。LLMの性能はモデルそのものだけでなく、「どんなプロンプトを渡すか」 で大きく変わります。プロンプトは、モデルに渡す“設計図”のようなものです。この設
【19日目】Inference Tables 〜 LLM/MLモデルを“運用できる状態”にするための推論ログ基盤 〜
みなさんこんにちは、クルトンです!本日は Inference Tables(推論ログの構造化) を扱います。Day17の内容でモデルを作り、Day18の内容でLangChain/RAGのようなアプリが構築できるようになると、次に必ず登場する課題がこちらです。 ❓「モデル
【18日目】LangChain / LlamaIndex × Databricks 〜 LLM エージェントを実用化するための最速入門 〜
みなさんこんにちは、クルトンです!本日はLLMアプリをDatabricks上で本番運用していくために欠かせない、LangChain/LlamaIndexとDatabricksの連携 について整理します。Day16のRAG、Day17のFine-tuningを経て、いよいよ 「
(2026年1月16日号)データエンジニアリングユニオン Season2 #14
がく@ちゅらデータエンジニアです。こんばんわっ!今年はブログ執筆頻度を上げていくぞーーと年始に目標を立てたので、貪欲にブログ化していこうと思います。 データエンジニアリングユニオンとは隔週金曜日の12時〜13時で、データエンジニアリングのTOPICSを扱ったデータエン
【17日目】LLM ファインチューニング入門 〜 Foundation Model Training と LoRA で賢く・軽くモデルを育て
みなさんこんにちは、クルトンです!本日は生成AIフェーズの中でも技術的な山場となる LLM(大規模言語モデル)のファインチューニング を扱います。Databricksでは買収したMosaicMLの技術や知見も取り込みつつ、現在は 「Foundation Model Train
【16日目】RAG(検索拡張生成)入門 〜 Embeddings と Vector Search で “本当に使える生成AI” を作る 〜
みなさんこんにちは、クルトンです!今日は生成AI分野の中でも重要なテーマ、 RAG(Retrieval-Augmented Generation:検索拡張生成) を扱います。ChatGPTなどのLLMは非常に便利ですが、次の弱点があります。手元の文書(社内資料・製品マニュ
【Snowflake BUILD 2025】Interactive Table & WarehouseによるSub-Second分析
がく@ちゅらデータエンジニアです!ご無沙汰です・・・・すっかり筆が湿っておりました。ほんと全然書いていない・・・・昨年はアドベントカレンダーもたった一本・・・いかんぞ、いかんぞ。自分!!! 概要先日、こんなリリースが出ていましたhttps://docs.snow
【15日目】Databricks Model Serving 入門 〜 MLflowモデルを本番で動かすまでの流れを理解する 〜
みなさんこんにちは、クルトンです!本日はいよいよモデルを本番提供する工程である Model Serving(リアルタイム推論) を扱います。Day13ではMLflowによって “モデルがどう記録されるか”を整理し、Day14では Feature Storeによる “特徴量管理
【14日目】Feature Storeで特徴量管理をはじめよう 〜 機械学習の再現性と精度を支える基盤 〜
みなさんこんにちは、クルトンです!本日は機械学習ワークフローの中でも重要度が高い 特徴量の管理(Feature Engineering / Feature Store) を扱います。モデルの精度は、特に構造化データを扱う機械学習では アルゴリズムよりも「どんな特徴量を使うか」
【13日目】MLflow で実験管理を始めよう 〜 モデル開発の「試行錯誤」を正しく記録する仕組み 〜
みなさんこんにちは、クルトンです!本日はDatabricksを使った、機械学習では欠かせない MLflowによる “実験管理(Experiment Tracking)” を扱います。モデル開発ではパラメータを変えたり、前処理を変えたり、特徴量を変えたりと「試行錯誤の連続」です
【12日目】Terraform / CI/CD による Databricks 管理 〜 手動更新に限界を感じたら最初に読む IaC 入門 〜
みなさんこんにちは、クルトンです!本日はDatabricksを本格的に運用していく際に避けて通れない Terraform(IaC)と CI/CD の基礎 を扱います。データ基盤の運用において、以下のような避けたい課題があります。クラスターの設定を毎回UIで手作業するのがし
【11日目】Databricks とデータメッシュの基礎 〜 Unity Catalog と Delta Sharing で実現するデータプ
みなさんこんにちは、クルトンです!今日は近年データ基盤のトレンドになっている データメッシュ(Data Mesh) を Databricks ではどのように実現できるのか? を扱います。ポイントは次の2つです。Unity Catalog → データプロダクトの管理レイヤ
【10日目】データパイプライン最適化の基礎 〜 OPTIMIZE / Clustering / AQE を理解する 〜
みなさんこんにちは、クルトンです!本日はデータ基盤のパフォーマンス最適化をテーマに、Delta Lake と Spark の最適化の基本 を扱います。Day2(Delta の基本)・Day3(Spark)・Day6(Auto Loader)との関連も深く、レイクハウス上の E
【9日目】Lakeflow Jobs(Workflows)の基礎 〜 ETL/ELT パイプラインの自動化と依存関係管理を理解する 〜
みなさんこんにちは、クルトンです!本日はDatabricksの実行基盤である Lakeflow Jobs を扱います。Lakeflow Jobsは、従来の Workflows(Jobs 2.0)を統合・強化した新しいジョブ実行基盤です。Lakeflow JobsはDatab
【Databricks(AWS版)】2025年12月アップデート確認
みなさんこんにちは、クルトンです!本記事では 2025-12-03〜2026-01-08 に更新された Databricks(AWS版)公式リリースノート を対象に、網羅的に整理を試みています。正確な仕様や詳細は、必ず公式ドキュメントをご確認ください。 Databric
【8日目】Structured Streaming の基礎 〜 Watermark / 遅延データ / 状態管理を理解する 〜
みなさんこんにちは、クルトンです!本日はDatabricks上でのストリーミング処理の基本となる Structured Streaming の基礎 を扱います。Day7で Delta Live Tables(DLT)に触れましたが、DLTの内部で動いている処理エンジンも St
【7日目】Delta Live Tables(DLT)の基礎 〜 宣言的パイプラインとデータ品質管理を理解する 〜
みなさんこんにちは、クルトンです!今日は Databricks における“パイプライン構築”の中核となる Delta Live Tables(DLT) を扱います。DLTは「宣言的に書ける」データパイプラインの仕組みで、Auto Loader・Delta Lake・Spark
【6日目】Auto Loader の基礎 〜 スケーラブルなデータ取り込みの仕組みを理解する 〜
みなさんこんにちは、クルトンです!今日は Databricks のデータ取り込み機能の中でも特に強力な Auto Loader を扱います。Auto Loaderは、クラウドストレージ(S3 / ADLS / GCS)に到着するファイルを 自動で検知し、増分でスケーラブルに
【5日目】Databricks SQL の基礎 〜 SQL Warehouse / AI・BI ダッシュボード活用 〜
みなさんこんにちは、クルトンです!今日は、レイクハウスの“分析”を担う Databricks SQL(DBSQL) を扱います。SQL クエリの実行、BI ダッシュボード、外部 BI 接続の中心となる機能で、分析基盤をDatabricksに統合する際の要になる部分です。SQ
【4日目】Unity Catalog の基礎を理解する 〜 データ・AI・Feature を統一的に管理する 〜
みなさんこんにちは、クルトンです!今日は、Databricks のデータガバナンスの中心となる Unity Catalog(ユニティカタログ) を扱います。データだけでなく、AIやファイル、Feature Storeの特徴量なども一元的に管理できる仕組みであり、Databri
【3日目】Apache Spark の基礎を理解する ~ Lazy Evaluation / DAG / Join 戦略 ~
みなさんこんにちは、クルトンです!今日は、Databricksのあらゆる処理を支えている Apache Sparkの基礎 を扱います。Delta Lake やストリーミング処理なども Spark を土台として動いているため、ここを押さえておくと後日の内容が理解しやすくなります
【2日目】Databricks レイクハウスの全体像 ~ Delta Lake と メダリオンアーキテクチャを理解する ~
みなさんこんにちは、クルトンです!本日は、Databricks を支える レイクハウスアーキテクチャ について扱います。データレイクとデータウェアハウスの考え方から始め、Delta Lake がどのように関わっているのかを見ていきます。 📦 データレイクとは?データレ
【1日目】Databricksを体系的に知ろう!~どういうアドベントカレンダーなのか?の説明を添えて~
みなさんこんにちは、クルトンです!2025年もアドベントカレンダーの季節がやってきました!……と言いつつ、今回は1ヶ月遅れの2026年1月公開となっております。2023年はLLMに関する25日間の旅をご一緒しましたが、今回はテーマを一新し、Databricks の“公式ドキュ
概要対象者: Squadbaseって何?という人内容: 新星ツール「Squadbase」でダッシュボードを作り公開するまでの全手順読むとわかること: BigQuery上のデータをソースに、Squadbaseを用いてノーコード感覚でアプリ開発からデプロイまで完結させる方法
概要対象読者:AIエージェント作ると聞いてビクッとなった人記事の内容:「エージェントを作るエージェント(A4A)」というOSSの紹介と、それを使った実装・連携・デプロイの完全ガイド読んで、得られること:チャットだけでエージェントを作る新しい開発体験と、ADK・A2A・
FROSTY_FRIDAY(74): 国際日付のフォーマットについて
概要読む対象者Snowflake を使って日付データを扱うエンジニア・データアナリスト向けこの記事の内容FrostyFriday Week74にある、フォーマットが混在した日付データを正規化する実験と結果読んでできること・わかることTRY_TO_DATE やCorte
Claude Codeにast-grepを使ってSQLの構造見ながら検索してもらう
コーディングエージェントにSQLをいい感じに検索させたい!MCPでコーディングエージェントに、セマンティック検索などの機能を提供するSerenaではSQLがサポートされておらず、ぐぬぬと思っています。しかし先日ast-grepというツールを見つけました。作者の方の記事によると
最近は趣味・業務共に Claude Code や Codex CLI などのコーディングエージェントを使って開発を行うことが多くなってきました。コーディングエージェントはたまに失敗することもありますが、コーディング速度が圧倒的に早く、見ていて面白いところがあります。そんな中、
RevOps輪読会:第7章「現代のレベニュー組織におけるAI活用 ― AIが創造するインパクト」
概要対象読者:「RevOpsって聞いたことあるけど、結局なに?」な人。“AIを入れる前にデータが整ってない”問題に心当たりがある人内容:datatech-jp RevOps輪読会(第7章)で扱った「生成AIがレベニュー組織にもたらすインパクト」のざっくりまとめ(詳しい
概要読む対象者 自作冷蔵庫の製作過程に興味がある方、自作冷蔵庫界隈の人読んでわかること 自作冷蔵庫の流れの雰囲気と、「冷えない原因(電流・循環不足)」から学ぶ冷却の仕組み読んでできること 自作冷蔵庫を作る上でのヒントが得られる(?) 序章 ハッピーホワイトクリスマ
【Databricks(AWS版)】2025年11月アップデート確認
みなさんこんにちは、クルトンです!今回は2025年11月1日〜12月2日(つまり本日まで) にアップデートされた情報をまとめてみます。対象としては、以下の内容です!Databricks Runtime 17.3 LTS / 17.3 LTS MLDatabricks プラ
【Frosty Friday Advent Calendar2025】Week125 Advanced Jinja
こんにちわっ、がく@ちゅらデータエンジニアです。https://qiita.com/advent-calendar/2025/********Frosty Friday Advent Calendar の1日目の記事になります。 Frosty Friday Week125
🐍【Databricks】ノートブックからCSVデータをインポートして視覚化してみた
みなさんこんにちは、クルトンです!ちゅらデータ入社後初ブログとして、Databricks のチュートリアル「ノートブックから CSV データをインポートして視覚化する」をやってみました 🎉チュートリアルの公式ドキュメントはこちらです。👉 Databricks 公式チュー
【社内アドバイザリー】監査ログとして各種データを保存したいのですが考慮すべき点は?
がく@ちゅらデータエンジニアです。こんばんはっ!!現在、ちゅらデータのデータエンジニアギルドでは、社内アドバイザリーって取り組みをしています。 社内アドバイザリーとは弊社では様々なデータエンジニアリングな案件をさせていただいております。データエンジニアリングはとても範
Snowflake認証PAT(programmatic access tokens)の導入・運用ガイド
はじめにこんにちは。kayoと申します。すっかり寒くなってきて秋というか冬を感じる今日この頃です。季節の変わり目なので私はここ最近2週間に1度のペースで風邪をひいていますw皆様も体調には気を付けてくださいね。それでは早速本題に入ります。SnowflakeのPERSONユー
概要この記事の対象者: Gemini TTS触ったことないけど、興味ある人(逆に細かな設定、最新情報が気になる方はドキュメント見た方がいいかもです!)この記事を読むとわかること: 対応モデル・基本コード・英語指示(Say/Wait等)・声質/話法/複数話者設定の要点この記事
Snowflake x Wasabi x Iceberg ( S3互換ストレージ)
がく@ちゅらデータエンジニアです。こんばんわ!ずいぶん涼しくなって過ごしやすくなってきましたね!ご飯も美味しくて・・・あれ、また0.1トンになr・・・・(ぎゃーーー 概要以前、S3互換ストレージの検証で、Cloudflare R2について行いました。https://
【SWTTokyo25レポ】UserCommunityHub : FrostyFriday〜生FrostyFridayやったよ!
がく@ちゅらデータエンジニアです。こんにちわっ!dbt Meetup #16 : dbt Tokyo crew就任&トリスタンCEO&東條Anthropic新社長にあう→ Snowflake World Tour Tokyo 2025 Day 1 生FrostyFriday
【SWTTokyo25 レポ】昨年対比2倍以上の機能追加を実現するデータ基盤プロジェクトでのAI活用について DSHシアターセッション
がく@ちゅらデータエンジニアです。Snowflake World Tour Tokyo 2025のセッションレポートです。今回は昨年対比2倍以上の機能追加を実現するデータ基盤プロジェクトでのAI活用についてということで、Kubell(旧Chatwork)のDSHのみっつさ
【SWTTokyo25 レポ】ラーメン山岡家 データ活用の現在地 🔖 1
がく@ちゅらデータエンジニアです。こんにちわっ!!怒涛のSWTTokyo25が終わり、三連休の昼下がり、皆様如何お過ごしでしょうかはい、私はくたばってます!まだ疲れが抜けません!!!!!!年は取りたくないものです(主に、連夜の飲み会で胃腸の酷使が原因) ラーメン山岡家さ
【SWTTokyo25 レポ】Snowflake Intelligenceにはこうやって立ち向かう!DSHシアターセッション
がく@ちゅらデータエンジニアですこんにちわっ!三連休の夕方、皆様はどうお過ごしでしょうか?私はグダってます、とことんグダってます!先ほど、1週間分の買い出しをしてきたました!山岡家さんの前を通りましたが、まじ入りたかった・・・・さて、SWTTokyo25のセッションレポ
【SWTTokyo25レポ】 クエリパフォーマンスチューニングの傾向と対策
がく@ちゅらデータエンジニアです。こんばんわ!!Snowflake World Tour Tokyo 2025 は、とてもとても盛況でしたね!つーでいず!!!めちゃくちゃ熱いセッションばかりでした!私がSWTTokyo25への参加はこのセッションを聞くためだ!!といっても過
SnowflakeにWorkload Identity FederationでGitHub Actionsからシークレットレス接続する
はじめにSnowflakeの新しい認証方式として「Workload Identity Federation」がGAになりました。https://docs.snowflake.com/en/user-guide/workload-identity-federationこれを使