はてぶ・Qiita・Zennのトレンド記事を紹介
LLM(大規模言語モデル)は、大量のテキストデータを学習したAIモデルです。ChatGPTなどの自然言語処理AIの基盤となっています。
LLMにちゃんと“電卓と検索”を使わせるには — ReActスタイルのツール利用・実装入門 🔖 10
はじめに ルミナイR&Dチームの栗原です。 最近の LLM は、テキストを出すだけでなく、 電卓 Web 検索 社内 API データベース など、**外部ツールを叩きながらタスクをこなす「エージェント」**として使われることが増えています。 ただ、 「いつツールを呼ぶべき
LLMなしでPDF/Excel/Word/PowerPointを意味検索する 🔖 1
はじめにExcel方眼紙、100頁を超えるPowerPoint、それは先人たちの血と汗と涙の結晶である。オートシェイプでレイヤーを作ってミルフィーユみたいになっている素晴らしいドキュメント!Semanticなど関係ない!見た目が良ければよいという暴力性!そんなドキュメントを
たった1文で15のLLMのガードレールを無効化した手法、Microsoftが公開 🔖 48
Microsoftのセキュリティ研究チームは2026年2月9日(米国時間)、大規模言語モデル(LLM)のガードレール(安全装置)を無効化する手法「GRP-Obliteration」に関する研究結果を公開した。 ガードレールを無効化できた対象には以下の15モデルが含まれる。 「gp
自宅で動くLLMをどこからでも呼び出せる「LM Link」、Tailscale×LM Studio連携で実現 - すまほん!! 🔖 47
すまほん!! » AI・人工知能 » 自宅で動くLLMをどこからでも呼び出せる「LM Link」、Tailscale×LM Studio連携で実現 自宅のGPUマシンがどこでも使えるAIサーバーに? VPNサービスのTailscaleとローカルLLM実行アプリのLM Studio
MacBookで動くし、ぶっ壊れ性能。いま最強のローカルLLM「Qwen3.5」を解説しちゃう 🔖 390
MacBookで動くし、ぶっ壊れ性能。いま最強のローカルLLM「Qwen3.5」を解説しちゃう2026.03.14 21:008,159 かみやまたくみ とりあえずこれでいいやつ(令和最新版)。 2026年2月末〜3月上旬にかけてアリババがリリースしたオープンウェイトの大規模言語
LangfuseによるLLMOps基盤の構築と活用事例 🔖 1
はじめに こんにちは、データサイエンス部コーディネートサイエンスブロックの清水です。私たちのチームでは、WEARへ投稿されているコーディネート画像からVLM(Vision Language Model)で特徴を自動抽出するシステムを開発・運用しています。
【Python+ローカルLLM】AIコーディングエージェントをRAGに組み合わせてみた 🔖 32
はじめに 「社内ドキュメントに自然言語で質問できたら便利じゃないか?」 「しかも、コードの書き方まで聞けたら最高じゃないか?」 そんな欲張りな発想から生まれたのが Django-RAG (Ver.2) です。 以前投稿した Agentic Coder の記事では、ローカルLLMで
LLMからエージェントへ:2026年に学ぶべきオープンソースAIプロジェクトまとめ 🔖 1
2024年まで、AIの学習といえば「モデルのファインチューニング」が主流でした。でも2026年の今、完全にゲームが変わりました。今のAI開発の主戦場は 「モデルの精度を0.1%上げること」ではなく、「AIにシステム権限を与えて、自律的にタスクを実行させるアーキテクチャをど...
--2026.03.10 21:04 ヘブ則、💡追加 --2026.03.10 20:09 memory_server.py アップし忘れてた。GitHubに追加 LLMと長期記憶 LLMには記憶がない。正確に言えば、コンテキストウィンドウという短期記憶はあるが、会話が終われば全
Opus4.6でdraw.io図を生成したらもはやLLMの前提が崩れてた件 🔖 72
はじめに 「LLMは空間的な推論が苦手」「テキストベースで座標を扱うのだから、複雑な図はぐちゃぐちゃになるはず」──これは自分がずっと持っていた前提でした。おそらく同じように考えている方も多いのではないでしょうか。 実際、以前のモデルで試した限りでは、この前提はおおむね正しかった
ローカルLLMで完全無料AI音声入力!Handyを使ってみた 🔖 35
こんにちは!データエンジニアの @myshmeh です。 現在育休中の身で、両手は子供で塞がっていることが多いです。しかし、ちょっとした調べ物や書き物でパソコン操作したい局面は結構あるので、 Claude x 音声入力でソリューションを検討してました。 その文脈で見つけた、 Ha
データエンジニア・LLM エンジニア採用のスキルテストをリニューアルしました 🔖 1
こんにちは、ナウキャストでリードエンジニアをしている六車です。ナウキャストでは、エンジニア採用の選考ステップの一つとして、書類選考を通過したエンジニア候補の方にスキルテストを受けていただいています。この度、そのスキルテストをリニューアルしました。具体的には、グループ会社である
LLMの自律的な調査力を高めるAgenticRLの取り組みと知見 🔖 3
こんにちは。 ABEJAでデータサイエンティストをしている服部です。 LLMの進化は速いですね。 Reasoning能力があることは勿論Agenticな動きをすることも最近求められており、LLM開発においてもPost Trainingの重要性は高まっています。 本記事では、Age
Opus4.6でdraw.io図を生成したらもはやLLMの前提が崩れてた件 🔖 72
はじめに「LLMは空間的な推論が苦手」「テキストベースで座標を扱うのだから、複雑な図はぐちゃぐちゃになるはず」──これは自分がずっと持っていた前提でした。おそらく同じように考えている方も多いのではないでしょうか。実際、以前のモデルで試した限りでは、この前提はおおむね正しかった
LLMと長期記憶LLMには記憶がない。正確に言えば、コンテキストウィンドウという短期記憶はあるが、会話が終われば全て消える。人間の脳が持つ長期記憶(エピソード記憶、意味記憶、手続き記憶、そしてそれらを支える情動的重みづけや連想ネットワーク)に相当するものがない。本記事では、C
システムのメモリ・CPU・GPUに合わせて適切なAIモデルを教えてくれるターミナルツール「llmfit」 🔖 55
生成AIの話題に欠くことのない昨今、ある程度のパワーを有するPCが手元にある方は一度ならず「ローカルで生成AIを動かしてみたい」という思いに駆られた事があるのではないでしょうか。とはいえ余程AIモデルに関する知識が深くなければどのAIモデルなら自分の環境で快適に動作させられるのか
「Claude Code に向いているプログラミング言語」記事を見て、LLM が書きやすい言語 Almide を土日で作ってみた 🔖 3
はじめに先日、@mametter 氏による「Claude Codeで15言語ベンチマーク」という記事を読んで、思わず二度見してしまいました。Claude Code に複数のプログラミング言語でコードを書かせ、実行時間とコストを比較した記事です。結果はかなり興味深くて、Ruby
「アーキテクチャ図はもう要らない」は本当か? ── LLM時代のC4モデル再考 🔖 164
「アーキテクチャ図はもう要らない」は本当か? ── LLM時代のC4モデル再考 前編: アーキテクチャ図、コードで書こう - C4モデル入門 はじめに LLMに「こういうアプリ作って」と頼めば動くコードが出てくる時代に、アーキテクチャ図を描くのは遠回りに感じるかもしれません。 し
スマホからも PC からも使えるプライベート LLM 環境 (Qwen 3.5-4B) を AWS に構築してみた | DevelopersIO 🔖 38
Claude や ChatGPT の障害に備えて、ローカル LLM (Qwen 3.5-4B) を AWS の GPU インスタンス上にセルフホストしました。Tailscale を使うことで、スマホからも PC からも同じ URL でプライベートにアクセスできます。Terrafo
0. 最初に記載内容は考察や推察によるものであり、これが正しいというものではありません。参考程度に閲覧ください。 1. 概要LLM(Large Language Model)と量子計算は一見別分野の技術に見えるが、数学的・計算構造的には多くの共通点が存在する。特に以下の
みずほFGの自社LLM、「GPT-5.2と同精度」でオンプレ運用可能 「Qwen3-32B」ベース 🔖 33
みずほフィナンシャルグループは3月5日、独自で開発を進めている「金融特化LLM」が、銀行の実務テストで、推論に依存しない条件下での正答率89.0%を達成したと発表した。実務実装を想定した評価では、平均回答時間1秒未満を実現したという。 汎用LLMの「GPT-5.2」推論あり設定(
Amazon S3侵害から「わずか8分」――LLMによる自動化で“AWS管理者権限”を奪取 🔖 49
クラウドセキュリティベンダーSysdigの脅威リサーチチーム(TRT)は2026年2月3日(米国時間、以下同)、クラウドサービス群「Amazon Web Services」(AWS)の環境を標的としたクラウド攻撃の分析結果を公開した。 2025年11月28日に観測されたこの攻撃で
「無料でAIエージェント作れるやん」→ ローカルLLMに100回ツール呼び出しさせたら"成功したはずの出力"がカオスだった話 🔖 50
前回「MCPなんていらない」って書いた人間が、もっと手前の問題に気づいた話 先日、こんな記事を書きました。私が。 「MCPサーバー作るのもうやめていい?」〜CLIがMCPを圧倒する本当の理由〜 「MCP はトークンの無駄遣い、CLI の方が35倍効率いい!」と勢いよく書き上げて、
ガバメントAIで試用する国内大規模言語モデル(LLM)の公募結果|デジタル庁 🔖 98
ホーム新着・更新ガバメントAIで試用する国内大規模言語モデル(LLM)の公募結果 ガバメントAIで試用する国内大規模言語モデル(LLM)の公募結果 ガバメントAIで試用する国内大規模言語モデル(LLM:Large Language Model)の公募を行ったところ15件の応募があ
バックエンドエンジニアがフロントエンドをLLMに頼って実装した反省点 - SmartHR Tech Blog 🔖 62
SmartHRでプロダクトエンジニアをしている大澤と申します。この記事では、バックエンドエンジニアである自分がフロントエンドのコードをLLMに頼って実装した際の反省点について紹介します。 現在、LLMはだいぶ良い感じのコードを書いてくれるようになってきています。Claude Op
GENIAC3期のLLM開発で使用したロングコンテキスト評価のベンチマーク公開 🔖 1
ABEJAでデータサイエンティストをしている藤原です。 弊社は、経済産業省とNEDOが実施する、国内の生成AIの開発力強化を目的としたプロジェクト「GENIAC(Generative AI Accelerator Challenge)」の1期、2期に続き、3期にも採択され、そこで
「LLMに身体は持たせられない」は本当か? — 世界の潮流とfamiliar-aiから見えたこと 🔖 1
はじめにこんにちは、株式会社ネクストビートでテクノロジーエヴァンジェリストをしている水島(kmizu)です。「3,980円のカメラでClaude Codeに身体を与えた」という記事や、その延長線上で作った個人の趣味プロジェクトfamiliar-aiについて発信していると、こう
LLMの構造化出力エラーを87%削減した実践手法 ── Gemini API 10万件運用の知見 🔖 4
はじめに こんにちは、データサイエンス部コーディネートサイエンスブロックの大川です。私たちは、WEARにおける「似合う」をユーザーに届けるため、LLMやマルチモーダルAIを活用してコーディネートの特徴抽出や似合うに関する独自の判定処理のR&Dを行っています。 LLMが台頭
Recursive Language Models(RLM)が変えるLLMの長文脈処理 🔖 1
LLMのコンテキストウィンドウは年々拡大しています。例えばGemini 3.1 Proは最大1M tokenに対応しています。これは文庫本約10〜20冊分といわれており、text-davinci-003の頃の4096 tokenに比べると、信じられないほどの拡大です。しかし、コ
バックエンドエンジニアがフロントエンドをLLMに頼って実装した反省点 🔖 62
SmartHRでプロダクトエンジニアをしている大澤と申します。この記事では、バックエンドエンジニアである自分がフロントエンドのコードをLLMに頼って実装した際の反省点について紹介します。 現在、LLMはだいぶ良い感じのコードを書いてくれるようになってきています。Claude Op
「無料でAIエージェント作れるやん」→ ローカルLLMに100回ツール呼び出しさせたら"成功したはずの出力"がカオスだった話 🔖 50
前回「MCPなんていらない」って書いた人間が、もっと手前の問題に気づいた話先日、こんな記事を書きました。私が。「MCPサーバー作るのもうやめていい?」〜CLIがMCPを圧倒する本当の理由〜「MCP はトークンの無駄遣い、CLI の方が35倍効率いい!」と勢いよ...
LLM出力の精度90%→98%に。LLM-as-judgeとClaude Codeで自律チューニング 🔖 4
はじめにGMOコネクトの永田です。同じLLM、同じプロンプトで30件のIssueを2回分類・要約して、完全一致は66.7%でした。LLMの出力精度を測ろうとして最初にぶつかったのがこの壁です。正解データ自体がLLMの生成物だと、文字列の完全一致では精度を測れません。...
ローカルLLMの脆弱性があるんか?〜CVE-2024-50050から学ぶ「自分だけで使ってるから安全」の落とし穴〜 🔖 180
2.3 RCE(Remote Code Execution)とは 攻撃者がリモートから任意のコードを実行できる脆弱性のこと。これが成立すると、あなたのマシンで攻撃者が好き放題にコマンドを叩ける。ローカルLLMの脆弱性の多くはこのRCEに分類される。 2.4 デシリアライズ(Des
ついにローカルLLMで安心して仕事が出来る!― Qwen3.5-27B 採用レポート (2026/02/27) 🔖 197
ついにローカルLLMで安心して仕事が出来る!― Qwen3.5-27B 採用レポート (2026/02/27) TL;DR ・RTX 3090(VRAM 24GB)+5bit量子化で Qwen3.5-27B (Reasoning) を実用速度でローカル動作させた話。 ・Artif
例を増やしたらLLMの性能が下がる ── few-shot collapseの発見と検出方法 🔖 2
プロンプトに例を増やすと回答の精度が上がる、と言われています。しかし、実際に計測してみると、例を増やすことで性能が下がるケースが見られました。そこで、few-shot promptingで渡す例を増やしたときにモデルの性能がどう変化するかを計測するツールを作って色々と試してみ
拡張機能や Selenium に頼らない、LLM ネイティブなブラウザ開発入門 🔖 1
本記事は何?本記事は、Firefox フォークの Floorp を開発している大学 2 年生が、未踏 IT(2025)採択プロジェクト 「Floorp OS」 の開発で得た知見を、「拡張機能や Selenium に頼らず、ブラウザ内部に LLM 実行基盤を組み込む」 という観点
政策議事録をLLMで分析する設計:RAG(ベクトル検索)で精度が出なかった理由と多段階圧縮 🔖 40
政策議事録をLLMで分析する設計:RAG(ベクトル検索)で精度が出なかった理由と多段階圧縮 この記事で得られること 政治・政策領域という特殊なドメインで、LLMを使ったテキスト分析をプロダクションに載せるまでの設計判断 「ドメインエキスパートの暗黙知」をシステムに変換するときに直
LLMはもう古い?2026年最新AI革命を3分でわかりやすく解説 🔖 3
1. ざっくり言うと?(要約)ChatGPTを支えるLLM(大規模言語モデル)は、専門家の間では「近いうちに時代遅れになる」と見られています。次世代AIは「マルチモーダル」「マルチエージェント」など、まったく別の仕組みで動く新アーキテクチャへ移行中です。AIは今、科学的発
政策議事録をLLMで分析する設計:RAG(ベクトル検索)で精度が出なかった理由と多段階圧縮 🔖 40
政策議事録をLLMで分析する設計:RAG(ベクトル検索)で精度が出なかった理由と多段階圧縮 この記事で得られること政治・政策領域という特殊なドメインで、LLMを使ったテキスト分析をプロダクションに載せるまでの設計判断「ドメインエキスパートの暗黙知」をシステムに変換すると
日本語性能を強化したオープンなLLM「GPT-OSS Swallow」と「Qwen3 Swallow」リリース | gihyo.jp 🔖 23
日本語性能を強化したオープンなLLM「GPT-OSS Swallow」と「Qwen3 Swallow」リリース Swallow LLM Projectは2026年2月20日、OpenAI GPT-OSSおよびAlibaba Qwen3の日本語能力と思考力を強化した推論型言語モデル
LLMは「空間」を把握できるか?:2D図面から3DCADへの形状復元 🔖 2
こんにちは、キャディで機械学習エンジニアをしている由川です。東京の大手町に最近オープンしたサウナ施設に行き、すごい洒落てんな〜と思いつつ十分にリラックスもできました。休息も大切です。 さて本題に戻ると、私は以下を目的としてLLM*1に関する評価ベンチマークづくりに取り組んでいます
あなたのAI駆動開発に足りないもの 〜LLMすら正解を知らないとき〜 🔖 2
先に要点LLMでも分からない「実際のユーザの反応やメトリクス」を測定・実験することで、AIを活用した開発はさらに進化できるClaude Code自体もFeature Flags+A/Bテストを活用している 現状の課題AIを開発の中心に据えるのが当然になってきました。
Microsoftの提案するLLM向け記憶管理手法 🔖 29
導入こんにちは、株式会社ナレッジセンスの須藤英寿です。今回はMicrosoftの提案するLLM向けのメモリ機能、「Mnemis」を紹介します。https://arxiv.org/pdf/2602.15313 サマリーAgentの能力の上昇により、コンテキストエンジニ
Microsoftの提案するLLM向け記憶管理手法 🔖 29
導入こんにちは、株式会社ナレッジセンスの須藤英寿です。今回はMicrosoftの提案するLLM向けのメモリ機能、「Mnemis」を紹介します。https://arxiv.org/pdf/2602.15313 サマリーAgentの能力の上昇により、コンテキストエンジニ
同じ入力なのにスコアが変わる——LLM-as-a-Judgeの決定性を検証してみた 🔖 11
こんにちは!Insight Edge データサイエンティストの角田です。今回は、LLMを評価者として使う「LLM-as-a-Judge」の決定性について、手元の実験で検証した内容を共有します。 目次 背景 実験設計 結果 考察 まとめ 背景 LLM-as-a-Judgeとは、LL