はてぶ・Qiita・Zennのトレンド記事を紹介
LLM(大規模言語モデル)は、大量のテキストデータを学習したAIモデルです。ChatGPTなどの自然言語処理AIの基盤となっています。
LLMと長期記憶LLMには記憶がない。正確に言えば、コンテキストウィンドウという短期記憶はあるが、会話が終われば全て消える。人間の脳が持つ長期記憶(エピソード記憶、意味記憶、手続き記憶、そしてそれらを支える情動的重みづけや連想ネットワーク)に相当するものがない。本記事では、C
システムのメモリ・CPU・GPUに合わせて適切なAIモデルを教えてくれるターミナルツール「llmfit」 🔖 56
生成AIの話題に欠くことのない昨今、ある程度のパワーを有するPCが手元にある方は一度ならず「ローカルで生成AIを動かしてみたい」という思いに駆られた事があるのではないでしょうか。とはいえ余程AIモデルに関する知識が深くなければどのAIモデルなら自分の環境で快適に動作させられるのか
「Claude Code に向いているプログラミング言語」記事を見て、LLM が書きやすい言語 Almide を土日で作ってみた 🔖 3
はじめに先日、@mametter 氏による「Claude Codeで15言語ベンチマーク」という記事を読んで、思わず二度見してしまいました。Claude Code に複数のプログラミング言語でコードを書かせ、実行時間とコストを比較した記事です。結果はかなり興味深くて、Ruby
「アーキテクチャ図はもう要らない」は本当か? ── LLM時代のC4モデル再考 🔖 166
「アーキテクチャ図はもう要らない」は本当か? ── LLM時代のC4モデル再考 前編: アーキテクチャ図、コードで書こう - C4モデル入門 はじめに LLMに「こういうアプリ作って」と頼めば動くコードが出てくる時代に、アーキテクチャ図を描くのは遠回りに感じるかもしれません。 し
スマホからも PC からも使えるプライベート LLM 環境 (Qwen 3.5-4B) を AWS に構築してみた | DevelopersIO 🔖 39
Claude や ChatGPT の障害に備えて、ローカル LLM (Qwen 3.5-4B) を AWS の GPU インスタンス上にセルフホストしました。Tailscale を使うことで、スマホからも PC からも同じ URL でプライベートにアクセスできます。Terrafo
0. 最初に記載内容は考察や推察によるものであり、これが正しいというものではありません。参考程度に閲覧ください。 1. 概要LLM(Large Language Model)と量子計算は一見別分野の技術に見えるが、数学的・計算構造的には多くの共通点が存在する。特に以下の
みずほFGの自社LLM、「GPT-5.2と同精度」でオンプレ運用可能 「Qwen3-32B」ベース 🔖 34
みずほフィナンシャルグループは3月5日、独自で開発を進めている「金融特化LLM」が、銀行の実務テストで、推論に依存しない条件下での正答率89.0%を達成したと発表した。実務実装を想定した評価では、平均回答時間1秒未満を実現したという。 汎用LLMの「GPT-5.2」推論あり設定(
Amazon S3侵害から「わずか8分」――LLMによる自動化で“AWS管理者権限”を奪取 🔖 49
クラウドセキュリティベンダーSysdigの脅威リサーチチーム(TRT)は2026年2月3日(米国時間、以下同)、クラウドサービス群「Amazon Web Services」(AWS)の環境を標的としたクラウド攻撃の分析結果を公開した。 2025年11月28日に観測されたこの攻撃で
ガバメントAIで試用する国内大規模言語モデル(LLM)の公募結果|デジタル庁 🔖 98
ホーム新着・更新ガバメントAIで試用する国内大規模言語モデル(LLM)の公募結果 ガバメントAIで試用する国内大規模言語モデル(LLM)の公募結果 ガバメントAIで試用する国内大規模言語モデル(LLM:Large Language Model)の公募を行ったところ15件の応募があ
「無料でAIエージェント作れるやん」→ ローカルLLMに100回ツール呼び出しさせたら"成功したはずの出力"がカオスだった話 🔖 50
前回「MCPなんていらない」って書いた人間が、もっと手前の問題に気づいた話 先日、こんな記事を書きました。私が。 「MCPサーバー作るのもうやめていい?」〜CLIがMCPを圧倒する本当の理由〜 「MCP はトークンの無駄遣い、CLI の方が35倍効率いい!」と勢いよく書き上げて、
バックエンドエンジニアがフロントエンドをLLMに頼って実装した反省点 - SmartHR Tech Blog 🔖 63
SmartHRでプロダクトエンジニアをしている大澤と申します。この記事では、バックエンドエンジニアである自分がフロントエンドのコードをLLMに頼って実装した際の反省点について紹介します。 現在、LLMはだいぶ良い感じのコードを書いてくれるようになってきています。Claude Op
GENIAC3期のLLM開発で使用したロングコンテキスト評価のベンチマーク公開 🔖 1
ABEJAでデータサイエンティストをしている藤原です。 弊社は、経済産業省とNEDOが実施する、国内の生成AIの開発力強化を目的としたプロジェクト「GENIAC(Generative AI Accelerator Challenge)」の1期、2期に続き、3期にも採択され、そこで
「LLMに身体は持たせられない」は本当か? — 世界の潮流とfamiliar-aiから見えたこと 🔖 1
はじめにこんにちは、株式会社ネクストビートでテクノロジーエヴァンジェリストをしている水島(kmizu)です。「3,980円のカメラでClaude Codeに身体を与えた」という記事や、その延長線上で作った個人の趣味プロジェクトfamiliar-aiについて発信していると、こう
LLMの構造化出力エラーを87%削減した実践手法 ── Gemini API 10万件運用の知見 🔖 4
はじめに こんにちは、データサイエンス部コーディネートサイエンスブロックの大川です。私たちは、WEARにおける「似合う」をユーザーに届けるため、LLMやマルチモーダルAIを活用してコーディネートの特徴抽出や似合うに関する独自の判定処理のR&Dを行っています。 LLMが台頭
Recursive Language Models(RLM)が変えるLLMの長文脈処理 🔖 1
LLMのコンテキストウィンドウは年々拡大しています。例えばGemini 3.1 Proは最大1M tokenに対応しています。これは文庫本約10〜20冊分といわれており、text-davinci-003の頃の4096 tokenに比べると、信じられないほどの拡大です。しかし、コ
バックエンドエンジニアがフロントエンドをLLMに頼って実装した反省点 🔖 63
SmartHRでプロダクトエンジニアをしている大澤と申します。この記事では、バックエンドエンジニアである自分がフロントエンドのコードをLLMに頼って実装した際の反省点について紹介します。 現在、LLMはだいぶ良い感じのコードを書いてくれるようになってきています。Claude Op
「無料でAIエージェント作れるやん」→ ローカルLLMに100回ツール呼び出しさせたら"成功したはずの出力"がカオスだった話 🔖 50
前回「MCPなんていらない」って書いた人間が、もっと手前の問題に気づいた話先日、こんな記事を書きました。私が。「MCPサーバー作るのもうやめていい?」〜CLIがMCPを圧倒する本当の理由〜「MCP はトークンの無駄遣い、CLI の方が35倍効率いい!」と勢いよ...
LLM出力の精度90%→98%に。LLM-as-judgeとClaude Codeで自律チューニング 🔖 4
はじめにGMOコネクトの永田です。同じLLM、同じプロンプトで30件のIssueを2回分類・要約して、完全一致は66.7%でした。LLMの出力精度を測ろうとして最初にぶつかったのがこの壁です。正解データ自体がLLMの生成物だと、文字列の完全一致では精度を測れません。...
ローカルLLMの脆弱性があるんか?〜CVE-2024-50050から学ぶ「自分だけで使ってるから安全」の落とし穴〜 🔖 180
2.3 RCE(Remote Code Execution)とは 攻撃者がリモートから任意のコードを実行できる脆弱性のこと。これが成立すると、あなたのマシンで攻撃者が好き放題にコマンドを叩ける。ローカルLLMの脆弱性の多くはこのRCEに分類される。 2.4 デシリアライズ(Des
ついにローカルLLMで安心して仕事が出来る!― Qwen3.5-27B 採用レポート (2026/02/27) 🔖 200
ついにローカルLLMで安心して仕事が出来る!― Qwen3.5-27B 採用レポート (2026/02/27) TL;DR ・RTX 3090(VRAM 24GB)+5bit量子化で Qwen3.5-27B (Reasoning) を実用速度でローカル動作させた話。 ・Artif
例を増やしたらLLMの性能が下がる ── few-shot collapseの発見と検出方法 🔖 2
プロンプトに例を増やすと回答の精度が上がる、と言われています。しかし、実際に計測してみると、例を増やすことで性能が下がるケースが見られました。そこで、few-shot promptingで渡す例を増やしたときにモデルの性能がどう変化するかを計測するツールを作って色々と試してみ
拡張機能や Selenium に頼らない、LLM ネイティブなブラウザ開発入門 🔖 2
本記事は何?本記事は、Firefox フォークの Floorp を開発している大学 2 年生が、未踏 IT(2025)採択プロジェクト 「Floorp OS」 の開発で得た知見を、「拡張機能や Selenium に頼らず、ブラウザ内部に LLM 実行基盤を組み込む」 という観点
政策議事録をLLMで分析する設計:RAG(ベクトル検索)で精度が出なかった理由と多段階圧縮 🔖 41
政策議事録をLLMで分析する設計:RAG(ベクトル検索)で精度が出なかった理由と多段階圧縮 この記事で得られること 政治・政策領域という特殊なドメインで、LLMを使ったテキスト分析をプロダクションに載せるまでの設計判断 「ドメインエキスパートの暗黙知」をシステムに変換するときに直
LLMはもう古い?2026年最新AI革命を3分でわかりやすく解説 🔖 3
1. ざっくり言うと?(要約)ChatGPTを支えるLLM(大規模言語モデル)は、専門家の間では「近いうちに時代遅れになる」と見られています。次世代AIは「マルチモーダル」「マルチエージェント」など、まったく別の仕組みで動く新アーキテクチャへ移行中です。AIは今、科学的発
政策議事録をLLMで分析する設計:RAG(ベクトル検索)で精度が出なかった理由と多段階圧縮 🔖 41
政策議事録をLLMで分析する設計:RAG(ベクトル検索)で精度が出なかった理由と多段階圧縮 この記事で得られること政治・政策領域という特殊なドメインで、LLMを使ったテキスト分析をプロダクションに載せるまでの設計判断「ドメインエキスパートの暗黙知」をシステムに変換すると
日本語性能を強化したオープンなLLM「GPT-OSS Swallow」と「Qwen3 Swallow」リリース | gihyo.jp 🔖 23
日本語性能を強化したオープンなLLM「GPT-OSS Swallow」と「Qwen3 Swallow」リリース Swallow LLM Projectは2026年2月20日、OpenAI GPT-OSSおよびAlibaba Qwen3の日本語能力と思考力を強化した推論型言語モデル
LLMは「空間」を把握できるか?:2D図面から3DCADへの形状復元 🔖 2
こんにちは、キャディで機械学習エンジニアをしている由川です。東京の大手町に最近オープンしたサウナ施設に行き、すごい洒落てんな〜と思いつつ十分にリラックスもできました。休息も大切です。 さて本題に戻ると、私は以下を目的としてLLM*1に関する評価ベンチマークづくりに取り組んでいます
あなたのAI駆動開発に足りないもの 〜LLMすら正解を知らないとき〜 🔖 2
先に要点LLMでも分からない「実際のユーザの反応やメトリクス」を測定・実験することで、AIを活用した開発はさらに進化できるClaude Code自体もFeature Flags+A/Bテストを活用している 現状の課題AIを開発の中心に据えるのが当然になってきました。
Microsoftの提案するLLM向け記憶管理手法 🔖 29
導入こんにちは、株式会社ナレッジセンスの須藤英寿です。今回はMicrosoftの提案するLLM向けのメモリ機能、「Mnemis」を紹介します。https://arxiv.org/pdf/2602.15313 サマリーAgentの能力の上昇により、コンテキストエンジニ
Microsoftの提案するLLM向け記憶管理手法 🔖 29
導入こんにちは、株式会社ナレッジセンスの須藤英寿です。今回はMicrosoftの提案するLLM向けのメモリ機能、「Mnemis」を紹介します。https://arxiv.org/pdf/2602.15313 サマリーAgentの能力の上昇により、コンテキストエンジニ
同じ入力なのにスコアが変わる——LLM-as-a-Judgeの決定性を検証してみた 🔖 11
こんにちは!Insight Edge データサイエンティストの角田です。今回は、LLMを評価者として使う「LLM-as-a-Judge」の決定性について、手元の実験で検証した内容を共有します。 目次 背景 実験設計 結果 考察 まとめ 背景 LLM-as-a-Judgeとは、LL
Delegate to LLMーーLLMに全てを委ねるClaude Opus 4.6[1]のコンテキストウィンドウは200Kトークン、ベータで1Mトークンだ。日本語で言えば、だいたい数十万文字から百万文字くらいの情報を一度に処理できる。頭がいい。とんでもなく賢い。Claude
LLMの指示が無視される?プロンプト分割で解決した話 🔖 1
LLMの指示が無視される?プロンプト分割で解決した話 指示が無視される問題RAGシステムで回答を生成する際、1つのプロンプトに大きく2種類の指示を入れていた。回答生成のための指示日本語校正のための指示しかし、日本語校正の指示が無視されることがあった。たとえば、「で
LLMプロダクトの評価はどう考えてどうやればいいの? 🔖 1
!本稿における「LLMプロダクト」は、LLMを用いたプロダクトや機能のことを意味します。 モチベーションLLMプロダクトの評価は難しい。人事評価がとても難しいように、一見優秀に見えるLLMの主張やAIエージェントの行動を、一体どのように相対的に評価すれば良いのか。頭を
【爆安15万円】 RaspberryPi5でNVIDIAのGPUを使ってみた【LLMもFluxも】|shi3z 🔖 91
GPUを大量に買ったりしていると、時折GPUが余ることがある。 GPU単独で回すのも大事だが、それ以上にGPUが余る。余ったGPUのためにもう一台マシンを組もうとすると、中古品を組み合わせても筐体とマザボ、CPU、メモリやらで最低でも10万円コースになる。そこにGPUを組み合わせ
King - Man + Woman = Queen はLLMでも成り立つのか? 🔖 1
ウォンテッドリーでデータサイエンティストをしている右手です。自然言語処理で有名な例に、King - Man + W...
ローカル LLM は 審判を務められるか? 【 gemma3 vs gpt-4o-mini 】 🔖 2
LLM の出力、どうやってテストしていますか?LLM をシステムに組み込んだとき、多くの開発者が直面する問題があります。「この回答、合ってるかどうか、どうやって自動で判定(テスト)すればいいんだろう?」従来のシステムテストでは、入力に対して期待する出力が 1 つに定まります
VRAM96GB(Unified memory 128GB)でどのLLMが使えるか - きしだのHatena 🔖 66
VRAM96GBが使える環境が増えてきていますね。そんな中、どのLLMを使うのがいいか考えてみます。 候補としては、gpt-oss-120b、GLM-4.6V、Qwen3-Coder-Nextがあります。 で、まあ、安定性のgpt-oss、汎用性のGLM、複雑なコードはQwen3
ソートはコンピュータサイエンスにおける古典的なタスクですが、これが最先端の LLM と結びつき、新たな研究の潮流が生まれています。 ソートは比較関数さえ定義すれば実行することができます。従来の比較関数は身長・金額・距離のように測定可能な数値の比較を前提としていましたが、この比較関
意外とないので自分のメモとしている生成AIリンク集を公開Chatサービス、プロンプト集、リーダーボード、情報収集のコンテンツなどエージェント、バイブコーディング、画像、動画、音声には私が疎いのでそこは手薄(今後頑張ります)初心者向けサイト...
Debian、LLMスクレイピング攻撃でCIデータの公開閲覧を制限 | gihyo.jp 🔖 17
生成AIの普及と進化はサイバー攻撃のスタイルにも急激な変化をもたらしている。そのひとつがAI/LLMによるWebサイトのスクレイピングだ。従来からボットやクローラーを使ってWebサイトから自動的に情報を収集する行為はひろく行われていたが、AI/LLMによるスクレイピングは「HTM
8GBメモリでOK!Raspberry Pi 5で使える日本語対応ローカルLLM一覧 - uepon日々の備忘録 🔖 57
以前のエントリなどでも触れていましたが、Raspberry Pi 5(8GB RAM)でリアルタイム対話可能な日本語LLMは実現可能となりつつあります。それも、特別なハードウェアを使用することなしにです。 これは、1B〜3Bパラメータのモデルでもかなり優秀になってきているからです
ウォンテッドリーのLLM アプリケーション自動テスト戦略 🔖 26
こんにちは、ウォンテッドリーでソフトウェアエンジニアをしている市古 (@sora_ichigo_x) です。現在は...