はてぶ・Qiita・Zennのトレンド記事を紹介
音声AIの評価指標CER(文字誤り率)を解説!——意外と知らない“マクロCER/マイクロCER”の違いまで—— 🔖 1
はじめにParakeet株式会社リサーチャーの榎本 (X: @henomoto1025)です。純粋数学で博士号を取りポスドクをしていましたが、音声の分野に興味が移り、現在は音声界隈の研究のキャッチアップをしながら研究開発をしています。さて、今回は、日本語の音声AIの評価に使わ
リアルタイムAIアプリケーションにおけるONNXのチューニング 🔖 5
Parakeet株式会社でResearcherをしている金子(nadare)です。CPUのみで動作するリアルタイムAIボイスチェンジャーのParavoの研究開発をしております。ParavoはAIモデルをPythonのPyTorchで学習した後、モデルをONNXというフォーマット
時間周波数領域で処理するNeural Vocoder、Wavehax解説 🔖 1
TL;DRNeural Vocoderはメルスペクトログラム等の音響特徴量から波形を復元するモジュール従来の時間領域型 (HiFi‑GANなど) はエイリアシングを避けられず高F0などの条件で大きく劣化Wavehaxは時間周波数領域でConv2Dにより処理しiSTF
日本語TTS用の学習データの精度を上げる「ふりがなWhisper」を作った話 🔖 39
!この記事の内容はどこかに投稿する予定でしたが、この記事ほぼ同じアイデアを持つ論文が先日arXivに2本も立て続けに発表されたため([1, 2]、ともにINTERSPEECH2025採択)、供養のために公開しています。この記事の最後でそれらの論文も軽く紹介します。 はじ
Parakeet株式会社でResearcherをしている金子(nadare)です。CPUのみで動作するリアルタイムAIボイスチェンジャーのParavoの研究開発をしております。本記事ではリアルタイムアプリケーションにおけるリサンプリングの課題と、Paravoアプリにおける「Ru
最先端のオープンソースTTSモデル『Chatterbox』とは!?〜使い方から技術詳細まで〜 🔖 4
はじめにこんにちは、Parakeet株式会社リサーチャーの今井(X: Nuts)です。2025年5月29日に、Resemble AIからオープンソースText-to-Speech(TTS)モデル、Chatterboxが公開されました。state-of-the-art TT