はてぶ・Qiita・Zennのトレンド記事を紹介
時間周波数領域で処理するNeural Vocoder、Wavehax解説 🔖 1
TL;DRNeural Vocoderはメルスペクトログラム等の音響特徴量から波形を復元するモジュール従来の時間領域型 (HiFi‑GANなど) はエイリアシングを避けられず高F0などの条件で大きく劣化Wavehaxは時間周波数領域でConv2Dにより処理しiSTF
日本語TTS用の学習データの精度を上げる「ふりがなWhisper」を作った話 🔖 39
!この記事の内容はどこかに投稿する予定でしたが、この記事ほぼ同じアイデアを持つ論文が先日arXivに2本も立て続けに発表されたため([1, 2]、ともにINTERSPEECH2025採択)、供養のために公開しています。この記事の最後でそれらの論文も軽く紹介します。 はじ
Parakeet株式会社でResearcherをしている金子(nadare)です。CPUのみで動作するリアルタイムAIボイスチェンジャーのParavoの研究開発をしております。本記事ではリアルタイムアプリケーションにおけるリサンプリングの課題と、Paravoアプリにおける「Ru
最先端のオープンソースTTSモデル『Chatterbox』とは!?〜使い方から技術詳細まで〜 🔖 4
はじめにこんにちは、Parakeet株式会社リサーチャーの今井(X: Nuts)です。2025年5月29日に、Resemble AIからオープンソースText-to-Speech(TTS)モデル、Chatterboxが公開されました。state-of-the-art TT