Parakeetの人気記事まとめ

はじめにParakeet株式会社リサーチャーの榎本 (X: @henomoto1025)です。純粋数学で博士号を取りポスドクをしていましたが、音声の分野に興味が移り、現在は音声界隈の研究のキャッチアップをしながら研究開発をしています。さて、今回は、日本語の音声AIの評価に使わ

タグ: #ai

公開日: 2025-10-02 06:46

Parakeet株式会社でResearcherをしている金子(nadare)です。CPUのみで動作するリアルタイムAIボイスチェンジャーのParavoの研究開発をしております。ParavoはAIモデルをPythonのPyTorchで学習した後、モデルをONNXというフォーマット

タグ: #アプリ

公開日: 2025-09-01 04:23

TL;DRNeural Vocoderはメルスペクトログラム等の音響特徴量から波形を復元するモジュール従来の時間領域型 (HiFi‑GANなど) はエイリアシングを避けられず高F0などの条件で大きく劣化Wavehaxは時間周波数領域でConv2Dにより処理しiSTF

公開日: 2025-07-28 09:00

!この記事の内容はどこかに投稿する予定でしたが、この記事ほぼ同じアイデアを持つ論文が先日arXivに2本も立て続けに発表されたため（[1, 2]、ともにINTERSPEECH2025採択）、供養のために公開しています。この記事の最後でそれらの論文も軽く紹介します。はじ

公開日: 2025-06-23 11:27

Parakeet株式会社でResearcherをしている金子(nadare)です。CPUのみで動作するリアルタイムAIボイスチェンジャーのParavoの研究開発をしております。本記事ではリアルタイムアプリケーションにおけるリサンプリングの課題と、Paravoアプリにおける「Ru

公開日: 2025-06-14 07:42

はじめにこんにちは、Parakeet株式会社リサーチャーの今井（Ｘ: Nuts）です。2025年5月29日に、Resemble AIからオープンソースText-to-Speech（TTS）モデル、Chatterboxが公開されました。state-of-the-art TT

タグ: #オープンソース #使い方

公開日: 2025-06-12 08:04

話題のテック