Zeraku
← ツール一覧に戻る
🎙️
🌐 ブラウザで動作処理時間: 1–3× real-timeNEW

音声文字起こし

Whisperレベルの精度で音声をテキストに変換 — 無料でプライベート

今すぐ無料で試す

音声文字起こしとは?

ブラウザベースのWhisperモデルを使用して高精度で音声をテキストに変換。99言語をサポートし、タイムスタンプ付き文字起こしを生成、SRT、VTT、プレーンテキストにエクスポート。アップロード不要、アカウント不要。

主な機能

WebAssemblyでのOpenAI Whisper(tiny/base/smallモデル)を使用

自動言語検出で99言語をサポート

精密なナビゲーションのための単語レベルのタイムスタンプ

SRT、VTT、プレーンTXT形式でエクスポート

話者分離(ベータ版)

マイク入力のリアルタイム文字起こし

ブラウザ内でトランスクリプトを編集・修正

MP3、WAV、M4A、FLAC、OGG、WebMを最大500MBまでアップロード

使い方

1

モデルを読み込む

初回使用時に、Whisperモデル(約150MB)がダウンロードされ、ブラウザにキャッシュされます。

2

音声をアップロード

音声ファイルをドロップするか、マイクから直接録音します。

3

文字起こし

モデルが音声をローカルでチャンク単位で処理し、タイムスタンプ付きのテキストセグメントを生成します。

4

確認とエクスポート

トランスクリプトを読んで編集・検索し、希望のフォーマットでエクスポートします。

こんな方におすすめ

  • インタビューを文字起こしするジャーナリスト
  • ショーノートと字幕を作成するポッドキャスター
  • 講義を文字起こしする学生
  • 動画のキャプションを生成するコンテンツクリエーター
  • 定性データを文字起こしする研究者

なぜZerakuの音声文字起こしを選ぶのか

音声文字起こしを無料で試したいけれど、アカウント登録が面倒、または録音データを外部サーバーに送りたくないという方は多いのではないでしょうか。 Zerakuの音声文字起こしツールは、OpenAI WhisperをWebAssemblyでブラウザ上に直接動作させることで、クラウド型サービスに頼らずに高精度な文字起こしを実現しています。音声ファイルはデバイスから外に出ることなく、すべての処理がブラウザ内で完結します。会議の議事録、取材音声、個人のボイスメモなど機密性の高いデータも安心して処理できます。 アカウント不要・分単位の課金なし・アップロード制限なし。初回モデルダウンロード(約150MB)後は完全オフラインで動作するため、電車や飛行機の中でも使えます。 主な活用シーン:ZoomやGoogle Meetの録音から議事録を自動作成 / YouTube動画用にSRT字幕ファイルを生成 / ジャーナリストや研究者のインタビュー書き起こし / 講義・セミナーの内容をテキスト化して学習効率アップ / ポッドキャストのショーノートやVTT字幕の作成。日本語を含む99言語に対応し、言語は自動検出されます。

クラウド型サービスとの比較

多くの文字起こしツールは音声データを外部サーバーに送信するため、機密情報を含む会議録音や個人的なメモには使いにくい場合があります。Zerakuはすべての処理がブラウザ内で完結するため、データが手元を離れることなく安心して利用できます。

ZerakuサービスAサービスB
完全無料月3回まで10分まで
プライバシー(データ送信なし)ブラウザ完結サーバー送信サーバー送信
アカウント登録不要必須必須
オフライン利用(2回目以降)キャッシュ済み常時接続必要常時接続必要
対応言語数99言語自動検出58言語100言語+有料プランのみ
SRT/VTT字幕エクスポート無料有料プランのみ有料プランのみ
話者分離ベータ版有料プランのみ有料プランのみ
ファイルサイズ上限500MB25MB無料プラン100MB無料プラン

初心者向け解説

音声文字起こしとは、音声や動画の話し言葉を自動でテキストに変換する機能です。会議録音の議事録作成、動画への字幕追加、インタビューの書き起こし、授業の要点まとめに役立ちます。使い方はシンプルです。音声ファイル(MP3・WAV・M4A・FLAC)をアップロードし、言語を選択してスタートを押すだけ。テキストファイル(.txt)またはYouTubeに直接アップロードできる字幕ファイル(.srt)としてダウンロードできます。専門知識は一切不要です。

技術仕様

EmscriptenでWebAssemblyにコンパイルされたwhisper.cppを採用し、専用Web Worker内で動作するためUIの応答性を維持します。音声デコードにはWeb Audio APIを使用し、入力ファイルはソース形式に関わらず処理前に16kHzモノラルPCMに正規化されます。長い録音は1秒のオーバーラップを持つ30秒スライディングウィンドウに自動分割され、境界を越えてもシームレスな出力を保証します。Whisper Smallモデル(約150MB)は初回使用時に一度だけ取得され、ブラウザのCache APIに保存されるため2回目以降は完全なオフライン動作が可能です。話者分離(ベータ版)は音声エンベディングに軽量スペクトルクラスタリングアルゴリズムを適用して話者の交代をラベリングします。出力はプレーンテキスト(.txt)またはミリ秒精度のタイムスタンプ付きSubRip(.srt)で取得できます。

よくある質問

関連ツール

音声文字起こしを試してみませんか?

音声文字起こしを開く — 無料