name: audio-transcribe description: "Whisper CLIで音声ファイルを文字起こし。MP3/WAV/M4Aなどに対応。「音声文字起こし」「whisper」「transcribe」などの作業に使う。"

audio-transcribe

Whisper CLIで音声ファイルを文字起こしするスキル。MP3/WAV/M4Aなどに対応。

which whisper
# /opt/homebrew/bin/whisper

未インストールの場合:

pip install openai-whisper

whisper audio.mp3

whisper audio.mp3 --model base --language ja

whisper audio.mp3 --model base --language ja --output_format txt

whisper audio.mp3 --model base --language ja --output_format srt

推奨: base または small（日本語ならbaseで十分）

生成したTTS音声が正しく読み上げられているか確認:

whisper narration.mp3 --model base --language ja --output_format txt
cat narration.txt

初回実行時のモデルダウンロード待ち: 初回は指定モデルの自動ダウンロードが走るため、数分〜十数分かかる。タイムアウト設定に注意
GPU なし環境での警告: CPU のみの環境（Apple Silicon 含む）では FP16 関連の警告が出るが、動作自体は正常。無視してよい
漢字の変換ミスを Whisper のバグと勘違いする: 音声認識の精度限界であり、特に固有名詞や専門用語は誤変換されやすい。出力後のテキスト確認・修正は必須
large モデルを安易に選ぶ: Apple Silicon 16GB 環境で large モデルを使うと 1 枚あたり 5 分以上かかることがある。日本語なら base で十分な精度が出る