ブログ
stenobotをリリースしました

AMラジオの音声を Macに入力して文字起こしするツール、名付けてstenobotを作りました。
AMラジオ(電波の種類問わずだが)を Mac mini で連続録音し、文字起こし → AI校正 → AI要約 → メール通知まで自動化します。
ffmpegで録音した音声を whisper.cpp で文字起こしし、Claude(Haiku) で校正、Gemini 3.5 Flash(Google検索グラウンディング) で要約して、番組名・概要・話題をまとめたメールを送ります。録音・文字起こしデータは NAS に保管します。
普段はNHKAMラジオを聴いています。公式の聴き逃し配信もありますが、全てを聴き直すほどの時間は無いので、stenobotを作って、ラジオの聴き方を変えました。
ラジオを聴かなくても、どこにいても番組でどのような話題に触れられていたかを把握して、興味があるものを後で文字起こしで詳細を確認したり、録音音声を聴いたり、といった使い方をしています。
データとして残ることから、番組の振り返りをAIを使いながらできるようになります。
例えば、概要として以下のような内容がメールで届きます。
話題2名: コーナー「みやこの知りたい!ことばのあれこれ」
話題2時刻: 11:04
話題2詳細: NHK放送文化研究所の野田真理子研究員がゲストとして登場し、日常の言葉遣いについて解説した。「おぼつかない」や「ぎこちない」などの形容詞を丁寧語にする際のコツに加え、言葉のニュアンスに変化を与える「い抜き言葉」の使い分けについて語られた。
これについて、どのような話が展開されたのか知りたかったので、メールに添付されたAI校正ファイルをダウンロードして、AIに添付して、このコーナーのことについて聞きます。

これによって、放送内容の理解を深めることができます。録音データがあるので、音声でないとわからないニュアンスを確認することもできます。
Githubにstenobotのソースとドキュメントを公開しました。
これを自由に改変・再公開しても構いません。しかし、これによる損害・不利益に対する保証はしません。自己責任でお願いします。
また、利用は個人の範囲内にとどめてください。録音データの公開や、stenobotをベースにした一般公開のサービス化はやめてください。
使用した機器
ラジオはUSBから電源を供給できるものを選びました。このラジオはバッテリーを内蔵しています。さらに、単3乾電池2本でも稼働します。災害時に役立ちそうです。
しかし、AC電源からアダプタ経由でつなぐ場合、アダプタからのノイズ(ブーという大きい音)が音声に乗ってしまうので、ノイズフィルターをかませています。音声入力はUSB接続のものを使っています。
機器構成とポイント
Githubに詳細はまとめました。試行錯誤した経緯も書いてあります。
AMラジオの録音はノイズをいかに減らすかが重要なポイントです。これは文字起こしの品質に影響します。
AIのAPIの選択
whisperで文字起こししたデータをAIで校正・要約していますが、校正はコストがかかるので、Claude Haikuを採用してコストを抑えています。要約でGemini flash 3.5を採用したのは、人物名や固有名などをGoogle検索を使ってなるべく確認することにより、概要をつかみやすくすることを目的としています。さらに要約の場合はコストはあまりかからないということもあります。
注意事項
本ソフトウェアは個人的な記録・研究用途を想定しています。録音物の保存・利用は、著作権法および各放送局の利用規約の範囲内で行ってください。録音物の再配布や公開は権利者の許諾が必要になる場合があります。
API キー・メール認証情報は config.sh および .anthropic_api_key / .gemini_api_key に保存され、.gitignore でコミット対象外にしています。これらを誤って公開しないよう注意してください。
動作は macOS 環境に依存します。他OSでは mount_smbfs・avfoundation・stat -f・date -r 等の差異により修正が必要です。



コメント (0件)
まだコメントはありません。最初のコメントを書いてみましょう!