日々の開発で AI と壁打ちしながら考えを詰めていく時間が、いつの間にか普通の作業工程になっています。そんな中でぱっと浮かんだイメージを形にするには、キーボードを叩くよりも口に出してしゃべった方が明らかに早く効率的な場面が少なくありません。
そこで手元だけで完結する日本語音声入力ツールが欲しくなり色々探したのですが、Windows でそれをやろうとすると、クラウド系のSaaSが多く、ローカルで高精度に音声認識が可能で個人の音声入力に特化したものとなるとほとんど見当たりません。結局「無いなら作れ」のエンジニアの鉄則に従い、音声認識→文字入力だけに絞り込んだ、完全ローカル動作のシンプルなデスクトップアプリを作りました。
名称は Kotoba-Jot、日本語特化の音声認識モデル kotoba-whisper-v2.0 を組み込み、Windows を主眼に据えつつ、同じ発想で macOS (Apple シリコン / Intel) にも対応させています。対話 UI や AI アシスタント的な機能は一切なし、「話す → 入力フォーカスに文字が流し込まれる」という一点に振り切ったアプリです。GitHub Releases から v0.1.6 を無料で取得できます。

使い方は単純で、トレイに常駐させた状態で任意のアプリのテキスト入力ボックスをクリック、設定したホットキー(既定は Ctrl+Alt)を押している間に話し、離すと文字起こし結果がそのカーソル位置に差し込まれます。ブラウザの検索窓、Slack の投稿欄、Word の本文、ターミナルの入力行など、送り先を選ばず同じ操作で注入できます。
機能面のポイントを並べます。
1. 完全ローカル処理: モデルも推論もすべて PC 内で完結し、音声データもテキストもインターネットに晒さない。
2. 日本語特化モデル: 日本語発話を学習した kotoba-whisper-v2.0 を使っているので固有名詞や口語の取りこぼしが少なめ。社内用語や読み替えが必要な単語は、後処理の辞書機能に登録すれば自動で置換。
3. グローバルホットキー + テキスト注入: どのアプリが前面にあっても同じキー操作で呼び出せ、結果はフォーカスされた入力ボックスに直接挿入。ホットキーは設定画面から自由に組み替え可能。
4. 無音区切りの逐次出力: 長い発話も2秒の無音を区切りに逐次出力。
5. マルチディスプレイ対応のオーバーレイ: 録音中の状態は、入力フォーカスのあるモニターの隅に小さく表示。
6. 発言履歴・自動起動・自動更新: 直近 100 件の発言履歴はいつでも呼び戻せ、OS 起動時に黙って立ち上がり、使わないときはトレイに控えます。新バージョンは起動時に自動更新。
並べてみるとそれなりの機能数に見えますが、いずれも「喋ってテキストを流し込む」という主目的を補助するための最小限です。チャット機能も、AI との対話機能も、文書編集機能も、あえて載せていません。音声入力が必要な瞬間にだけ起動していることを忘れさせる、常駐型の単機能ツールとしての立ち位置を維持しています。
今回の v0.1.6 では、macOS 側の推論エンジンを Metal 対応の whisper-rs に刷新し、配布用 DMG のサイズを従来比でおおむね 10 分の 1 まで絞り込みました。Windows 側は CTranslate2 + CUDA 構成で、対応 GPU があれば自動で GPU 推論、なければ CPU にフォールバックします。
技術スタックは Tauri v2 + Rust をバックエンドに、フロントは素の HTML/JS です。ホットキー監視とテキスト注入は OS ごとの作法が強く出る領域のため、Windows では GetAsyncKeyState ポーリングとフォーカス先アプリに応じた貼り付け方の切り替え、macOS では CGEventTap と Accessibility 権限経由の Cmd+V 注入、というようにプラットフォーム別のモジュールで実装を分けています。
ダウンロードは v0.1.6 の Releases ページ から、Windows 用 NSIS インストーラーと macOS (Apple シリコン / Intel) 用 DMG を配布しています。初回起動時にモデル本体(約 1.5GB)を自動で取得し、以降はオフラインで動作します。
AI との対話やブレインストーミング、チャットや長文メールの下書き、コードコメントの書き出しなど、外に出したくないけど音声入力したいシーンに思い当たる方は一度お試しいただき、使い勝手の感触を教えていただけるとうれしいです。不具合報告や要望は GitHub の Issues にお寄せいただければありがたいです。
カスタマイズのご相談、別途の音声認識アプリ開発のご依頼も承っておりますので、お気軽にどうぞ。
