文字起こしさん

音声・動画・画像・PDFをAIで自動文字起こし。毎日10分無料、約100言語対応

4.0
/ 5.0
公式サイトを見る

料金モデル

フリーミアム

日本語対応

完全対応

開発元

株式会社さん (JP)

プラットフォーム

Webアプリ

評価スコア

総合評価
4.0
使いやすさ
4.5
機能の充実度
3.8
コストパフォーマンス
4.3
サポート
3.5

💡 文字起こしさんとは

文字起こしさんは、株式会社さん(san, Inc.)が開発・運営する日本発のAI文字起こしサービスです。2020年にサービスを開始し、2022年8月に個人事業「comomo」から株式会社さんとして法人化されました。本社は和歌山県日高郡に所在し、代表取締役は寺本みずほ氏が務めています。

サービスの根幹は「ファイルをアップロードするだけで文字起こしが完了する」というシンプルさにあります。音声・動画・画像・PDFの4種類のメディアに対応しており、ドラッグ&ドロップの直感的な操作でAIによる自動文字起こしを実行できます。ソフトウェアのインストールは一切不要で、ブラウザさえあればPC・スマートフォン・タブレットのいずれからでも利用可能です。

独自の音声認識エンジン「PerfectVoice」を搭載しており、日本語をはじめ約100言語の文字起こしに対応しています。1時間の音声データでも約5〜10分程度で処理が完了する高速性も大きな魅力です。無料会員登録だけで毎日10分の文字起こしを利用でき、有料プランも月額1,100円(税込)からと比較的手頃な価格設定となっています。

文字起こしさんは同社が運営するもう一つのサービス「音読さん」(テキスト読み上げサービス)と対をなす存在で、音声とテキストの相互変換をカバーする形でサービス展開されています。サービス開始以来、個人ユーザーから中小企業まで幅広い層に利用されており、国産AIサービスとして着実にユーザーベースを拡大しています。

⚙️ 主要機能の詳細

主要機能の詳細

文字起こしさんは、単なる音声のテキスト化にとどまらない多彩な機能を備えています。

音声認識エンジン「PerfectVoice」

文字起こしさんの中核を担う音声認識エンジンです。以前は日本語に特化した「AmiVoice」エンジンも選択可能でしたが、2024年12月31日をもってAmiVoiceの提供は終了し、現在はPerfectVoiceに一本化されています。PerfectVoiceは約100言語に対応し、言語が混在した音声であっても自動検出して文字起こしを行えます。文章単位での字幕ファイル生成にも対応しており、自然な区切りで字幕を作成できる点が特徴です。公式サイトでは「ヒトに引けを取らない抜群の音声認識精度」と紹介されており、ディープラーニングベースの最新技術を活用した高精度な認識を実現しています。

対応ファイル形式(20種類以上)

音声ファイルはMP3、WAV、WMA、M4A、FLAC、AAC、AIFFに対応しています。動画ファイルはMP4、MOV、AVI、FLV、MKV、WEBM、WMV、3GPをサポートしています。画像ファイルはJPG、JPEG、PNG、WEBPに対応し、OCR技術でテキストを読み取ります。PDFファイルの読み取りにも対応しています。音声・動画ファイルは1GB未満、画像は10MB未満、PDFは50MB未満のサイズ制限があります。この幅広いファイル形式対応により、手元のファイルを変換する手間なくそのまま文字起こしに利用できます。

SRT/VTT字幕ファイル出力

文字起こし結果をSRT形式やVTT形式の字幕ファイルとしてダウンロードできます。YouTube動画への字幕追加や、動画編集ソフトでの字幕挿入に直接利用可能です。PerfectVoiceエンジンでは文章単位での字幕分割が行われるため、意味のまとまりに沿った自然な字幕を生成できます。YouTube Studio、Adobe Premiere Pro、DaVinci Resolveなど主要な動画編集ツールとの互換性があります。

AI要約機能

文字起こしされたテキストをAIが自動的に要約する機能を搭載しています。追加費用なしで利用でき、長時間の会議音声や講演録音から重要なポイントを素早く把握したい場合に便利です。要約結果から議事録形式でのまとめも可能で、文字起こしから要約までをワンストップで完結できます。

辞書登録(置換辞書)機能

特定の単語やフレーズの認識精度を向上させるための辞書登録機能があります。医療用語、IT用語、法律用語、企業固有の専門用語など、一般的な辞書では認識されにくい語彙をあらかじめ登録しておくことで、文字起こしの正確性を高められます。繰り返し利用するほど辞書が充実し、精度が向上していくため、継続利用のメリットが大きい機能です。

タイムコード表示と音声同期再生

文字起こし結果にはタイムコードが付与され、テキストの特定箇所をクリックすると該当部分の音声を再生できます。文字起こし結果を確認しながら原音を聴き直す作業が効率化されます。テキストと音声を同時に確認できるため、誤認識箇所の特定と修正がスムーズに行えます。

テキスト検索機能

過去の文字起こし結果をテキスト内容で検索する機能があります。大量の音声ファイルの中から特定の発言やキーワードを含む箇所を素早く見つけ出せるため、データの管理・参照がスムーズになります。ジャーナリストや研究者など、大量のインタビュー音声を扱う方には特に有用です。

翻訳機能

文字起こし結果を他の言語に翻訳する機能も搭載しています。字幕ファイルをAI翻訳して外国語字幕を作成するといった活用も可能です。多言語コンテンツの制作や、外国語音声の理解支援に役立ちます。

💰 料金プラン

料金プラン

文字起こしさんは、無料から始められる4段階の料金体系を用意しています。有料プランは2022年9月の法人化に伴い消費税10%が加算された現在の価格になっています。

非会員(無料・登録不要)

会員登録なしでも利用できるお試し枠です。音声は合計3分まで、画像は3枚までの文字起こしが可能です。サービスの品質を確認するためのトライアルとして位置づけられています。クレジットカードの登録も一切不要なため、完全にリスクフリーでサービスを体験できます。

無料会員(0円/月)

メールアドレスで無料会員登録すると、毎日10分の音声文字起こしと毎日10枚の画像文字起こしが利用できます。1ファイルあたりの上限は3分です。毎日リセットされるため、短い音声を継続的に文字起こしする用途であれば無料のままでも十分に活用できます。データの保存期間は30日間です。

ベーシックプラン(月額1,100円・税込)

月間24時間の音声文字起こしと1,000枚の画像文字起こしが可能です。1ファイルあたり最大90分の音声に対応します。年間契約では11,000円(税込)で月額換算約917円となり、約17%お得です。個人での定期的な利用に適したプランです。データはユーザーが手動で削除するまで保存されます。

バリュープラン(月額2,200円・税込)

月間60時間の音声文字起こしと2,500枚の画像文字起こしが可能です。1ファイルあたり最大3時間の音声に対応します。年間契約では22,000円(税込)で月額換算約1,833円です。定期的に長時間の録音を文字起こしする方や、小規模チームでの利用に向いています。

プレミアムプラン(月額3,300円・税込)

月間120時間の音声文字起こしと6,000枚の画像文字起こしが可能です。1ファイルあたり最大5時間の音声に対応します。年間契約では33,000円(税込)で月額換算約2,750円です。大量の文字起こしが必要なビジネスユースに最適なプランです。

すべてのプランでクレジットカード、デビットカード、Apple Pay、Google Payによる決済が可能です。すべての有料プランにおいて、AIエンジン側でのログ非保存(非学習)が保証されています。1時間あたりの単価で換算すると、プレミアムプランでは約25円/時間と非常にコストパフォーマンスの高い設定になっています。

🌏 日本語対応度

文字起こしさんは日本企業が開発・運営する国産サービスであり、日本語対応は非常に充実しています。

UIはすべて日本語で設計されており、ヘルプ記事、FAQ、ブログ記事なども豊富な日本語コンテンツが用意されています。サービスのトップページから操作ガイド、料金説明に至るまで、英語に頼る必要は一切ありません。利用規約やプライバシーポリシーも日本語で提供されており、日本のユーザーが安心して利用できる環境が整っています。

文字起こしの品質面では、PerfectVoiceエンジンが日本語の音声認識において高い精度を発揮します。ユーザーレビューでは「精度の高さは90%以上(体感)で全くと言って良いほど修正の必要がなかった」という声があり、一般的なビジネス会話であれば十分実用的な精度を実現しています。辞書登録機能を活用すれば、医療、IT、介護などの専門分野特有の用語にも対応でき、認識精度をさらに向上させることができます。

サポート面では、公式ブログで日本語の使い方ガイドや活用テクニックが定期的に発信されており、FAQも充実しています。日本語での問い合わせにも対応しており、国産サービスならではのきめ細かいサポート体制が整っています。

約100言語に対応しているため、日本語以外の言語の文字起こしも可能です。言語が混在した音声の自動検出にも対応していますが、日本語に最適化されたサービスであるため、日本語の音声が最も安定した精度で処理される傾向にあります。

メリット・デメリット

メリット

圧倒的な手軽さが文字起こしさんの最大のメリットです。会員登録不要でも3分までの文字起こしを試すことができ、無料会員登録すれば毎日10分まで利用できます。クレジットカードの登録も不要で、サービス品質を十分に確認してから有料プランに移行できるため、導入のハードルが極めて低くなっています。

対応ファイル形式の豊富さも特筆すべき点です。音声・動画・画像・PDFの4カテゴリ、20種類以上のファイル形式をサポートしており、手元にある様々な形式のファイルをそのまま文字起こしに投入できます。ファイル変換の手間が不要な点は実務上大きな利点です。

コストパフォーマンスの高さも見逃せません。最も利用量の多いプレミアムプランでは1時間あたり約25円という低価格で文字起こしが可能です。競合サービスと比較しても最安水準の価格帯であり、大量の音声データを扱う場合でも費用を抑えられます。

インストール不要のブラウザ完結型サービスである点もメリットです。PC、スマートフォン、タブレットなどデバイスを問わず利用でき、社内のITポリシーでソフトウェアインストールが制限されている環境でも導入できます。

SRT/VTT字幕ファイルの出力機能により、動画制作ワークフローとの親和性が高い点も魅力です。YouTubeへの字幕追加や動画編集ソフトでの利用がスムーズに行えます。

画像やPDFのOCR文字起こしにも対応している点は、音声特化の競合サービスにはない独自の強みです。紙の書類をスキャンした画像や、テキスト抽出が必要なPDFドキュメントの処理にも活用できます。

デメリット

リアルタイムの文字起こしに対応していない点は大きなデメリットです。会議中にリアルタイムで文字起こしを行うことはできず、録音した音声ファイルをアップロードして処理する方式のみとなります。ZoomやTeamsとの連携機能もないため、オンライン会議の議事録作成をリアルタイムで行いたい場合は他のツールを検討する必要があります。

話者分離機能が利用できなくなった点も課題です。以前はAmiVoiceエンジンによる話者分離が可能でしたが、2024年12月末にAmiVoiceの提供が終了したため、複数人の会話で「誰が何を発言したか」を自動的に区別することができなくなりました。会議の議事録作成においては不便な場面があります。

フィラー(「えー」「あの」「うーん」など)がそのまま文字起こしされる点も改善の余地があります。自動的にフィラーを除去する機能がないため、読みやすい議事録に仕上げるには手動での編集が必要です。

句読点の自動挿入が不完全な場合があるという指摘もユーザーレビューで見られます。改行や句読点が適切に入らないケースがあり、長文の文字起こしでは後編集の手間が増える可能性があります。

セキュリティ認証(ISO27001やプライバシーマーク)を取得していない点は、企業のセキュリティポリシーが厳格な場合にハードルとなる可能性があります。SSL/TLS暗号化やAIエンジン側のログ非保存といった基本的な対策は講じていますが、第三者認証の取得には至っていません。

🎯 向いている人・向いていない人

向いている人

手軽に音声や動画の文字起こしを行いたい個人ユーザーに最も適しています。インタビューの書き起こし、YouTube動画の字幕作成、講義や勉強会の記録、ポッドキャストのテキスト化など、個人レベルでの文字起こしニーズに対して、低コストかつ簡単に対応できます。

フリーランスのライター、編集者、映像クリエイターにも向いています。取材音声のテキスト化、動画コンテンツへの字幕追加、多言語字幕の作成など、コンテンツ制作に関わる文字起こし作業を効率化できます。SRT/VTT形式での字幕出力は動画編集ワークフローに直接組み込める利便性があります。

コストを抑えて文字起こしを行いたい小規模事業者にも適しています。月額1,100円から始められ、プレミアムプランでも月額3,300円と手頃な価格帯のため、専門の文字起こし業者に外注するよりも大幅にコストを削減できます。

多言語対応が必要な方にとっても有力な選択肢です。約100言語に対応しており、外国語の音声データや多言語が混在するコンテンツの文字起こしにも活用できます。

画像やPDFの文字起こしが必要な方にも適しています。名刺、領収書、紙の書類、スキャンしたドキュメントなど、画像やPDFからテキストを抽出したい場面で音声文字起こしと同じプラットフォーム上で処理できる利便性があります。

向いていない人

リアルタイムの議事録作成が必要なビジネスユーザーには向いていません。ZoomやTeamsなどのWeb会議ツールとの連携機能がなく、会議中にリアルタイムで文字起こしを行うことはできません。リアルタイム議事録が必要な場合は、Notta、Rimo Voice、torunoなどの専用ツールを検討してください。

話者の識別が必須の多人数会議の議事録用途には適していません。AmiVoiceの終了に伴い話者分離機能が利用できなくなったため、「誰が何を言ったか」を自動的に記録したい場合は他のサービスが適切です。

エンタープライズレベルのセキュリティ要件がある組織には不向きです。ISO27001やプライバシーマークなどの第三者認証がなく、SSO対応やIP制限などのエンタープライズ向けセキュリティ機能も提供されていません。機密性の高い情報を扱う大企業では、セキュリティ基準を満たさない可能性があります。

大規模チームでの共同利用を想定している場合も適していません。チーム管理機能やアカウントの一元管理、共有フォルダなどの協業機能がないため、組織全体での導入には向いていません。

🚀 始め方・活用のコツ

始め方

文字起こしさんの利用開始は非常にシンプルです。まず公式サイト(https://mojiokoshi3.com/ja/)にアクセスします。会員登録なしでも3分までの文字起こしを試せるため、まずはトップページに表示されるアップロードエリアにファイルをドラッグ&ドロップしてみましょう。

本格的に利用する場合は、無料会員登録を行います。メールアドレスだけで登録でき、毎日10分の文字起こしが可能になります。操作手順は3ステップです。(1)ファイルをドラッグ&ドロップまたは「選択」ボタンでアップロード、(2)文字起こしする言語をプルダウンメニューから選択して「文字起こし」ボタンを押下、(3)処理完了後にテキストを確認・編集・ダウンロード。60分の音声データで約5分程度の処理時間が目安です。

有料プランへの移行は、利用頻度に応じて検討してください。月に数時間以上の文字起こしが必要になった場合は、ベーシックプラン(月額1,100円)から始めるのがおすすめです。年間契約を選択すると約17%の割引が適用されます。決済はクレジットカード、デビットカード、Apple Pay、Google Payに対応しているため、手軽に契約できます。

二段階認証の設定も忘れずに行いましょう。アカウントのセキュリティを強化するために、文字起こしさんでは二段階認証の設定が可能です。特に有料プランを利用する場合は、設定を推奨します。

活用のコツ

辞書登録機能を積極的に活用しましょう。業界特有の専門用語、社内用語、人名、商品名など、AIが誤認識しやすい語彙をあらかじめ登録しておくことで、文字起こし精度が大幅に向上します。初回の文字起こし結果で誤認識が多かった単語を洗い出し、順次辞書に追加していくのが効率的です。

音声品質が文字起こし精度に直結するため、録音環境にも気を配りましょう。周囲の雑音が少ない環境で録音する、マイクと話者の距離を適切に保つ、複数人の会話では指向性マイクを使用するなどの工夫で、認識精度を向上させることができます。

字幕作成の用途では、SRT/VTT出力機能を活用してください。文字起こし結果をそのまま字幕ファイルとしてダウンロードし、YouTube Studioやプレミアプロなどの動画編集ツールにインポートできます。PerfectVoiceエンジンは文章単位で字幕を分割するため、自然な読みやすさの字幕が生成されます。

AI要約機能を組み合わせることで、長時間の音声から効率的に情報を抽出できます。まず全文の文字起こしを行い、次にAI要約で要点を抽出するという二段階の活用がおすすめです。会議の録音をそのまま投入し、要約で議事録のドラフトを作成するワークフローが実用的です。

テキスト検索機能を使えば、過去にアップロードした音声ファイルの中から特定のキーワードを含む箇所を素早く見つけ出せます。大量の録音データを管理する場合に特に有効です。

画像OCR機能を活用すれば、名刺のデータ化や紙の書類のデジタル化にも文字起こしさんを活用できます。出先でスマートフォンから撮影した画像をそのままアップロードして、テキストを抽出することが可能です。

📊 総合評価

文字起こしさんは、「シンプルさ」と「コストパフォーマンス」に特化したAI文字起こしサービスです。ファイルをアップロードするだけという簡便な操作性、登録不要で試せる低い導入ハードル、20種類以上のファイル形式対応、約100言語サポートなど、個人や小規模事業者が手軽に文字起こしを始めるための条件が揃っています。

料金面では、無料枠の毎日10分から月額3,300円のプレミアムプランまで、利用量に応じた細かな段階設定がなされており、無駄な出費を抑えながら必要な分だけ利用できるのが強みです。1時間あたり約25円という単価は業界内でも最も手頃な部類に入ります。

一方で、リアルタイム文字起こし非対応、話者分離機能の廃止、Web会議ツールとの連携機能がないなど、ビジネスの議事録作成ツールとしては機能面で物足りなさがあります。セキュリティ認証の未取得もエンタープライズ利用のハードルとなります。

競合サービスとの比較では、Notta(リアルタイム対応・Web会議連携)、Rimo Voice(日本語特化・話者分離・セキュリティ認証あり)、toruno(録画対応・ブックマーク機能)などが会議議事録の領域では一歩先を行っています。一方で、文字起こしさんは音声だけでなく画像・PDF対応、字幕ファイル出力、約100言語対応、圧倒的な低価格といった独自の強みを持っており、用途によっては他のツールでは代替しにくい価値を提供しています。

総合すると、文字起こしさんは「録音済み音声の文字起こし」「動画字幕の作成」「画像・PDFのテキスト化」「多言語音声の処理」といった用途で、個人〜小規模チームが手軽かつ低コストに活用するのに最適なサービスです。リアルタイム議事録や大企業向けの高度な機能を求める場合は、Rimo VoiceやNottaなどの専門ツールとの併用を検討するのが良いでしょう。

関連ツール

🤖

Sparkpedia

あなたに最適なAIツールを提案

こんにちは!Sparkpediaです。どんなAIツールをお探しですか?用途や目的を教えてください。