高精度の文字起こしが優越なAIボイスレコーダー翻訳機 Summit覚書
久しぶりにクラウドファンディングに参加した製品が届けられた。それが「Summit」と名付けられた104言語対応の強力な音声文字変換機能を備え、会話をリアルタイムで翻訳し文字起こしまでしてくれるというAI 翻訳機&ボイスレコーダーである。
正規購入のユーザーとして入手タイミングは遅くは無かったが、メーカーが評価を依頼した方々のテスト動画などがすでにYoouTubeに上がっている。
それらをざっと拝見したが、重々予測は出来たものの評価は様々だ。
確かに本製品の目的は世界104ヶ国の言葉を翻訳する…できるという点にある。そして私見ながらその精度は正確なほど良いに決まっているものの、いくらAI 云々を謳ったとしても文字通りのパーフェクトは今のところ望むべくもない…。しかし結論めくがSummitの翻訳精度は後述する話者側の注意点をカバーできれば十分実用のレベルだと思う。


※Summitの裏表。背面には800万画素のカメラが搭載されている
さて、本機はまずスピーチをテキスト化し、それを翻訳してくれるわけだが、精度をより高く求めるならソースすなわちスピーチの精度にまずは注視しなければならない。
どういうことかというと、Summitは私が日本語で喋る…いわゆる話し言葉はほぼ問題なくテキスト化してくれる。そしてテキスト化の状態が間違いなければ翻訳もほぼ正確だ。

※翻訳もほぼリアルタイムでやってくれる
しかし同じ私が喋った話しをYouTubeにアップしたデータで試すと認識率が確実に落ちる。ノイズも含め再生の環境にも影響するだろうが、このことをまず記憶に留めたい。
それから翻訳精度の問題だが、同時翻訳にしてもスマートレーディングにしても10点満点で○点といった評価をよく見かけるが、AIテクノロジーがどうのという前に、生身の同時通訳専門家だって後から原語をきちんと精査すれば決して完璧ではないことを知るべきだ。それほど翻訳というものは本来難しいものだ…。
いや、だからこその機械翻訳だ…という声も聞こえそうだが、私にとっては Summit の精度があれば本当に有り難い!後は使い方次第だ。
そして現実の問題として日本語に限って申し上げても、そもそも話者の日本語が日本語の文法に則した正しい日本語であるかどうかが翻訳結果に大きく反映されることは当然だ。いくらAI搭載といってもだ。それは英語でもフランス語でも一緒で、曖昧なスピーチがより良く翻訳されることはない…。
事実日本語の会話には主語が省かれることも多いし、そもそも我々日常の会話はそうそう分かりやすいものではない。しかし人と相対した会話は同時に表情やボディランゲージにより言葉の意味だけでなくニュアンスを捉えているから通じやすいが、言葉だけの翻訳は一筋縄ではいかない。
余談ながら私の若かりし頃、はじめてパソコンによる日英翻訳システム(テキスト翻訳)が開発されたとして発表された製品は大層な価格だった。そしてその説明会があるというので興味本位で参加したことがある。
しかし思わず笑ってしまったのは、日本語の文章を当該システムで翻訳する前提として、まずその日本語が正しい日本語で解りやすいものになっているかの検証を求められた…。
さて、話しをSummmit に戻すが、Summmit 一番の魅力は文字起こしの機能があることだと思っているので以下はその機能について説明してみたい。
私はこの機能が欲しくてSummitを購入したようなものだが、メーカーはもっともっと本機の機能・能力を分かりやすく解説すべきである。というか、同梱の取説もWebページに載っているより詳しいという取説も本製品の可能性を使えるにはあまりにも不十分である。
これでは手に入れたはよいが埃を被る…ということになりかねない。

※「スマートレコーディング」によるボイスレコーダーのテキスト化テスト
ともあれこの文字起こしだが、機能により使い方がふたつに別れる。
ひとつは「講演の通訳」や「音声翻訳」で記録された会話はリアルタイムに指定言語に翻訳されテキスト化され、履歴として記録されるだけでなく、後でも喋った話しが録音されているので再生できる。こうしたテキスト化と共に音声による録音がなされるという強みは長時間のスピーチの記録とその文字起こしが可能な「スマートレコーディング」で特に活かされる。ちなみに「スマートレコーディング」はその名の通り指定した言語のボイスレコーダー機能であり翻訳の機能はない…。
こうしてテキスト化されたデータは Summit 内のみの活用だけでなくパソコンやスマホに転送できるため、編集はもとより二次活用ができるわけだが、基本機能として「講演の通訳」や「音声翻訳」による履歴はSummitの「設定」にある「翻訳履歴をエクスポートする」であらかじめ登録したメルアドへ転送される仕組みだ。

※「設定」の中に「翻訳履歴をエクスポートする」機能がある
対して「スマートレコーディング」で録音したデータは別途Notta という専用ウェブページにユーザー登録し所有のSummitと紐付けをしておく必要があるが、そうするとそのNottaページにSummitの履歴がテキスト化されて表示される。
そのテキストはその場で編集が可能だし、エキスポートもできる。そしてテキストの正確性を正すとき元の音声を確認したい場合が多々あるが、当該ページで音声も再生できる。したがって音声を何度も確認しながらテキストを精査していくことが可能なのだ。さらにこのNottoページそのものでも話し言葉の文字起こしが可能な点も強調しておきたい。

※Notta ページにテキスト化された一例。スピーチの確認やテキストの編集、エクスポートが可能【クリックで拡大】
ただしこの種の文字起こし機能を本格的に使おうとすると前記した基本機能では些か効率が悪く心許ない。で、文字起こし機能紹介の最後に裏技的なお話しをしておきたい。
これは私自身納得いかなかったことがありメーカーサポートに問い合わせて初めて分かったことだが、パソコンとSummitを同梱のType-C USBケーブルで繋げば前記した一連の「講演の通訳」や「音声翻訳」、「写真翻訳」、「スマートレーディング」で記録した音声データとテキストデータをすべてパソコンにコピーすることができるという話しだった。現時点で取説には一切その手の話しはなかったが…。
ともあれSummitはAndroidシステムなのでWindowsはともかくMacの場合、データをエクスポートするには、別途対応するソフトが必要となる。で、Mac用のアプリだが「Android File Transfer」というのがありそれをインストールすればケーブル一本でテキスト&音声がMacに転送可能になる。実際にやってみると非常に便利なので是非是非ご同輩、お試しあれ…。

※Android File Transferを使いSummit内の音声ならごにテキストデータをMacで読み込めるよう一覧にした例【クリックで拡大】
今回は主にSummitの文字起こし機能をご紹介したが、Summitは高機能だけでなく多機能…。その全容を容易には説明できないが、興味のある方はここをご参照いただきたい。
一例を挙げれば前記した「同時通訳」の場合、左右完全独立型のBluetoothワイヤレスイヤホンを装着すれば話者互いの耳に装着したひとつのイヤホンで相手言語の翻訳を聞くことも出来るし、印刷物や看板などの言語を附属のカメラで撮影して翻訳する機能もあり、日常のさまざまなシーンで活用可能に違いない。
またボディは4インチのカラー画面搭載でサイズも12 x 6.05 x 1.3 cm、そして重さも164 gと携帯しやすいしその作りも安っぽくなく好感が持てる。なお、文字起こしは1年間無料だが、1年以後は1ヶ月の利用料金は7.99ドルかかることも承知しておきたい。
Summitはこの種の製品としてはいささか高価な方だが、それだけの価値は十分にあると思うのだが…。
正規購入のユーザーとして入手タイミングは遅くは無かったが、メーカーが評価を依頼した方々のテスト動画などがすでにYoouTubeに上がっている。
それらをざっと拝見したが、重々予測は出来たものの評価は様々だ。
確かに本製品の目的は世界104ヶ国の言葉を翻訳する…できるという点にある。そして私見ながらその精度は正確なほど良いに決まっているものの、いくらAI 云々を謳ったとしても文字通りのパーフェクトは今のところ望むべくもない…。しかし結論めくがSummitの翻訳精度は後述する話者側の注意点をカバーできれば十分実用のレベルだと思う。


※Summitの裏表。背面には800万画素のカメラが搭載されている
さて、本機はまずスピーチをテキスト化し、それを翻訳してくれるわけだが、精度をより高く求めるならソースすなわちスピーチの精度にまずは注視しなければならない。
どういうことかというと、Summitは私が日本語で喋る…いわゆる話し言葉はほぼ問題なくテキスト化してくれる。そしてテキスト化の状態が間違いなければ翻訳もほぼ正確だ。

※翻訳もほぼリアルタイムでやってくれる
しかし同じ私が喋った話しをYouTubeにアップしたデータで試すと認識率が確実に落ちる。ノイズも含め再生の環境にも影響するだろうが、このことをまず記憶に留めたい。
それから翻訳精度の問題だが、同時翻訳にしてもスマートレーディングにしても10点満点で○点といった評価をよく見かけるが、AIテクノロジーがどうのという前に、生身の同時通訳専門家だって後から原語をきちんと精査すれば決して完璧ではないことを知るべきだ。それほど翻訳というものは本来難しいものだ…。
いや、だからこその機械翻訳だ…という声も聞こえそうだが、私にとっては Summit の精度があれば本当に有り難い!後は使い方次第だ。
そして現実の問題として日本語に限って申し上げても、そもそも話者の日本語が日本語の文法に則した正しい日本語であるかどうかが翻訳結果に大きく反映されることは当然だ。いくらAI搭載といってもだ。それは英語でもフランス語でも一緒で、曖昧なスピーチがより良く翻訳されることはない…。
事実日本語の会話には主語が省かれることも多いし、そもそも我々日常の会話はそうそう分かりやすいものではない。しかし人と相対した会話は同時に表情やボディランゲージにより言葉の意味だけでなくニュアンスを捉えているから通じやすいが、言葉だけの翻訳は一筋縄ではいかない。
余談ながら私の若かりし頃、はじめてパソコンによる日英翻訳システム(テキスト翻訳)が開発されたとして発表された製品は大層な価格だった。そしてその説明会があるというので興味本位で参加したことがある。
しかし思わず笑ってしまったのは、日本語の文章を当該システムで翻訳する前提として、まずその日本語が正しい日本語で解りやすいものになっているかの検証を求められた…。
さて、話しをSummmit に戻すが、Summmit 一番の魅力は文字起こしの機能があることだと思っているので以下はその機能について説明してみたい。
私はこの機能が欲しくてSummitを購入したようなものだが、メーカーはもっともっと本機の機能・能力を分かりやすく解説すべきである。というか、同梱の取説もWebページに載っているより詳しいという取説も本製品の可能性を使えるにはあまりにも不十分である。
これでは手に入れたはよいが埃を被る…ということになりかねない。

※「スマートレコーディング」によるボイスレコーダーのテキスト化テスト
ともあれこの文字起こしだが、機能により使い方がふたつに別れる。
ひとつは「講演の通訳」や「音声翻訳」で記録された会話はリアルタイムに指定言語に翻訳されテキスト化され、履歴として記録されるだけでなく、後でも喋った話しが録音されているので再生できる。こうしたテキスト化と共に音声による録音がなされるという強みは長時間のスピーチの記録とその文字起こしが可能な「スマートレコーディング」で特に活かされる。ちなみに「スマートレコーディング」はその名の通り指定した言語のボイスレコーダー機能であり翻訳の機能はない…。
こうしてテキスト化されたデータは Summit 内のみの活用だけでなくパソコンやスマホに転送できるため、編集はもとより二次活用ができるわけだが、基本機能として「講演の通訳」や「音声翻訳」による履歴はSummitの「設定」にある「翻訳履歴をエクスポートする」であらかじめ登録したメルアドへ転送される仕組みだ。

※「設定」の中に「翻訳履歴をエクスポートする」機能がある
対して「スマートレコーディング」で録音したデータは別途Notta という専用ウェブページにユーザー登録し所有のSummitと紐付けをしておく必要があるが、そうするとそのNottaページにSummitの履歴がテキスト化されて表示される。
そのテキストはその場で編集が可能だし、エキスポートもできる。そしてテキストの正確性を正すとき元の音声を確認したい場合が多々あるが、当該ページで音声も再生できる。したがって音声を何度も確認しながらテキストを精査していくことが可能なのだ。さらにこのNottoページそのものでも話し言葉の文字起こしが可能な点も強調しておきたい。

※Notta ページにテキスト化された一例。スピーチの確認やテキストの編集、エクスポートが可能【クリックで拡大】
ただしこの種の文字起こし機能を本格的に使おうとすると前記した基本機能では些か効率が悪く心許ない。で、文字起こし機能紹介の最後に裏技的なお話しをしておきたい。
これは私自身納得いかなかったことがありメーカーサポートに問い合わせて初めて分かったことだが、パソコンとSummitを同梱のType-C USBケーブルで繋げば前記した一連の「講演の通訳」や「音声翻訳」、「写真翻訳」、「スマートレーディング」で記録した音声データとテキストデータをすべてパソコンにコピーすることができるという話しだった。現時点で取説には一切その手の話しはなかったが…。
ともあれSummitはAndroidシステムなのでWindowsはともかくMacの場合、データをエクスポートするには、別途対応するソフトが必要となる。で、Mac用のアプリだが「Android File Transfer」というのがありそれをインストールすればケーブル一本でテキスト&音声がMacに転送可能になる。実際にやってみると非常に便利なので是非是非ご同輩、お試しあれ…。

※Android File Transferを使いSummit内の音声ならごにテキストデータをMacで読み込めるよう一覧にした例【クリックで拡大】
今回は主にSummitの文字起こし機能をご紹介したが、Summitは高機能だけでなく多機能…。その全容を容易には説明できないが、興味のある方はここをご参照いただきたい。
一例を挙げれば前記した「同時通訳」の場合、左右完全独立型のBluetoothワイヤレスイヤホンを装着すれば話者互いの耳に装着したひとつのイヤホンで相手言語の翻訳を聞くことも出来るし、印刷物や看板などの言語を附属のカメラで撮影して翻訳する機能もあり、日常のさまざまなシーンで活用可能に違いない。
またボディは4インチのカラー画面搭載でサイズも12 x 6.05 x 1.3 cm、そして重さも164 gと携帯しやすいしその作りも安っぽくなく好感が持てる。なお、文字起こしは1年間無料だが、1年以後は1ヶ月の利用料金は7.99ドルかかることも承知しておきたい。
Summitはこの種の製品としてはいささか高価な方だが、それだけの価値は十分にあると思うのだが…。
- 関連記事
-
- 5段階の温度設定を備えたカップウォーマーレポート (2021/04/28)
- スティーブ・ジョブズが見届けた最後のiPhoneがアートフレームに! (2021/02/25)
- Iwatani カセットガス ストーブ マイ暖 ホワイト(CB-STV-MYD)レポート (2021/01/19)
- 4K 60fps ウェアラブルビデオカメラ「Ordro EP7」特筆すべき点とは? (2021/01/05)
- 4K 60fps ウェアラブルビデオカメラ「Ordro EP7」ファーストインプレッション (2020/12/15)
- 高精度の文字起こしが優越なAIボイスレコーダー翻訳機 Summit覚書 (2020/12/08)
- 電子レンジのような紫外線消毒器「UVクリーンシステム」レポート (2020/11/11)
- 電熱ネックウォーマー「GRAPHENE Heating Neck Protector」レポート (2020/11/04)
- 8種類の環境音をミックスしリラックス空間を演出できる「Tranquility Sound Machine」とは (2020/10/07)
- フィラメント防湿ボックス「PolyBox」Edition II ファーストインプレッション (2020/09/09)
- サンコーテクノ 黒球式熱中症指数計ファーストインプレッション (2020/08/17)