自分の音声をAIによって合成し、テキストを読み上げさせるなどのボイスクローニングを利用すると、わざわざ収録することなくアフレコを入れられるなど、コストを大幅に減少させて、動画などを作ることができます。
では、どのようにすれば上手にボイスクローニングを行うことが出来るのでしょうか?この記事では、無料で自分の声を合成できるオススメのソフト、そして上手な音声合成の行い方と注意点を紹介します。
目次
-
無料で利用できる自分の音声を合成するソフトやツール
- 自分の音声を合成する方法【Filmora利用】
- 自分の声を合成した音声の活用例
- 自分の声を上手に合成するコツ
- 自分の声を合成する上での注意点
- 音声を合成する上でのFAQ
1.無料で利用できる自分の音声を合成するソフトやツール
自分の声を合成して、文章を読み上げさせる技術はボイスクローニングといいます。
ボイスクローニングを使ってみたいけれど、最初からお金を払うのはためらわれますよね。ここでは、基本無料で利用できる音声合成アプリを3つ紹介します。
1-1. Filmora
Filmoraは初心者でも手軽にプロのような動画編集ができる、高機能な動画編集ソフトです。使いやすいUIと豊富な機能やエフェクトで、思い通りの動画編集が可能なソフトです。
FilmoraにはAIクローン機能が内蔵されており、収録した音声をそのままクローニングした音声に加工することができます。加工した音声はそのまま動画として書き出すことができるため、手軽に動画にボイスクローニングを取り込むことができます。
価格もとても安く、永続ライセンスが8,980円で購入できます。動画制作にボイスクローニングをとり入れたい人におすすめのソフトです。
1-2.VoxBox
VoxBoxはテキストを読み上げてくれるソフトで、ボイスクローニングの他にも多様な機能を持っています。人の声が入ったデータを学習させることで、様々なテキストをクローニングによって読み上げることが可能になります。また、学習させなくても様々な音声モデルが用意されており、手軽にテキスト読み上げをさせることができるのです。
デメリットは無料では機能に制限があるということ。読み上げられる文字数は2,000文字 までしかできませんし、作成したクローンは保存できず、閉じると再度作り直さなければいけません。
有料では不自由さはほとんど感じませんが、価格も高め。ライセンス買い切りプランは27,980円と少し覚悟がいる価格で、月額も3,280円からと高品質動画編集ソフトを利用できる価格です。
1-3.Murf.AI
より作業を効率化したいというならMurf.AIを利用するのも良いでしょう。ボイスクローニングやテキスト読み上げ、豊富な音声モデルが準備されている点はVoxBoxと同じですが、CanvaやGoogleスライドなどと連携して使えるため、ボイスクローニングやテキスト読み上げなどシームレスに行うことが可能です。
たとえば、スライドのプレゼンテーション動画を作ろうとするときに、ストレスなくクローニングした音声を加えることができます。もちろん日本語にも対応しています。
デメリットは英語サイトしか用意されていない点で、翻訳ソフトなどを使いながら使い方を探っていかなければいけない点や、10分までしか読み上げを生成することが出来ないこと。また商用利用も不可となっています。
様々なビジネスツールにボイスクローニングを取り込んでいきたいという人はMurf.AIを選ぶとよいでしょう。
Filmora | VoxBox | Murf.AI | |
無料版メリット | ・クローニングした音声をシームレスに動画に加えることが可能。 ・AIで文字起こしした内容をクローニング音声に読み上げさせることが可能 |
手軽にクローニング可能で、PDF・画像など様々なデータからテキストを読み上げることができる | ・CanvaやGoogleスライドとのシームレスな連携 ・充実した基本機能 |
無料版デメリット | 無料版では書き出した動画にウォーターマークが追加される | ・やや高額 ・読み上げられる文字数や分数に制限がある。 |
・英語しか用意されていない ・10分までしか生成できない ・無料では商用利用不可 |
動作環境 | Windows/Mac | Windows/Mac | ブラウザ |
有料版価格 | 8,980円(買い切り) | 27,800円(買い切り) | 23$/月〜 |
音声合成のメリット&デメリット
メリット
自分の声を複製して様々なテキストを読み上げられる
動画制作などを行うとアフレコを行う場面も出てきますが、話している途中に噛んでしまったり、言葉を間違えてしまうなどの失敗をしてしまうのが悩みどころです。
しかし、自分の声をクローニングしておけば、台本を用意し入力するだけで自分の声で台本を読み上げて、アフレコをしているかのように読み上げてくれます。
収録コストの削減
別人の声をクローニングしておくことで、自分一人でも複数人で会話するようなアフレコを追加することができます。あらかじめ会話をする台本を作っておき、この部分は自分のボイスクローン、この部分はもう一人のボイスクローンと指定すると、自分一人しかいなくても会話をしているようなアフレコをすることができるのです。
つまり、新たに人を用意しなくてもよくなり、金銭的・時間的なコストの削減につながります。
デメリット
質の低下
AIが元話者の声をクローニングする技術ですが、まだ完璧な再現は出来ていません。ちょっとした抑揚などで細かいニュアンスの伝え方までは、完璧にクリエイターの意図通りに再現出来ない可能性があります。
ですから、実際に読み上げさせると違和感を感じる部分がでてくるかもしれません。
感情の欠如
ボイスクローニングの声の出し方は良くも悪くも平坦です。ですから、感情を込めて話して欲しい場面でも平坦に読み上げてしまい、意図と違った伝わり方や違和感がある読み上げ方になってしまうことがあります。
ですから、感情を込める必要がない場面での読み上げなどにつかうとよいでしょう。
2.自分の音声を合成する方法【Filmora利用】
Filmoraのボイスクローニングを利用するにはテキストを入力後、コピーする人の音声を録音する必要があります。ここでは、詳しいチュートリアルを紹介します。
Step1読み上げたいテキストを入れたい時間に挿入する
Step2読み上げるテキストを選択し、テキスト読み上げをクリックした後、クローンを作成をクリックする
Step3マイクを選択し、録音ボタンをタップする
画面に表示されたテキストを音読してください。この手順を2回行います。
Step4音声合成開始
「Voice 1」を選んでから、画面右下にある「生成」ボタンを押してください。すると、AI音声合成技術によってテキストが音声化されます。
一度生成したAI音声モデルは、制限なく再利用が可能です。
3.自分の声を合成した音声の活用例
合成した自分の音声は具体的には、どのように活用されているのでしょうか?
ここでは実際に使われている、いくつかの例を紹介します。
3-1.文章読み上げ
最も一般的に使われるのが文章を読み上げるのに使うことです。動画編集をしていてアフレコや解説を入れたくなった場面や、ポッドキャスト収録で本人が話して収録せず、台本を読み上げさせて制作することも可能です。
3-2.音楽制作
楽曲の歌詞を自分の声を合成した音声に歌わせたり、楽曲の間に効果音的にボイスクローニングを利用するなどが可能です。以前から、制作した楽曲をバーチャルアイドルのような特定の音声に歌わせるという技術はありました。現在は自分や他人の声を合成して歌わせることが可能です。
3-3. 電話アンケート
電話で世論調査やアンケートをとる際に人間の声を合成して行われることがあります。登録されている電話番号をランダムにピックアップし自動で電話をかけ、相手が出たら合成された音声で順次アンケートをとっていきます。
以前は明らかに合成された音声だとわかるような音声でしたが、現在は自然な人間の声でアンケートが行われることがあります。
4. 自分の声を上手に合成するコツ
まだ少し不自然さがでるボイスクローニングですが、できるだけ上手に声を合成するためにはどうすればいいのでしょうか?
ここでは自分の声を上手に合成するコツについて紹介します。
4-1.静かな環境で録音する
AIに自分の声を学習させるためには、ノイズのない音声を利用することが大切です。そのため、ノイズが発生しない静かな環境で録音をするべきでしょう。
街頭で録音したような音声データの場合、他者の話し声や音楽、アナウンス、雑音などが混じり合ってしまい、それらも含めて学習してしまう可能性があります。
ですから、学習させる音声データは、自分の部屋や専用のスタジオなどでしゃべった物を利用すると、より上手に合成できるでしょう。
4-2.文章を短くする
クローニングした音声で実際に声を変えたり、テキストを読み上げさせたりする場合、できるだけ一文を短くするようにしましょう。
一文が長くなるほど処理が難しくなるため、合成で話している音声は違和感が大きくなりがちです。また、合成した音声Iの話し方は基本的に抑揚が少ないため、長文になるとアクセントなどや間合いのとり方などがおかしい感じになるかもしれません。
できるだけ一文一文を短く区切って、シンプルな話し方や文章にすると上手くいきやすいでしょう。
4-3.難しい漢字を使わない
テキストを読み上げさせる場合、難しい漢字を使わないように注意しましょう。間違った読み方をしてしまう可能性があります。
たとえば、「齷齪(あくせく)」という漢字は日常ではほとんど使われませんが、テキストで利用してしまう場合、「齷」の部分だけ、もう一つの読み方である「こせつく」と読んでしまい「こせつくせく」と読んでしまうかもしれません。
ですから、できるだけ難しい漢字を使わず平易な漢字でテキストを作ったり、ひらがなとカタカナだけでテキストを作成するとよいでしょう。
5.自分の声を合成する上での注意点
声を合成するボイスクローニングは新しい技術であるため、法律的な部分をしっかりとチェックする必要があります。特に、他人の勝手に声を使ったり、著作権・プライバシーについてしっかりと確認するようにしましょう。
5-1.他人の声を勝手に合成しない
勝手に他人の声を合成し、本人の意に沿わない作品に利用した場合、合成された本人とのトラブルになる可能性があります。
たとえば、本人が登場する映像で本人から合成された音声を被せることで、本人がしゃべっていない内容をしゃべっているような映像にすることができます。政治家の声がクローニングされ、フェイクニュースとしてSNSに広く拡散された例もあり、悪意のある利用が問題視されています。
他人の声をクローニングする場合、どのような使用用途なのかを明確にしつつ本人の許諾を得るようにしましょう。
5-2.制作物の著作権を確認する
書籍や楽曲の歌詞などを合成した音声で読み上げる場合も要注意。他人の著作権を侵害する可能性があります。
著作物とは「思想又は感情を創作的に表現したものであって、文芸、学術、美術又は音楽の範囲に属するものをいう。」(著作権法第2条第1項第1号)をさし、書籍や音楽の歌詞なども含まれます。
これらを制作をした著作者の許諾なく利用できる場面は、個人や家族内で利用する場合や、要件に当てはまる「引用」などの限定された条件のみです。
世界中の人が見ることができるYouTubeなどの動画共有サイトで、書籍や歌詞の一部を読み上げるような場合、他人の著作物を利用した場合は著作権の侵害になる可能性があるので、特に注意しましょう。
5-3.プライバシーの保護
音声を合成された人は、合成した音声を制作物に利用することには許諾を出してくれたとしても、それが誰の声なのか?の公開を避けたいという場合もあります。
ですから、公開を望まない人に対してトラブルを避けるために、制作物には合成された人を特定できるような個人情報を入れることを避けるような配慮が必要です。
6.音声を合成する上でのFAQ
実際に声を合成をするためには何が必要なのか?上手に合成するためには何が必要なのか?など実際に始めようとすると疑問に思うことも出てきますよね。
ここでは声を合成して利用する上で、よくある疑問に対して回答しました。
Q:声を合成するためには何が必要ですか?
当たり前ですがパソコンと合成を行うソフト、そして学習させるための音声データが最低限必要です。
自宅で行う場合はある程度の高性能なマイクも必要でしょう。パソコンやスマホに付属しているマイクの場合は録音能力が低く、本人らしくない音声になってしまうかもしれません。
また、マイクはしゃべったときの反響音を思ったよりも拾ってしまう物です。ですから、反響が少なくなるように壁や床に少し厚めの布などを敷くと上手くいきやすいでしょう。
Q:おすすめの保存形式は?
最もおすすめできる保存形式はMP3です。様々な動画編集ソフトで利用が可能で、様々な場面で利用できるため、最も汎用性が高いと言えるでしょう。
他にもおすすめはWAVがあります。WAVは圧縮していない音声データで録音した内容がそのまま保存されています。容量は大きくなりますが、生成した物をさらに加工などしたい場合は選択すると良いでしょう。
まとめ
AIによって自分の音声を無料で合成できるソフトは、まだまだ少なく制限も大きいためお試し程度しか利用できません。しかし、上手に使うことで確実に動画制作などのコストや時間の削減につながります。
まずは、無料プランで自分の声を上手に合成するコツをつかんでから、本格的に組み込んで、視聴者から注目を浴びる作品を作りましょう。
役に立ちましたか?コメントしましょう!