Scribble at 2024-02-13 19:32:22 Last modified: unmodified

既に音声を合成すること自体は色々なサービスで実現しているので、エンコーディングのクォリティだとか曲調との対応関係を決定するセマンティクスにおいてモデルをどう定義するかが問われる。ちなみに、僕が「モデル」という言葉を使っているときは数学のモデル理論しか念頭に置いていないので、「理想像」とか「雛形」とか「コンセプト・タイプ」みたいな意味だと狭すぎる。ただし、それらは数学的な構造としては一定の解釈のもとで「同型」でありえるから、間違いではない。

ともかく、トレーニングに使うデータの権利について問題がなければ、こういうサービスも非常に使い勝手がいい。たとえば、僕は社内で配信している研修用の動画で、BGM に使う曲を freesound.org から使わせてもらっているのだけれど、やはり使いたい脈絡に合致している曲を探すのは非常に難しい。ほとんど曲のタイトルしか手がかりがないので、一つずつ再生してみるしかないからだ。自分で曲を生成できるようになれば、もちろん曲を聞いて是非を判断することに変わりはないけれど、自分で曲調をコントロールできるのはありがたい。だって、DTM をこれから覚えるかと言われても困る（ちなみに高校時代に YAMAHA のシンセサイザーやギターは持ってたことがあるけれど、モノにはできなかった）。

冒頭に戻る