架空のロックバンド「The Midnight Odyssey」
楽曲生成AIはどんどん進化している。架空のロックバンドのアルバムをつくることだって可能なのだ(詳しくは記事の最終ページを!)
Hume1
HumeのVoice-to-Voice with EQを支えているのは、優れたボイスチャット技術だ。相手の発話の終了を的確に判断して返答を行うことはもちろん、AIの発話中にユーザーの割り込みがあると、ただちに聞き取りモードに切り替わるなど、会話の自然さには驚かされる(以下、記事中の画像は筆者作成) 拡大画像表示
Hume2
ボイスチャット中に、AIとユーザーのそれぞれの声に込められた感情がリアルタイムで数値化されて表示される。実際の企業のコールセンターなどで運用する場合は、これらの数値を内部的に利用して、応対の仕方を変えていくといった利用法が考えられる 拡大画像表示
Hume3
Humeは、声の分析に加えて、表情のAI解析にも力を入れている。これは、それらの分析結果に基づいて作られた感情のクラウドともいえる3Dマップである 拡大画像表示
Hume4
Facial Expressionを選択して3Dマップ内の感情ワードをクリックすると、個々の表情からうかがえる感情の割合がパーセンテージで表示される 拡大画像表示
Kreaの画像生成機能
ユーザーがリアルタイムでカメラ入力したポーズに合わせてキャラクターが生成される、Kreaの画像生成機能。あらかじめ決められたキャラクターで置き換えるVtuber用のアプリとは異なり、キャラクターの性別や特徴はプロンプトで指定できる 拡大画像表示
Krea
アップのイメージだけでなく、全身のポーズなどにも対応している。また、元のユーザーのイメージとAI生成による脚色のバランスを上部中央のスライダーで連続的に調整することができる 拡大画像表示
Suno AI
歌唱付きのリアルな楽曲生成AIとして定評のあるSuno AI。日本語の歌詞もサポートされ、2分程度の曲であれば、有償プランのユーザーが利用できるv3で一度で生成できることもあって、使い勝手の点でも優れている 拡大画像表示
Sonauto
日本語歌詞には未対応だが、ボーカルと各楽器パートを分離して保存する機能を標準で備えたSonauto。他が1度に2バリエーションの生成であるのに対し、3バリエーションが生成される点にも独自性がある 拡大画像表示
Udio
音の深みやボーカルの表現力の点で、他の2つを凌駕する最新楽曲生成AIサービス。生成済みのパートに対して前または後に曲を伸ばしたり、イントロ、アウトロを追加生成できたりする柔軟性を持つが、1度に生成される長さが30秒ほどなので、曲の完成までにやや手間がかかる 拡大画像表示
Suno AIで作られた楽曲をベースにプロがマスタリングして完成させた架空のロックバンド「The Midnight Odyssey」のために筆者が制作したPV
Suno AIで作られた楽曲をベースにプロがマスタリングして完成させた架空のロックバンド「The Midnight Odyssey」のために筆者が制作したPV