TikTok、耳が不自由な人のための
「自動字幕起こし機能」追加

https://newsroom.tiktok.com/ja-jp/auto-captions

 TikTokは2021年4月6日、動画の音声を自動的に字幕に変換する「自動字幕起こし機能」を追加したと発表しました。

 投稿者が編集画面で「自動キャプション」を「オン」にすると、自動で字幕が生成・表示されます。投稿者は自動生成された字幕を編集することも可能です。まずは英語と日本語で提供を開始し、他の言語も徐々に対応していくとのことです。

 TikTokは、サービスのアクセシビリティ(どのような人でも使えるように工夫すること)向上に長期的に取り組んでいくとしています。

 こうしたユーザー投稿型のサービスでは、アクセシビリティへの配慮は、長らく「発信者」側に依存してきました。しかし最近では、技術の発展とともに「プラットフォーム」側がアクセシビリティやユーザビリティ(使いやすさ)の向上を目指す取り組みが行われています。

 TikTokのみならず、InstagramやYouTubeなどのSNSや、デバイスに標準に搭載されているOSなどにも、アクセシビリティやユーザビリティ向上のための機能が追加される流れが進んでいます。

 こうした取り組みは、人々がより多くのコンテンツに触れる機会を増やすだけでなく、耳が不自由な人など、より多くの人が「情報の発信者」としてサービスに参加可能となることにもつながります。発信者の多様化は、これまで情報を発信してこなかった、またはできなかった人々に「声を与える」という大きな意義がありそうです。

アドビとグーグルが共同開発した
次世代フォントの最新版が発表

https://blog.adobe.com/jp/publish/2021/04/08/cc-design-source-han-sans-goes-variable.html#gs.z4eswx

 アドビとグーグルが共同開発した、東アジアの幅広い言語をサポートするオープンソースのゴシック体フォント「Source Han Sans」(グーグルからは「Noto Sans CJK」としてリリース。なお日本語部分は「源ノ角ゴシック」と呼ばれる)。

 国際的なデザインや、開発コミュニティをまとめるという共通の目標のもと、総勢100人以上のチームが3年以上をかけて開発とデザインに携わってきた「Source Han Sans」は、2014年のリリース以降も継続的にアップデートされ、改良を続けてきました。

 今回のアップデートで、「Source Han Sans」が次世代フォントのフォーマット「バリアブルフォント」に対応。バリアブルフォントとは、2016年にアップル、グーグル、マイクロソフト、アドビが共同発表した技術です。

 バリアブルフォントの特徴は、たとえば、文字の太さを表す「ウエイト」は、7種類が規定のものとして用意されており、これまでは7つそれぞれのファイルが必要でパフォーマンスに負荷がかかっていました。でもバリアブルフォントでは、たった1つのファイルで全てのウエイトを表示できます。より軽快で高いパフォーマンスが実現可能となったのです。

 また、ウエイトは既定の7種類だけでなく、最小値から最大値の間で自由に変えることが可能になりました。これまで文字のサイズを1段階ずつ調整すると、小さくした文字が他の文字と比べてわずかに細く見えてしまうケースがありました。でもバリアブルフォントでは、こうした文字のウエイトをより自由に調整できるので、細部までこだわった美しい表現が、より簡単に追求できるようになりました。

 新たにリリースされた「Source Han Sans(源ノ角ゴシック)」のバリアブルフォント版を使用することで、表現に応じて微妙なタイポグラフィの変化を作り出すことが可能になったのです。

元女子高生AI「りんな」などで知られるrinna
高度な日本語文章の自動生成技術を公開

https://prtimes.jp/main/html/rd/p/000000009.000070041.html

 マイクロソフトのAIチャットボットの研究チームから生まれたAI開発企業rinnaは、これまで、ディープラーニング研究の技術を応用し、LINEで気軽に会話ができるAIチャットボット「りんな」などの開発を行ってきました。

 こうした製品開発の過程で、日本語に特化した言語モデル(会話や文章などの言語をモデル化したもの)の「GPT-2」(単語レベルの確率の組み合わせから、文の確率を計算する言語モデル)を構築。オープンソースとして公開しました。

 この言語モデルの能力を使うと、ある一文の次にくる単語を確率の組み合わせから推定し、文章を自動生成していきます。つまり、これまで以上に高度な日本語の文章を、AIが自動生成することが可能となったのです。

 そしてこの言語モデルがオープンソースとして公開されたことで、研究者たちが活用することができるようになりました。コーパス(言語のデータベース)に新しい文法やシソーラスなどの言語データが蓄積されていき、「GPT-2」が私たちの言葉を「理解する」精度が上がっていくこととなります。

 こうした自然言語(人間が日常的に使う言語)処理が身近に使用されている例として、アップルの「Siri」やECサイトの「よくあるお問い合わせ」等に備えられているAIチャットボットが挙げられます。

 今はまだ、AIとのコミュニケーションに違和感をおぼえることが多いと思います。でも今回の日本語に特化した「GPT-2」モデルのオープンソース化によって、AIが私たちの言葉をより柔軟に「理解」できるようになろうとしています。

 AIとの対話が今よりも活発になる未来が近づいているのかもしれません。

 以上、4月に話題になったアプリやサービスをお届けしました。来月もお楽しみに!