Googleが提供する有名な機械翻訳サービス「Google翻訳」ですが、新たに24言語をサポートし取り扱われる言語数は133言語になるそうです。
総言語数にビックリしたのと、ゼロショット機械翻訳(Zero-Shot Machine Translation)という技術を初めて使って追加された24言語という事ですので、記事にしてみました。

このゼロショット機械翻訳ですが、「例を見ることなく、別の言語に翻訳することを学習する」という技術のようで、ちょっと全体を把握するには難しそうです。
詳しくはGoogle AI Blogに書かれていますが、英語です。

そして今回追加された24言語の詳細情報は下記になります。
・アッサム語:インド北東部で約2500万人が使用。
・アイマラ語:ボリビア、チリ、ペルーで約200万人が使用。
・バンバラ語:マリで約1400万人が使用。
・ボージュプリー語:インド北部、ネパール、フィジーで約5,000万人が使用。
・ディベヒ語:モルディブで約30万人が使用。
・ドーグリー語:インド北部で約300万人が使用。
・エウェ語:ガーナとトーゴで約700万人が使用。
・グアラニー語:パラグアイ、ボリビア、アルゼンチン、ブラジルで約700万人が使用。
・イロカノ語:フィリピンで約1,000万人が使用。
・コンカニ語:中央インドで約200万人が使用。
・クリオ語:クリオ、シエラレオネで約400万人が使用。
・クルド語:主にイラクで約800万人が使用。
・リンガラ語:コンゴ民主共和国、コンゴ共和国、中央アフリカ共和国、アンゴラ、南スーダン共和国で約4,500万人が使用。
・ルワンダ語:ウガンダとルワンダで約2000万人が使用。
・マイティリー語:インド北部で約3400万人が使用。
・マニプリ語:インド北東部で約200万人が使用。
・ミゾ語:インド北東部で約83万人が使用。
・オロモ語:エチオピアとケニアで約3,700万人が使用。
・ケチュア語:ペルー、ボリビア、エクアドルおよび周辺国で約1,000万人が使用。
・サンスクリット語:インドで約20,000人が使用。
・セペディ語:南アフリカで約1400万人が使用。
・ティグリニャ語:エリトリアとエチオピアで約800万人が使用。
・ツォンガ語:エスワティニ、モザンビーク、南アフリカ、ジンバブエで約700万人が使用。
・ツウィ語:ガーナで約1,100万人が使用。

日本国内でも地域の方言など追加されたら面白いですよね。

(きっと既にそのような研究は進んでいるのでしょう・・)