こんにちは、横須賀市生成AI推進チームのM田です。
日本時間では深夜でしたが、OpenAI社がGPT-4oを発表しました!
性能向上、価格半額、マルチモーダルの強化など、流石の内容です。
YouTubeで生配信されていた音声でのやりとりのデモも「え?これ人間じゃん・・・」というぐらい表現豊かに話していて衝撃でした。
(動画は公式が生配信を切り抜いたもの)
早速我々も、横須賀市のAIチャットボットをGPT-4-TurboからGPT-4oに切り替えたのですが、とにかくやたら早く返事がきます。GPT-4なのにGPT-3.5-Turboぐらいの早さです。
本市のネットワーク環境だと、マルチモーダル(画像入出力、音声入出力)を実現するのにはいろいろハードルがあるのですが…。このアップデートで生成AIの活用の幅がまた広がりそうですね!
とりあえず我々の環境でも使えるText to Textで、GPT-4-Turboが出た時同様に、いつものプロンプトを与えて様子を見てみましょう。
GPT-4oを試す
いつものようにGoogle colabを使って、以下のコードで試してみます。
from openai import OpenAI
import time
client = OpenAI(
api_key = "(Your API Key)",
)
def kiku(text,model):
start_time = time.time()
r = client.chat.completions.create(
model=model,
messages=[{ "role": "system", "content": "AIはユーザーを前向きに、褒めたり、励ましたり、楽しく仕事できるように対応します。"},
{ "role": "system", "content": "AIは建設的、知的で、ユーモアに富みます。" },
{ "role": "system", "content": "AIは足りない情報、あいまいな情報があれば、積極的に質問をします。" },
{ "role": "system", "content": "AIは建設的に、ユーザーのアイデアがよりよくなるよう、様々なアイデアや提案も行います。" },
{ "role": "system", "content": "行政職員としてふさわしい、倫理規範や発信コードを心がけます。" },
{"role": "user", "content": text}],
)
end_time = time.time()
elapsed_time = end_time - start_time
print(f'処理にかかった時間: {elapsed_time}秒')
print(r.choices[0].message.content)
質問1:「ツイッター社を買収したのは誰?」
代わり映えのない質問ですが…
まずはGPT-4-Turbo
時間帯や利用者数によって負荷も変動すると思いますが、前よりも遅くなってますね。。前回の記事だともう少し多く出力して3.6秒でしたが、今回は5.3秒かかっています。
続いてGPT-4o
はやっ。1.3秒しかかかっていません。もちろんまだ利用者数が少ないというのもあると思いますが…。
質問2:会話文を出力してみる
続いて弊市消防局謹製の会話文プロンプトで長文を出してみましょう。
以下の記事で紹介していたものです。
以下の制約条件と入力文をもとに3人の登場人物の[会話]を出力してください。
入力文をあますことなく詳細に表現し、[会話]を出力してください。
・文字数は5000文程度。
・登場人物は、レオ、ユキ、アキ。
・レオは、明るく、人気者でリーダーシップを持つ男性。
・レオは、セリフに「なんだけどな〜」「さ、一緒に考えようぜ!」をときどき用いる。
・レオは、他の2人を「ユキ」「アキ」と呼ぶ。
・ユキは、無口でクール。内心は繊細だが、周囲には滅多に見せない女性。
・ユキは、セリフに「それはあなたが言うこと?」「もう、無理...想像したくない」「でも、どうしましょう…」をときどき用いる。
・ユキは、他の2人を「レオ君」「アキさん」と呼ぶ。
・アキは、あまり前へ出ることがなく、温和で優しく、知識豊富な男性。
・アキは、セリフに「それは、大切ですね。」「あのね、こういうことなんだよ。」をときどき用いる。
・アキは、他の2人を「レオ兄さん」「ユキさん」と呼ぶ。
雑居ビルの3階のエレベーターホールから火事が発生し、有毒ガスも発生していた。
火は3階から4階へと広がり、煙が店内へ流れ込んだ結果、店員や客が一酸化炭素中毒で死亡した。
その混乱の最中、3階の従業員3人が窓から落ちて骨折や打撲傷を負った。
法律では消防設備の設置が義務化されていたが、それが守られていなかった。
まずはGPT-4-Turbo
これも前回の記事では14秒程度でしたが、36.6秒と、少し時間がかかってますねー。あとなぜか「あるわけでしゅ」って出てるのが個人的にツボです。
つづいてGPT-4o
ながっ!そして、長いのに16秒…やはり早いです。
というかそもそも5000文字程度と指示しているので、長くなるほうが正しいですね。またプロンプトの「セリフ」がGPT-4-Turboが作る文章のときより多く出てきているような気も・・・?もしかしたら、GPT-4-Turboよりも強く指示が効くのかもしれません。もう少し試してみないと分かりませんが。。
使用したコードは以下からどうぞ。
まとめ
OpenAI社が発表した新モデルGPT-4oのText to Textの部分をさっそく試してみました。利用者数が増えるとまた遅くなってしまうかもしれませんが、GPT-4-Turboの出た直後と比べても、早く回答が出ている感触がありました。
しかし、このモデルのすごみの本丸はマルチモーダル部分でしょう。
既に、日本語の手書きのテキストが読めたという報告もあります( https://x.com/i_dg23/status/1790099648377663558)し、今後、音声での入出力を活用した事例もどんどん出てきそうですね。リアルタイムで音声翻訳とかも普通にできるみたいですし。。
ますます、以下の記事で書いたようなコミュニケーションの改善に繋がってきそうな雰囲気ですね。
今後も発達する生成AIから目が離せません!!
(M田主任三郎)
以前公開したGPT-4-Turboのお試しの記事は以下からどうぞ。