え?Claude 3、マジですごいかも
M田主任三郎です。
ちょっと感動したので、記事にしました。
まずはこれを見てください。
GPT-4-Turboの場合
以下のように聞かれました。簡潔に要約してください。
R6のDXヒアリング(週2回)は、会議室内に発送物が山積みだとまずい打ち合わせでしょうか。
一斉調査の封詰めと、敬老祝いの銀杯等の発送業務があって、 福祉こども部会議室を使用したいです。
ヒアリングの日だけ退出して荷物を隅に寄せておくでは厳しいでしょうか。
敬老祝いは、8月末から9月の敬老の日までです。
一斉調査は、
①7月末~8月頭
②8月末~9月頭
一斉調査の時期を変更するかもしれず、まだ①②どちらになるか未確定です
主語が少ない会話文を与えて要約させると、GPT-4-Turboは文脈を掴めず、単純に書かれていることを要約してしまいました。
しかし・・・
Claude 3 Sonnetの場合
以下のように聞かれました。簡潔に要約してください。
R6のDXヒアリング(週2回)は、会議室内に発送物が山積みだとまずい打ち合わせでしょうか。
一斉調査の封詰めと、敬老祝いの銀杯等の発送業務があって、 福祉こども部会議室を使用したいです。
ヒアリングの日だけ退出して荷物を隅に寄せておくでは厳しいでしょうか。
敬老祝いは、8月末から9月の敬老の日までです。
一斉調査は、
①7月末~8月頭
②8月末~9月頭
一斉調査の時期を変更するかもしれず、まだ①②どちらになるか未確定です
Claude 3 Sonnetに同じプロンプトを与えたところ、省略されている主語や文脈を推測し補完して、殆ど正確な要約を返してきました!
(謎に取り消し線がついてますが)
しかもこれSonnet…つまりClaude 3の中型のモデルで、最上位のOpusでもありません。APIで利用した場合のコストもGPT-4-Turboの半額以下です。(1Mトークンあたり、Sonnet:Input $3/Output $15 GPT-4-Turbo:Input $10/Output $30)
Claude 3、いいかも
人間同士のコミュニケーション、特に会話やチャットでは多くの場合文脈をふまえて主語を省略します。
「プロンプトエンジニアリング」という技術は、そういったファジーな文章をAIでも認識できるように表現する技術とも捉えることが出来るように思います。
一方で「プロンプトエンジニアリング」は、横須賀市の利用状況からもわかるとおり、一般の職員にとって難しいものです。
「プロンプトエンジニアリング」を頑張らなくても、文脈を正確に捉えてリアクションできるなら、より多くの人がAIを便利に使うことができます。その意味で、我々のようなユーザーが今使えるもののなかでは、Claude 3はトップクラスの性能があるように感じます。
横須賀市のAIチャットボットはGPT-4-Turboを使っていますが、先日記事のHaikuの日本語性能といい、Claude 3めっちゃ良いし乗り換えたいな、と考えています。
生成AIの進歩が早すぎて、何が起きてもあまり驚かなくなってきたこの頃ですが、こういった地味に?すごいものを目の当たりにすると、やっぱり驚きます。
今後は、こうやって新しいモデルが出るたびに乗り換えていく感じになるかもしれませんね。
それではまた。
(M田主任三郎)