え？Claude 3、マジですごいかも

2024年4月5日 18:00

M田主任三郎です。
ちょっと感動したので、記事にしました。

まずはこれを見てください。

GPT-4-Turboの場合

以下のように聞かれました。簡潔に要約してください。

R6のDXヒアリング（週２回）は、会議室内に発送物が山積みだとまずい打ち合わせでしょうか。
一斉調査の封詰めと、敬老祝いの銀杯等の発送業務があって、 福祉こども部会議室を使用したいです。
ヒアリングの日だけ退出して荷物を隅に寄せておくでは厳しいでしょうか。
敬老祝いは、8月末から9月の敬老の日までです。

一斉調査は、
①7月末～8月頭
②8月末～9月頭
一斉調査の時期を変更するかもしれず、まだ①②どちらになるか未確定です

DXヒアリング（週２回）の会議室での発送物の保管は適切ではないかもしれません。福祉こども部会議室を発送業務（一斉調査の封詰め、敬老祝いの銀杯等）に使用したいが、ヒアリング時には荷物を片付けることが難しい状況です。敬老祝いは8月末から9月の敬老の日までに予定されており、一斉調査は7月末～8月頭か8月末～9月頭のいずれか未確定の時期に実施予定です。

GPT-4-Turbo

主語が少ない会話文を与えて要約させると、GPT-4-Turboは文脈を掴めず、単純に書かれていることを要約してしまいました。

しかし・・・

Claude 3 Sonnetの場合

以下のように聞かれました。簡潔に要約してください。

R6のDXヒアリング（週２回）は、会議室内に発送物が山積みだとまずい打ち合わせでしょうか。
一斉調査の封詰めと、敬老祝いの銀杯等の発送業務があって、 福祉こども部会議室を使用したいです。
ヒアリングの日だけ退出して荷物を隅に寄せておくでは厳しいでしょうか。
敬老祝いは、8月末から9月の敬老の日までです。

一斉調査は、
①7月末～8月頭
②8月末～9月頭
一斉調査の時期を変更するかもしれず、まだ①②どちらになるか未確定です

以下のように要約できます。

福祉こども部では、8月末から9月にかけて敬老祝いの銀杯発送と一斉調査の封入作業が重なるため、会議室を作業スペースとして使用したい。しかし、その期間にR6のDXヒアリング(週2回)も会議室で行われるため、発送物の山積みが支障となる可能性がある。作業中は発送物を隅に寄せるなどの対応ができるか検討が必要である。一斉調査の時期が7月末~~8月頭か8月末~~9月頭かはまだ未確定である。

Claude 3 Sonnet

Claude 3 Sonnetに同じプロンプトを与えたところ、省略されている主語や文脈を推測し補完して、殆ど正確な要約を返してきました！
（謎に取り消し線がついてますが）

しかもこれSonnet…つまりClaude 3の中型のモデルで、最上位のOpusでもありません。APIで利用した場合のコストもGPT-4-Turboの半額以下です。（1Mトークンあたり、Sonnet：Input $3/Output $15　GPT-4-Turbo：Input $10/Output $30）

Claude 3、いいかも

人間同士のコミュニケーション、特に会話やチャットでは多くの場合文脈をふまえて主語を省略します。

「プロンプトエンジニアリング」という技術は、そういったファジーな文章をAIでも認識できるように表現する技術とも捉えることが出来るように思います。

一方で「プロンプトエンジニアリング」は、横須賀市の利用状況からもわかるとおり、一般の職員にとって難しいものです。

「プロンプトエンジニアリング」を頑張らなくても、文脈を正確に捉えてリアクションできるなら、より多くの人がAIを便利に使うことができます。その意味で、我々のようなユーザーが今使えるもののなかでは、Claude 3はトップクラスの性能があるように感じます。

横須賀市のAIチャットボットはGPT-4-Turboを使っていますが、先日記事のHaikuの日本語性能といい、Claude 3めっちゃ良いし乗り換えたいな、と考えています。

生成AIの進歩が早すぎて、何が起きてもあまり驚かなくなってきたこの頃ですが、こういった地味に？すごいものを目の当たりにすると、やっぱり驚きます。

今後は、こうやって新しいモデルが出るたびに乗り換えていく感じになるかもしれませんね。

それではまた。

（M田主任三郎）

この記事が参加している募集

#AIとやってみた

37,027件