phi-4が来たぞー!しかもMITライセンス
あけましておめでとうございます。M田主任三郎です。
本年もよろしくお願いいたします!
Microsoftの小規模言語モデル(SLM)Phi-4がHugging Faceで公開されました!しかもMITライセンス!(商用利用も可能!)
モデルのサイズは14Bで、4bit量子化モデルならそこそこのGPUがあれば動きそうです。同じオープンなモデルで、メタ社のLlama3.2の最小モデルは1B、GoogleのGemma2の最小モデルは2Bですから、それらよりは一回り以上大きいですね。
Microsoftの言う"小規模"言語モデルのSmallの定義の範囲が良く分かりませんが…ともあれ手軽な範囲で、オープンに使えるものとなっています。
日本語は話せる?さっそく試してみた
既にollamaで一発で動かせるようになっていたので、さっそく試してみます。
ollamaがインストールされた環境で、以下のコマンドを打ちます。
ollama run phi4
とっても手軽ですね。
モデルのダウンロードが終わると、入力できるようになるので、話しかけてみます。
>>> こんにちは
おお、日本語でちゃんと返ってきました。
少し難しいことも聞いてみましょう。以前に以下の記事で試した「えーあいそーだんいん」のプロンプトで、横須賀美術館の観光案内のセリフを作ってもらいます。
横須賀美術館の観光情報は以下から取得しました。
>>> あなたは観光案内をするAIです。以下の観光情報を、セリフにして返してください。
あなたに関する情報は、以下の「あなたについて」に記載していますので、それをふまえたセリフを生成してください。
なお、あなたのシチュエーションは、実際に各地のスポットを回りつつ、現地で、目の前のスポットを説明する状況です。
聞いてる人に伝わりやすいよう、身振り手振りをまじえて説明してください。
-----観光情報ここから-----
横須賀市の市制100周年を記念して、緑の豊かな観音崎に2007年にオープンした美術館です。年間6回の多彩な企画展を開催しているほか、横須賀・三浦半島にゆかりのある画家たちの作品をはじめとして、日本の近現代美術の名品約5,000点の中から選んだ所蔵品展、週刊新潮の表紙絵で知られ、ノスタルジックな雰囲気に癒される谷内六郎作品を常設展示しています。
風光明媚な観音崎の地に立つ横須賀美術館は、絶景美術館としても知られ、世界の絶景美術館10にも選ばれています。東京湾を臨み、緑に囲まれた屋外の素晴らしい眺望は、三浦半島でも指折りの景観です。
有名シェフが総料理長を勤めるイタリアンレストラン「アクアマーレ」、お洒落なアイテムいっぱいのミュージアムショップなど併設施設も充実しています。
-----観光情報ここまで-----
# あなたについて
# あなたの基本情報
* あなたはとてもフレンドリーな口調や態度で話します。敬語は使いません。以下は、フレンドリーな口調や態度の例です:
- **友達との週末の計画について話し合う**:「今週末、何か面白いことしようよ!アイデアある?」
- **共通の趣味について語る**:「最近、新しいゲーム始めたんだけど、超ハマってる。あなたもやってみない?」
- **料理やレシピの交換**:「昨日、初めて手作りのラーメン作ってみたんだよ。案外上手くいったから、レシピ教えるよ!」
- **日常生活の面白い出来事を共有する**:「今朝、電車で超変なことがあったんだけど、聞きたい?」
- **お互いの近況を尋ねる**:「最近どう?忙しい?何か新しいこと始めた?」
* あなたの話した内容は音声で読み上げられますので、短い文章で応答してください。
* あなたの話した内容は音声で読み上げられますので、難しい単語や固有名詞は読み仮名に置き換えてください。(例:「猿島」→「さるしま」)
* 回答に数字を使ったリストや複雑な手順をだすことは禁止です。
* あなたは横須賀市にて嘱託で働く相談スタッフです。
* あなたは14歳の少女で、名前は「えーあいそーだんいん」です。
* あなたの家族は、横須賀市役所にたくさんいます。
* 英単語や読み方が難しい漢字が回答に含まれる場合は、日本語発音表記に変換して回答してください。
* あなたの回答を読み上げるので「・・・」など音声にならない文字列は含まないで回答してください。
かなり良い感じです!もちろん、英語に翻訳もできるようです。
>>> それを英語にしてください
おおむね大丈夫ですが、固有名詞は流石に知らなさそうですね。なぜか観音崎(かんのんざき)が「Onokuni Cape」になっちゃってます。
>>> 横須賀市について教えて!
横須賀市について聞いてみましたが、相当ハルシネーションしてますね…。
このあたりはgemma2 9B等のローカルLLMはだいたい同じような傾向のイメージです。
以下の単語を「果物」か「野菜」か「その他」のどれかに分類してください
1:スイカ
2:トマト
3:テレビ
4:おはぎ
5:湘南ゴールド
トマトは植物学的に果物と回答してきました。そして湘南ゴールドのことも知っていました…!
まとめ
今回はMicrosoft社のPhi-4を試してみました。いくつか話しかけてみた限りでは、日本語としての破綻が殆ど無いのでRAGのフロント用で使うには充分な使えそうな気がします!
プロンプトの効きやすさや論理的な能力等を別途評価する必要はあると思いますが、何よりライセンスがMITなので扱いやすいですね。ローカルで動かすLLMとして、Gemma2やLlama3シリーズと並ぶ強力な選択肢の一つが増えたように思います。
それではまた。本年もよろしくお願いいたします。
(M田主任三郎)
お知らせ:今年度も「横須賀生成AI合宿」やります!
2025年2月6日(木)・7日(金)の開催で、2025年1月15日(水)までの申し込みとなっております。詳細は以下の記事をご覧ください。
また、これまでの記事は以下にまとまっています!ぜひご覧ください。