RAG(Retrieval-Augmented Generation)
RAG(Retrieval Augmented Generation:検索拡張生成)は、検索機能と生成AIを組み合わせた技術です。従来の生成AIは、学習した情報に基づいてしか回答を生成できませんでしたが、RAGは外部の知識ベースから情報を検索し、生成AIの回答に組み込むことで、より正確で幅広い情報を提供することができます。
Google Cloudのマネージドサービスの説明
今回のハンズオンで使用するGoogle Cloudのマネージドサービスの説明をします。
Cloud Storage
Google Cloud Storage(GCS)は、Google Cloud 上で動作するオブジェクトストレージサービスです。あらゆる種類のデータを安全かつスケーラブルに保存することができ、データ分析、機械学習、アプリケーション開発など、様々な用途に活用できます。
Vertex AI
Vertex AIは、Google Cloud上で動作する、AIモデルの開発と運用を統合的に支援するプラットフォームです。データサイエンティスト、機械学習エンジニア、開発者など、様々なユーザーが効率的に AIや機械学習(ML) モデルを構築、トレーニング、デプロイ、運用できるよう、機能を提供します。GeminiなどのLLMはVertex AI上で使用できます。
Vertex AI Agent Builder
Vertex AI Agent Builderは、Google Cloud上で動作する、生成 AI エージェントを簡単に構築、デプロイ、管理できるプラットフォームです。元々はVertex AI Search and Conversationと呼ばれていました。コードを記述することなく、自然言語を使用して、インテリジェントな会話型 AI とプロセス自動化エージェントを作成できます。RAGを簡単に作成でき、今回のハンズオンではRAG作成のために利用します。
Google Cloudを用いたRAGハンズオン
Google CloudはGoogleアカウントがあると、簡単に使い始めることができます。初めて使う場合は$300 相当の無料クレジットが付与されます。
Cloud Storageのコンソール画面を開きましょう。
画面上側の「作成」を押してください。
バケットの名前をつけて、画面をスクロールして、一番下の「作成」のボタンを押してください。
「このバケットに対する公開アクセス禁止を適用する」にはデフォルトでチェックマークが入っているかと思います。
ここにはチェックマークをつけておくことをおすすめします。
「確認」ボタンを押します。
バケットができました。
RAGに入れるPDFを入手したいと思いますが、私はインターネット上で無料入手できる情報処理推進機構(IPA)のものを10種ダウンロードしました。 皆さんはご自身の好きなPDFをお使いください。
- 非機能要件記述とアーキテクチャ記述ガイド
- プロジェクトマネジメントの見える化
- 情報処理システム高信頼化教訓活用ガイドブック(ITサービス編)
- 情報セキュリティ対策ベンチマークから情報セキュリティ監査へ
- 経営に活かす IT 投資の最適化 ~ 情報システムを安心して快適に使うために ~
- 安全なウェブサイト運営にむけて
- 初めての情報セキュリティ対策
- 新・5分でできる!情報セキュリティ自社診断
- IPA脆弱性対策コンテンツリファレンス
- ECサイト構築・運用セキュリティガイドライン
アップロード後、ファイルがあることを確認できます。
Agent Builderを使って、RAGを作っていきましょう。Cloud Storageのドキュメントをベクトル化してAgent Builderに蓄えます。コンソール上で簡単にできます。
Agent Builderのコンソール画面を開き、左のサイドバーからデータストアを開いてください。
「データストアの作成」ボタンを押します。
画面下にスクロールして、「Cloud Storage」を選択します。
インポートするファイル・フォルダを選択します。先ほど作成したフォルダを選択しましょう。今回はPDFですので、データの種類は「非構造化ドキュメント」を選択したままにしてください。
データストアの構成を決めていきましょう。Locationはデフォルトの「global」のままでいきましょう。データストア名を入力します。「作成」ボタンを押してデータストアを構成していきます。
データストアが構成できました。作ったデータストアを見ていきましょう。
「アクティビティ」タブを開くと、データのインポート状況を確認できます。時間がかかる場合もあります。終わるまで待ちましょう。
データのインポートが完了しました。Agent Builderのサイドバーの「アプリ」からアプリを作成していきます。
「CREATE APP」を選択します。
「検索」を選択します。
内容は「汎用」のままでいいです。下にスクロールします。
「アプリ名」、「会社名」を入力し、「続行」ボタンを押します。
作成したデータストアを選択します。下にスクロールして、「作成」ボタンを押します。
アプリが作成できました。サイドバーの「プレビュー」を押しましょう。
検索フォームに入力して、検索をしていきましょう。
ここで、「システム障害の予防策」と検索すると、関連する順番にPDFを羅列してくれ、検索文に関連するページも表示してくれます。今回はIPAのドキュメントで行いましたが、技術PDFをRAGに入れておくと、調査が捗りそうですね。
なお、オライリー書籍をEBookで購入すると、PDF版を入手でき、RAG作成に重宝しそうです。複数人でRAGを使う場合は、著作権侵害にならないよう十分ご注意ください。
法人では社内文書をRAGに配置することで、これまでの検索ではすぐに得られなかった情報へのアクセススピードが上がります。社内データの活用はDXの第一歩でもあります。生成AIの活用を機に、DXを進めていきましょう!
Gemini
Geminiは、Google AIが開発したマルチモーダル生成AIモデルです。2023年12月にBardとして発表され、2024年2月にGeminiへと改名されました。マルチモーダルとは、テキストだけでなく、画像や音声などのデータも扱うこともでき、より創造的で表現力豊かなコンテンツを作成することができます。また、高度な情報検索が可能で、Google検索の検索結果を活用することで、最新の情報や、専門性の高い知識にもアクセスできます。文章生成、言語翻訳、要約、コード生成、画像生成、音声生成など、様々なタスクを実行することができます。プレビュー版のGemini-1.5は100万トークンに対応しています。この記事もGeminiのWeb版を無料で使用して書いています。