Toilを無くして徒然なるままに日暮し硯に向かひたい

生成AIアプリケーション開発などを行うエンジニアのブログです。

2024-09-01から1ヶ月間の記事一覧

AIを用いたOCR

OCRとは、Optical Character Recognitionの略で、日本語では光学文字認識といいます。 OCRとは何か? OCRは、スキャンした書類や画像に含まれる文字を、コンピュータが読み取り、テキストデータに変換する技術です。つまり、紙に書かれた文字をデジタルの文…

Apple Intelligence触ってみたい

k-tai.watch.impress.co.jp iPhone16で、Apple Intelligenceという名の生成AIが搭載されるようですね。 Xなどではいまいち、盛り上がりに欠けているものの、生成AIを生業にするものとしては、 触ってみたいです。 Google PixelがGeminiを搭載したAIスマホと…

生成AIにおけるベクトルインデックス

生成AIにおけるベクトルインデックス:詳細解説 ベクトルインデックスとは? ベクトルインデックスは、生成AIにおいて、テキスト、画像、音声などの非構造化データを、数値のベクトルに変換し、そのベクトル間の類似度に基づいて検索や推薦を行うための技術…

Google Cloud Gemini向けの生成AIのプロンプトエンジニアリング

cloud.google.com 生成AIのプロンプトエンジニアリングは様々な手法がありますが、 Gemini for Google Cloudなんて出ているのですね。 Google Cloud のプロダクトとサービスに関しては、Geminiは学習済のようで、詳しいようです。 読んで勉強したいと思いま…

Mini-Omni OSSでSpeech-to-Speechができるようになる?

arxiv.org GPT-4oの進化系で、リアルタイム音声会話のできる生成AIがOSSで出たようです。 github.com その名もMini-Omni。 小型モデルでどうリアルタイム音声会話を実現したのか興味深いですね。 生成AIでリアルタイム音声会話は難しく、Speech-to-Text-to-S…

Google Cloudの生成AIサンプルアプリEnterprise Knowledge Solution (EKS)

github.com Google Cloudの生成AIサンプルアプリ「Enterprise Knowledge Solution」 (EKS)がGitHubで公開されています。 EKSはAmazon Elastic Kubernetes Serviceと紛らわしい(苦笑) 「Enterprise Knowledge Solution」 はIAPとCloud RunベースでUI付きの…

LangChain Meetup Tokyo #2に登壇し、LangChainでWebサイトの内容取得やGitHubソースコード取得、というタイトルで発表しました

langchain.connpass.com LangChain Meetup Tokyo #2に登壇してきました。 私は「LangChainでWebサイトの内容取得やGitHubソースコード取得」というタイトルで発表しました! 次は @shu_kob によるLangChainでWebサイトの内容取得やGitHubソースコード取得 #L…

LangChainでgithubリポジトリのソースコードを読む方法

shu-kob.hateblo.jp 昨日の記事に関連して、今回はLangChainでgithubリポジトリのソースコードを読む方法です。 github.com ↑サンプルソースコードを載せています。 js.langchain.com ↑使い方はこちら 実行例 npx ts-node githubLoader.ts https://github.co…