Toilを無くして徒然なるままに日暮し硯に向かひたい

生成AIアプリケーション開発などを行うエンジニアのブログです。

Google Cloud Geminiのマルチモーダルを体験 (ハンズオン)

genai-users.connpass.com

↑こちらの勉強会の資料になります。

PDFファイルを読み取らせる

PDFファイルは複数アップロード可能

合計10MBまで

1ファイル300ページまで

モデルに、gemini-1.5-flash-001 を選択すると、タイムアウトする

gemini-1.5-pro-001 の方がよい

音声データをBigQueryでテキスト化して解析

zenn.dev

動画の処理も可能

60秒を超える音声は処理できない模様

長い音声を処理する

Speech-to-Textを利用