きょうのまなび(2024/07/22)
1. Google DriveのエクスポートでOfficeファイルやPDFに変換するとプログラムでそのまま読み込めない
Google Drive APIで、スライドやドキュメントをOfficeのファイル形式でエクスポートすると、そのままプログラムで読み込むことができないことがある。例えば、スライドの場合、pptx形式でエクスポートすると、プログラムで読み込むことができない。PDFに変換してもダメっぽい。元からpptxやpdfのファイルは読み込める。Google Drive APIの仕様なのか、エクスポートの仕様、ライブラリ側の考慮不足なのかはわからないけど、ハマってしまった・・・
テキストデータでエクスポートすれば文字コードの問題はあるけど読み込めるので、とりあえずそれで対応するか考え中。。。
OpenOfficeのファイル形式でエクスポートすると、プログラムで読み込めるかもしれない。 https://python.langchain.com/v0.2/docs/integrations/document_loaders/odt/ (opens in a new tab)
もしくは、Google DriveのLoaderでそのまま読み込めるかもしれない。(なんか、ディレクトリを再起的に読んでくれそうなので便利そうな気もする) https://python.langchain.com/v0.2/docs/integrations/document_loaders/google_drive/ (opens in a new tab)
GitHubで記事を見る (opens in a new tab)
Copyright kght6123.RSS