非エンジニアの私がGASとGeminiで手に入れた「写経司」
非エンジニアの私は、書籍を読んでいて仕事に活かしたいと感じた図表や文章があると、それを写真に撮って図表はそのまま保存。文章はtextファイルにまとめて保存してきました。
それを自分でパワポに要約して復習したり、社内共有用の資料にしたりしてきました。
やりたいことは単純で、“読みたいときにすぐ引ける形”にしておきたいだけでした。
ところが、その“引ける形”に整えるまでが、地味に長い。
私は次のような手順で、そのための作業を実行していました。
1.書籍の該当ページをiPhoneで写真撮影する。
2.撮影した複数の画像を自分のメールアドレスに添付して送信する。
3.送信されたメールの添付ファイルをダウンロードする。(このときダウンロードしたファイル形式はjpegになる)
4.Google driveに書名をつけたフォルダを新規作成する。
5.ダウンロードしたjpegファイルを、[4]にアップロードする。
6.[5]の該当ファイルをGoogle docsで開く。→文字起こしされる。
7.[6]の作業をアップロードした画像ファイル分、繰り返す。
7.全てのdocsを、書名をつけたローカルのtextファイルにコピペする。
この作業は非常に手間のかかるものです。
いちいち文字入力することに比べればずっとラクですが、それでも一つ一つの画像ファイルをdocsで開いたり、開いたものをtextファイルにマージするのはとても手間がかかります。
上記のように書いてしまえば一行ですが、実際は“同じ動作の繰り返し”が時間を削ります。
(余談だが1)
iPhoneで撮影したHEIC形式の画像をGoogleドライブに直接アップロードした場合、Googleドライブでは画像として認識されず、docsで開いて文字起こしができないためです。
今思えば、Google driveアプリで撮影できるということを知っていればラクができたのですが…
(余談だが2)
Google docsがOCR対応したという情報を知ったのが2012年頃でした。それまではいちいち手入力していたので狂喜したものです。
余談はさておき、私が本当に困っていたのは“繰り返し作業”の方です。
最近、この作業が億劫になってきてGeminiに自動化、効率化できないか相談したところ、GASを用いた「Googleドライブ上の画像を、自動で文字起こしして1つのドキュメントにまとめるプログラム」をつくってくれました。
そのGASを書いたあとの新しい手順は下記のとおりです。
1.Google driveに書名をつけたフォルダを新規作成する。
2.Google driveアプリで該当ページを撮影し、該当フォルダにアップロードする。
3.GASを実行する→全画像ファイルを一つのGoogle docsに文字起こしする。
これによって一番時間のかかっていた「画像ファイルを一つ一つdocsで開く」という作業が完全に消えました。
おそるおそる作成されたdocsを開いてみると確かにすべての画像の文字起こしが記載されています。
しかし、撮影した時間の古い順に記載したかったのですが、docsの文字起こしは新しい順に記載されていました。
ここで「なんだ、やっぱりAIつかえねぇな」と感じる人もいるでしょう。
でも今なら自分の意図をAIに伝えて修正してもらえばいいだけです。
ここを厭う人と厭わない人でこの先、AIを使いこなせるかどうかの差が出てくるのではないかと思いました。別の言い方をするなら、“一発で当てさせたい人”と“対話で詰める人”の差や、AIに対して“失望で終わる人”と“改善で終われる人”の差になるのではないかと。
最終的に自分の期待するアウトプットができたことで、私はあらためて感心、感動しました。
面倒を感じ、それを言語化できた瞬間、改善は始まる。そしてそれを自分とAIだけで実現できることに。
これからの読書生活と学習がまた一層楽しくなりそうです。
(余談だが3)
一回目のdocを修正する時にハタと感じたのは、エンジニアやプログラマという職種の方々への深い敬意です。
彼、彼女らはきっと、日常的にこうした「小さな違和感」を見逃さず、最適解を求めてコードを書き、予期せぬ挙動(今回で言えば並び順の不一致)に直面しては、また対話を繰り返しているのでしょう。
私が面倒だと思っていた作業は、彼らにとっては仕事の基本動作なのだろう。そう考えると、自然に頭が下がりました。
(余談だが4)
「最初にフォルダをつくってから、driveのアプリで写真を撮影してアップロードする」という、これまでとは異なる作業のやり方に、ほんの少しの気持ち良いものではない違和感があった。これが大きいと、新しく導入したシステムが使われなくなるんだろうなぁと感じた。
