【相談】
毎月、A4で2枚程度の紙に印刷された一覧表の法人名簿があり、
これをテキスト化してエクセルかcsv形式の表に変換したいのですが、
よい方法があれば教えてください。
データ数がそれほど多くないので、あまり費用をかけずに済ませたいと考えています。
次のように色々試してはみましたが、今一つ、良い方法が見つかりません。
(表は手書きではありません。ただ、行の罫線がなく行の背景色が交互に色分けされているので、変換後に表崩れするのはそれが影響しているかもしれません。)
<スキャナー機器>
ScanSnap iX1600
→殆ど間違ったテキスト化される。
Adobeのオンラインツール
→表がくずれる。
ソースネクストの瞬間テキスト3
→文字化けがひどい。表にもならない。
PDF Excel 変換 サイト
https://smallpdf.com/jp/pdf-to-excel
→エクセルの中身は画像になる。
googledrive→googleドキュメント
→表が大きくくずれる。
gemini
→OCR機能がない。
chatgpt
→PDFはだめ。画像からのテキスト化精度はあまり高くない。
何度か試して結果がなぜか不安定(英語化、ダウンロード不可など)
copilot
→PDFはだめ。画像で5件ぐらいしか変換してくれない。
【回答】Mikiさん
書かれていない方法では、
・Google Driveに格納後、右クリックでアプリで開く、Google ドキュメントで開く
・Tabulaというライブラリで抽出する
参考:https://www.bedroomcomputing.com/2020/11/2020-1114-tabula/#GUI%E3%81%A7%E3%81%AE%E5%AE%9F%E8%A1%8C
・Excel(Office 365)のデータ → データの取得 → PDFからで直接取り込む
が思いつきました。
また、少しだけ…