MicrosoftのExcelにPDFの表をデータとして貼り付けるのに画像認識という方法があることを、こちらの記事で知りました。

「これは面白い。LibreOfficeでもできるかな?」と思って試そうとしたのですが、残念ながら、LibreOfficeには画像認識機能はないようです。

しかし、テキストデータの貼り付けの際にいろんな指定ができるので、結果として同じように取り込むことができました。

まず、上の記事で扱われていたデータは、総務省が公開しているこちらのPDFです。

https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r04/pdf/n3800000…

この文章の最初の図表の表の部分ですね。これを普通にマウスで選択し、右クリックしてコピーします(もちろん、Ctrl+CでもOK)。

続いて、LibreOfficeのCalcで右クリックで「形式を選択して貼り付け」を選びます(もちろん、これもShift+Ctrl+VでもOK)。

そうすると次のダイアログが表示されます。

「書式設定されていないテキスト」を選んでOKをクリックすると詳細条件を聞いてきます。

区切りのオプションを調整しすると下のプレビューの様子が変りますので、良さそうな表示になったらOK。

いい感じで取り込めました。ですが、よく見るとちょっとずれています。これは元の選択のときに、数値ではないセルや、複数行に渡るセル(見出し)が上手く選択できていなかったためででしょう。

Google Chromeでの表示の他に、Adobe Acrobat Readerなどいくつかのツールで試してみましたが、同じ結果でしたので、PDFのデータの構造がそうなっているのでしょう。仕方ありません。

ズレているところや取り込めていない見出しを手動で対応(コピペ)して完成です。

LibreOfficeには画像認識機能はありませんが、同じようなことができました。しかし、画像認識なら写真からでも取り込めそうですし、なんなら手書きメモでもいけそうです(Excelの画像認識がそこまで対応しているかは知りませんが)。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)