Adobe Acrobatのテキスト認識を使って気付いた3つのこと

 

From長田 真毅

 

僕の会社ではPDFの閲覧や編集にはAdobe Acrobat(アドビアクロバット)を使っています。

もしかしたらあなたもPDFの閲覧にはAdobe Acrobat Reader(アドビアクロバットリーダー:PDF閲覧専用の無料ソフト)を使ったことや、現在も使っているかもしれませんね。

正直な感想を言うと、個人で使うには価格は高いと思うんですけど、PDFを編集するには使い勝手がとてもいいんですよね。

 

Adobe Acrobatの機能としては、

◆編集機能
・PDFを編集
・コメントを追加
・PDFを圧縮
・テキスト認識
・PDFファイルを結合
・PDFファイルの分割

 

◆作成機能
・PDFに変換
・WordをPDFに変換
・PPTをPDFに変換
・EcxelをPDFに変換
・JPGをPDFに変換
・PNGをPDFに変換
・HTMLをPDFに変換
・PDF印刷

 

◆書き出し機能
・PDFをWordに変換
・PDFからPPTに変換
・PDFをEcxelに変換
・PDFをJPGに変換

 

◆署名機能
・署名を依頼
・入力と署名
・フォームを準備

 

◆整理機能
・ページを削除
・ページを回転
・ページを並べ替え
・PDFのページを抽出
・PDFにページを挿入
・ページをトリミング
・ページ番号を追加

 

◆共有と保護機能
・共有
・注釈用に送信
・PDFを保護
・ロック解除
・ファイルを比較

 

と、PDFに関してこれだけの機能があるんですね。

PDFに関しては、たぶんすべてのことができるんじゃないかと思います。

最近僕は特に、テキスト認識の機能をよく使ってるんですが、やっぱり超有名なソフトでも少し苦手なことがあるみたいで、テキスト認識でいくつか気になったところがありましたので、それを共有したいと思います。

もし使う時に参考になれば幸いです。

 

Adobe Acrobatのテキスト認識を使って気付いた3つのこと

1.荒い画像の文字を変換するのは難しそう。けっこう失敗(文字化け)する

これは文字が画像になっているもの+Wordなどで作成された文章のPDFをテキスト認識にかけたんですが、画像に引っ張られているのか普通の文章部分もテキスト認識がされなかったんですね。

画像の部分だけ削除してみたんですが、残った部分のしっかり読める明朝体の文章でもやっぱり文字化けしてしまいました。。。

こういったPDFをテキスト認識するにはもっと工夫が必要かもしれません。

 

2.文書の中で数字周りに空白ができやすい

これは普通にテキスト認識したときに気が付いたのですが、数字の前後になぜか空白ができてしまいます。これが必ずなるって訳ではなくて、ならない時もあるし、数字の後ろだけ空白ができるときや前後にしっかり空白ができるときがあります。

これは実際にテキスト認識をして書き出した文章を確認してみないと分からないので、ソフトに頼りきりにならずに、自分の目でしっかりチェックをしなければなりません。

 

3.ページまたぎは改行扱いになるので途切れる箇所がある

これはソフト的には判断できないと思うので、しょうがないかもしれませんがページまたぎの文章は必ず改行されています。

なので、数ページにわたる長い文章の場合は、書き出した文章の改行位置がおかしくなっている箇所があります。気を付けてください。

 

自分が気になったところは、以上の3つです。

とは言え、このソフトが便利なことには変わりないので、もし使ったことがない人はお試しで有料プランも使えるので、ぜひ試してみてほしいなと思います。

最近はオンラインで書類のやりとりとかよくあるので署名とか、注釈とか便利な機能があるとほんと楽ですからね。

Adobe Acrobatについてはこちら
Adobe Acrobat 電子契約もできるPDF編集・作成ツール

今日の話が参考になれば幸いです。

本日も最後までお読みいただき本当にありがとうございました!

 

「稼ぐ」スキルを身につけるJMWAオンラインスクール