Acrobat9を使わずにpdftohtmlを使って自動でPDFをHTMLへ変換する
Windows上で、PDFをエクセル、ワード、HTMLなどいろいろなファイルに変換するツールはたくせんあります。
そんなわけで、何をいまさらと思われる方もたくさんいると思われますが
HTMLへ自動で変換してWEB上で閲覧表示できるサービスを依頼されたとしましょう!
これも今となっては…、パソコンはもちろん、最近の携帯電話でも標準搭載ですので不要度UPしています。。。
いやいやHTMLはSEOに強いので…これも今となっては、なぜならPDFファイル自体も検索エンジンにインデックス化されますので…。
年々需要が低下するだろうHTML変換処理を使って、時代の流れに逆行しながらサービスを構築したいと思います。
●pdftohtmlのインストール
# yum install pdftohtml
●pdftohtmlの使い方
$ pdftohtml -enc UTF-8 readfile.pdf
※PDF内の画像は、jpeg、pngファイルになって出力されます。
●コンパイルしてインストールする場合
sourceforge.net/projects/pdftohtml/