S 351a1283ebdb3e2fd13e6cefe95ed231 PDF,Wordからテキスト抽出

よいまとめ?
http://ubiquitous-learning.jp/la...

PDF

xpdfのpdftotextが定番らしい

pdftotext -v
pdftotext version 0.16.4
入ってた

今はpoppler(-utils)っていう名前らしい
http://fiasco.ddo.jp/blog/2009/0...

http://www.altus5.co.jp/wordpres...
PDFBoxっていうApacheプロジェクト(なのでJava)もある。

http://www.clear-code.com/blog/2...
1年前の記事。新しい。

http://opencae.my-sv.net/pctips/...
GMailに送りつける。
これは新しいんじゃないかと思うけど怒られるのでやめよう。

ps2asciiってのも使えるみたい
http://blog.goo.ne.jp/nobody123/...

$ ps2ascii -v
GPL Ghostscript 9.01 (2011-02-07)
Copyright (C) 2010 Artifex Software, Inc. All rights reserved.

入ってた

------------------------------------

試してみる。

sudo apt-get install poppler-utils
already newer

http://www.mext.go.jp/a_menu/sho...
でやると勝手に日本語だけを取ってきた(おそらく中国語を認識できてない)

※失敗するときはcmapなるものを入れるらしい

------------------------------------

Word

abiwordってやつがいいらしいけど、CUIでインストールできる気がしない
apt-getで入れれるらしいのでcentでも大丈夫っぽい

Excel

gnumericに入っているssconvertってやつでできるっぽい。
sourceからインストール

https://github.com/Kimtaro/node-...
これ風にnodeでwrapper作ったら今後楽かも

また後で。

旧バージョンで表示 ググる ウィキペる 図書る アマゾる つべる ニコる ヤフオクる 英辞る ツイーターで探す

もしかして

    他の人の「PDF,Wordからテキスト抽出」

    S 351a1283ebdb3e2fd13e6cefe95ed231

    はじめまして。そして、はじめまして。

    (127words)

    最新

      最新エントリ

        関連ツイート