« 洋書をまとめ買い | トップページ | モニターつきのインターフォン »

2008年12月 9日 (火)

Mac で OCR

ずっとスキャナというものを持っていなかった。が、今年になってプリンタを買い替えるときに、複合プリンタにした。HP の Photosmart C8180 という機種だ。複合機なのでスキャナ機能もついている。

新聞とか雑誌の気になった記事を切り抜いておくことがあるが、結局そのままにしてどこにいったかわからなくなる。封筒などに入れておいても、数が多くなると、いざというときに該当する記事を探すのはむずかしい(というか、おそらく不可能)。パソコン内に保存して、検索できるようにしたい! それには、スキャナと OCR ソフトが必要なんだよね。

プリンタを買い替えたのは今年の初めだったと思うが、スキャナ機能をためしたのはわりと最近のこと。HP Scan Pro というソフト(むしろ機能か?)が付属しているので、プリンタに原稿をセットしてそれを立ち上げると、ウィンドウに原稿が映し出される。これをどういう書式でどこに保存するか指定するわけで、読み取りの操作自体は簡単だ。

新聞記事をスキャンしてみた。保存するときに、PDF 書類にテキストを重ねるという方法を選択(テキストを上にするか下にするかで多少違うようだが)。そうすると、読み取ったあとに OCR が働いているようなダイアログが表示されるが、実際には本文中の語句を検索できない。ヘルプにはできると書いてあるのだが・・・

でも待てよ・・・新聞や雑誌の記事は段組みになっているのが普通だし、間に写真やイラストが挟まっていたり、小見出しがあったり、いわゆるレイアウトが複雑だ。OCR ソフトを使うときには、対象の文章をブロックで囲んで、読み込む順番を指定してやるんじゃなかったかしら(なにしろ OCR ソフトを使ったことがないので、こんな当たり前のことを思いつくのにずいぶん時間がかかってしまった^^;)。

ではどうやって指定するのか。ヘルプを見てもどうしてもわからないのでサポートに電話したら、あっさりと「できません」と言われてしまった(>_<)。付属品なので、そこまで高機能ではないそうだ(でもこれができない OCR ソフトの使い道はほとんどないと思うのだが…)。もちろん市販のソフトを使うことはできるから、早速購入を・・・

ところが驚いた。Mac 用の OCR ソフトがほとんどないのだ。Web で「読んdeココ」「eTypist」などの名前を見つけることができたが、いずれも情報が古かった。メーカーのサイトがヒットしないので(Mac 版の話)、いまではもう流通していないのでは・・・と思ってしまう。また、「読取革命Lite」という製品があるが、これはスキャナなどのハードウェアにバンドルされる製品らしく、単体では購入できないうえ、フルバージョンの「読取革命」にはどうやら Mac 版がない(なぜなんだ!!)。

う〜ん、電子スクラップは Windows でするしかないのか…(一応 Windows マシンも持っている)…と思っていたところに、タイミングよく広告メールが届いた。プリンタに付属の OCR 機能を提供している I.R.I.S という会社から。

普段なら広告メールは歓迎しないのだが、このメールにある「Readiris PRO」というのがどうやら OCR ソフトらしい、とわかったので、リンクからインターネットのサイトに飛ぶ。Mac の最新OS、Leopard に対応しました!という宣伝だが、うちはその1つ前の Tiger なので、逆に Tiger でも使えるかどうかが問題。メーカーサイトの写真などから、読み込む順番を指定できることは確認できた(そりゃ当然だろうけど)が、ここでもうひとつ疑問が・・・何カ国語(詳しく覚えていないが3桁の数字)を認識できます!と誇らしげに書いているが、その中に日本語が入っているかどうかが大問題。なにしろ海外のメーカーなんだから。これはサイトを見ただけではわからなかった。

そこでメールで問い合わせることにした。Tiger で使えるかということと、日本語が認識できるかという2点。2日ぐらいで返事があり、Tiger は問題ないことがわかったが、日本語を読み取るには、同じ Readiris PRO でも Asian Edition を買う必要があるらしい。問い合わせてよかった。

メールにあった URL にアクセスして早速注文。海外のソフトを海外のメーカーから直接買うのは初めてなので少し不安もあったが、他に選択肢はなさそうだし。通貨はユーロでクレジット決済。

注文したのは11月28日で、品物はほぼ1週間後の先週土曜日に届いた。きのうインストールして、早速使ってみた。以前に読み込んで検索できなかった新聞記事をもう一度読み込んでみる(パソコン内のファイルをソフトのアイコンにドラッグ&ドロップすると、ソフトが起動してファイルを読み込む)。読み取りのボタンを押すと、おお、ソフトが適当に文章のブロックを判断して番号を振ってくれるではないか! 順番が違っている場合は修正できる。また、そのブロックをテキストとして認識しているか、画像として認識しているかも表示されるので、それもこちらの意図と違っている場合は訂正する。最初、そうして読み取った結果を表示すると、わけのわからない文字の羅列でまったく読めないのでギョッとした。しかしそれは、読み取りの言語が English になっていたからだ。Japanese にして再度試すと、今度はうまく読み取れた。マニュアルをよく読むと、「Recognize」のボタンを押す前に言語を指定するように、と書いてある(^^;)。マニュアルは英語なのでぱぱっと斜め読みというわけにはいかない。なので、誤認識の場合(少しある)の訂正の仕方など、まだわからないことが多いが、読み取ったファイルを Adobe Reader で開いて本文中の語句を検索するとちゃんとヒットするので、検索可能な文字列として認識されていることはたしかだ。

日本では話題にもならない会社の製品なので不安だったが、意外と使いやすいし(メニューも英語だが問題ない)、認識の能力も十分実用的だと思う。Windows 版のソフトに比べて、海外からの送料などもかかるため、割高だとは思うが・・・これからどんどん使いこなしてはやくモトをとりたいものだ(笑)。

追記:この続きは こちら

|

« 洋書をまとめ買い | トップページ | モニターつきのインターフォン »

パソコン・インターネット」カテゴリの記事

コメント

すみません。Ryuと申します。初めて書き込ませていただきます。
管理人様とは異なり、翻訳を生業とはしておりませんが、私も現在OCRソフトが必要な状態になり、Mac用OCRソフトの現状に愕然としております。HPを見させていただきましたが「日本語を読み取るには、同じ Readiris PROでもAsian Edition を買う必要がある」とのことですが、Mac版はそもそも「Asian Edition」が現段階では存在するのでしょうか?。もしくは別の版があるのでしょうか。管理人様のお持ちの「動作が確認できている」Readiris PROの版は、IRIS Readiris Pro 11 (Mac)でしょうか。
ご多忙のなか申し訳ありませんがご教授いただければ幸いです。

投稿: Ryu | 2009年2月 9日 (月) 00時40分

Ryu さま

私が購入したのは「Readiris Pro 11」ですが、パッケージに [Asian] と明記されています。ディスク表面には、Readiris Pro 11: Asian Version 11.6 for Macintosh とありますね。ですので Asian Edition はたしかに存在します。私のマシンは Power Mac G4 (Quick Silver)、OS は 10.4.11 と古い機種ですが、Intel Mac でも大丈夫のようです。

ただ、これがお勧めできるかというとちょっと・・・というところです。この記事を書いて以降まだあまり使いこなしていないのですが、どうもやはり日本語の認識力に難があるようです。まあ、誤認識は程度の差はあれ避けられないと思いますが、誤認識の修正ができないのではないか(少なくともPDF書類の場合)という疑いを持っています。そこで、たとえば新聞記事の場合、記事そのものは画像としてスキャンして、それとは別に OCR で読み取った内容をテキストファイルで保存することで、本文語句の検索と誤認識の修正ができないものかと考えています。頭で考えただけでまだ実践していないので、少しお待ちいただけますか? そのうち続編を投稿したいと思います。

もっとも現在困っていらっしゃるわけで、そんなに悠長には待っていられないと思われるでしょうね。書類のスキャンが主で、ハードも購入してよいというお考えなら、ScanSnap はいかがでしょうか。あちこちで取り上げられていて評判が良いのでご存じかもしれませんね。Adobe Reader Pro が付属して、Pro だけ購入するよりも安いとどこかで読んだことがあります。私も、複合プリンタをすでに持っているのでなければ購入したかもしれません。ただ、書籍はスキャンできません(フラットベッドタイプではないので)。本(雑誌ではなく)をバラしてスキャンしたという人もいるみたいですが、私はそれはとっても抵抗があるので・・・また、エプソンだかキャノンだかのスキャナには「読取革命 Lite」が付属するものがあります。それにしても、簡易版があるならフルバージョンも用意してしかるべきと思うのに Windows 版しかないとは納得できません。最近の Mac では Windows も動くので便利だと思う人も多いでしょうが、それで Mac のソフトが少なくなっていくとしたら寂しいことです。

なお、英文のスキャンが中心なら、Readiris Pro でも十分実用的だと思います(まだ試していません)。

ずいぶん長くなってしまいましたが、よい解決策が見つかることをお祈りしています。

投稿: Junkot | 2009年2月 9日 (月) 23時15分

Junkot様
お返事有り難うございます。お勧めできるかに関してはちょっと・・・なんですね。PDFの文献(英語や日本語)がある程度ストレスなく読み込めれば、,,と期待をしていたのですが(*_*)。今週末にScansnapを購入予定としましたが、幾つかの報告を見てみると(Acrobat使用下でも)必ずしも良好な結果は得られていないようで、悩み所です。

投稿: Ryu | 2009年2月12日 (木) 00時43分

Mac Leopardで ScanSnap S300Mのユーザーです。
購入時にOCRが付属していませんでしたので、新たにOCRを購入したいと思っています。
富士通から新しくOCRの購入が可能ですか

投稿: 野尻寛 | 2010年10月15日 (金) 17時21分

野尻寛さま

何度もコメントをいただきましたが、当ブログではコメント・トラックバックは管理人が承認するまで公開されない設定になっています(このことは「コメントを書く」のところに表示されています)。ここ3日ほど管理人が留守にしていてインターネットに接続できなかったため、承認するのが遅くなりました。決してコメントが正常に送信されなかったわけではありませんので。

お尋ねのOCRの件ですが、私がこの記事で取り上げたReadiris Proを購入したいというお話なら、おそらくメーカーのサイトからでしか購入できないのではと思います。製品名で検索すると出てくるはずです。日本語を扱うためには、Asian Edition というのを購入する必要があります。

富士通がOCRを扱っているかどうかは存じませんので、直接聞いていただくしかないと思います。

投稿: Junkot | 2010年10月15日 (金) 23時28分

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



トラックバック


この記事へのトラックバック一覧です: Mac で OCR:

« 洋書をまとめ買い | トップページ | モニターつきのインターフォン »