
如果你需要将图片(PDF文件)中的文字提取出来。我这里就教你一个方法吧。
首先可以利用Office 2003组件。运行Office 2003安装包, abbr_cd9352b49c6bd0ce4b8b09037408be7f.jpg (34.38 KB)
2007-10-10 14:41
不过刚装的就少了这个过程了。接着在勾选 “选择应用程序的高级自定义”这里要注意的是刚装的在选择安装时要选完全安装或自定义,而不是默认的“经典”
abbr_b2a7f1c37e188d8a8c14377d3cacd1fc.jpg (40.1 KB)
2007-10-10 14:41
打开Office工具→Microsoft Office Document Imaging,按提示选择安装“扫描、OCR和索引服务筛选器”和“Microsoft Office Document Image Writer”
abbr_b8ac0b023396b39fd48778cad027bc.jpg (45.63 KB)
2007-10-10 14:41
进行更新完毕后。在安装Microsoft Office Document Imaging组件后,Windows XP系统会自动安装一个名为“Microsoft Office Document Imaging Writer”的打印机(虚拟打印机)。Imaging组件可以通过这个虚拟打印机,将PDF文件所保存的信息识别,从而达到将它直接转换输出到Word等文字编辑工具中的目的。
第二步:用Adobe Reader 打开想转换的PDF文件,(或用图片浏览器打开相机拍摄的文档照片)接下来 选择 “文件→打印”菜单,在打开的“打印”窗口中将“打印机”栏中的名称设置为 “Microsoft Office Document Image Writer”
abbr_f8ade4fa4e5f97be60e3fc953cc8dc.jpg (46.38 KB)
2007-10-10 14:41
确认后将该PDF文件输出为 MDI格式的虚拟打印文件(点击确定)
abbr_e2335d16cdd115162a8a4b1e7982a48a.jpg (42.85 KB)
2007-10-10 14:41
然后,运行 “Microsoft Office Document Imaging”,并利用它来 打开 刚才保存的MDI文件,选择“工具→ 将文本发送到Word
abbr_cf13ca49667324cd86bda58a768706.jpg (37.94 KB)
2007-10-10 14:41
在弹出的“将文本发送到Word”窗口中选中“所有页面”和“ 在输出时保持图片版式不变
abbr_bb8ce333d2b09435eaf0aff3543a96.jpg (40.8 KB)
2007-10-10 14:41
确认后系统会提示“必须在您执行此操作前识别该文档中的文本(OCR)。这可能需要一些时间”,不管它,点击确定即可
识别完成后,系统会自动调出Word,这时你就可以看到,刚才还不能编辑的文字,乖乖的出现在Word编辑窗口中
需要说明的是,利用Office 2003实现PDF文件转的Word文档不是特别完美,转换后会丢失原来的排版格式,所以转换后还需要手工对其进行排版和校对
本人利用此方法转换的文档,识别的正确率超过某些扫描仪。感兴趣的朋友可以试一下。对大篇幅的文档相当快捷。
相机的像素不要求很高,但一定要能对焦。我用200W手机拍的也行,
