一、获取或下载PDF文件
1、正常获取的PDF文件。
2、从豆丁网免费获取PDF文件。
先下载“豆丁网文件下载器”,然后把需要下载文件的页面地址放入此软件的地址栏中,保存下载的文件即可。(此软件下载后不能正常使用,需要安装微软的一个组件“.net frameword 3.5 setup”,名称为“dotnetfx35”)。
3、从百度网免费获取PDF文件。
百度网中下载PDF文件,可以正常注册,每一次注册会给一定的积分(有获取积分方法,此不详述),可以用于下载。
二、把PDF文件(包含图片)转换成DOC文件
(推荐使用)
1、用“汉王PDF OCR 8.1.4.16“版权软件把PDF文件(包含图片)转换成TXT文件(此软件免费)
使用方法:
(1)、文件——打开图像(可识别PDF、JPG、BMP、TIF文件);
(2)、选择全部文件——版面分析——开始识别——输出——到指定格式文件——保存(编辑修改OK)
(注:此软件免费,可识别转换PDF文件和图片文件中的文字,方便使用)
***********************下面方法可以参考*****************************
2、通过solid converter-pdf软件转换。
(此软件已测试,可以正常使用)
(1)、安装此软件,Solid Converter PDF 4.0.560版本(此版本免激活)
(2)、打开PDF文件,A:转换为WORD;B:将表格提取到EXCEL;C:提取图象。
(此软件的优点:可以提取PDF中的文字、图片和表格)
3、用Office 2003中自带的Microsoft Office Document Imaging 来转换。
(此方法网上很流行)
(1)、首先使用Adobe Reader打开待转换的PDF文件,接下来选择“文件→打印”菜单,在打开的“打印”设置窗口中将“打印机”栏中的“名称”设置为“Microsoft Office Document Image Writer”,确认后将该PDF文件输出为MDI格式的虚拟打印文件。
(编辑提示:如果你在“名称”设置的下拉列表中没有找到“Microsoft Office Document Image Writer”项,那证明你在安装Office 2003的时候没有安装该组件,请使用Office 2003安装光盘中的“添加/删除组件”更新安装该组件。)
(2)、运行Microsoft Office Document Imaging,并利用它来打开刚才保存的MDI文件,选择“工具→将文本发送到Word”菜单,并在弹出的窗口中勾选“在输出时保持图片版式不变”,确认后系统提示“必须在执行此操作前重新运行OCR。这可能需要一些时间”,不管它,确认即可。
(编辑提示:目前,包括此工具在内的所有软件对PDF转DOC的识别率都不是特别完美,在转换后还需要手工对其进行后期排版和校对工作。)
4、从图片中扣出文字
紫光OCR可以提取 .tif、、.pcx文件。(此OCR75软件免费,但不是所有的此类文件都可以打开)
*********************************************************************