为了账号安全,请及时绑定邮箱和手机立即绑定

FineReader 引擎 Java SDK。如何在从 PDF 转换为 DOCX 时忽略图片

FineReader 引擎 Java SDK。如何在从 PDF 转换为 DOCX 时忽略图片

LEATH 2023-06-14 10:52:49
我需要找到一种方法来在转换为 DOCX 文件的过程中忽略 PDF 文档中的图片和照片。我正在创建 FineReader Engine 的一个实例:IEngine engine = Engine.InitializeEngine(engineConfig.getDllFolder(), engineConfig.getCustomerProjectId(),engineConfig.getLicensePath(), engineConfig.getLicensePassword(), "", "", false);之后,我正在转换文档:IFRDocument document = engine.CreateFRDocument();document.AddImageFile(file.getAbsolutePath(), null, null);document.Process(null);String exportPath = FileUtil.prepareExportPath(file, resultFolder);document.Export(exportPath, FileExportFormatEnum.FEF_DOCX, null);因此,它会转换初始 pdf 文档中的所有图像。
查看完整描述

3 回答

?
UYOU

TA贡献1878条经验 获得超4个赞

当您将 pdf 导出到 docx 时,您应该使用一些导出参数。通过这种方式,您可以使用 IRTFExportParams。你可以得到这个对象:

IRTFExportParams irtfExportParams = engine.CreateRTFExportParams();

在那里你可以像这样设置 writePicture 属性:

irtfExportParams.setWritePictures(false);

那里:IEngine engine是主界面。我想你知道如何初始化它;)))

您还必须在方法 document.Process() 属性中进行设置。(文件来自IFRDocument document)。在Process()方法中你必须给IDocumentProcessingParams iDocumentProcessingParams。这个对象有方法setPageProcessingParams(),你必须把IPageProcessingParams iPageProcessingParams参数放在那里(你可以通过 得到这个对象engine.CreatePageProcessingParams())。这个对象有方法:

iPageProcessingParams.setPerformAnalysis(true);
iPageProcessingParams.setPageAnalysisParams(iPageAnalysisParams);

在第一个方法中设置为真,在第二个方法中我们给出iPageAnalysisParamsIPageAnalysisParams iPageAnalysisParams = engine.CreatePageAnalysisParams())。

最后一步,您必须像这样在setDetectPictures(false)方法中设置 false 值iPageAnalysisParams。就这样:)

当你要导出文档时,你应该像这样放置这个参数:

IFRDocument document = engine.CreateFRDocument();
document.Export(filePath, FileExportFormatEnum.FEF_DOCX, irtfExportParams);

希望我的回答对大家有帮助)))


查看完整回答
反对 回复 2023-06-14
?
白板的微信

TA贡献1883条经验 获得超3个赞

我不太熟悉 PDF 到 DOCX 的转换,但我认为您可以根据需要尝试自定义配置文件。


在您的代码中的某个时刻,您应该创建一个Engine对象,然后再创建一个Document对象(或IFRDocument对象,具体取决于您的应用程序)。在将文档提供给引擎进行处理之前添加此行:


engine.LoadProfile(PROFILE_FILENAME);

然后使用与您的 FRE 安装一起打包的文档中的“使用配置文件”部分下描述的一些处理参数创建您的文件。不要忘记在您的文件中添加:


... some params under other sections


[PageAnalysisParams]

DetectText = TRUE       --> force text detection

DetectPictures = FALSE  --> ignore pictures

... other params under PageAnalysisParams


... some params under other sections

它对条形码等的工作方式相同......但请记住,在从该文件中添加或删除内容时对结果进行基准测试,因为它可能会改变处理速度和结果的全局质量。


查看完整回答
反对 回复 2023-06-14
?
吃鸡游戏

TA贡献1829条经验 获得超7个赞

PDF 输入页面包含什么?MS Word 中的预期内容是什么?如果您能附上一个输入 PDF 文件的示例和一个 MS Word 格式的所需结果示例,那就太好了。然后给出一个有用的建议会容易得多。



查看完整回答
反对 回复 2023-06-14
  • 3 回答
  • 0 关注
  • 118 浏览

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信