为了账号安全,请及时绑定邮箱和手机立即绑定

Google 推出 LangExtract —— 基于 Python 的非结构化文本结构化数据提取库

本文已收录在Github关注我,紧跟本系列专栏文章,咱们下篇再续!

  • 🚀 魔都架构师 | 全网30W技术追随者
  • 🔧 大厂分布式系统/数据中台实战专家
  • 🏆 主导交易系统百万级流量调优 & 车联网平台架构
  • 🧠 AIGC应用开发先行者 | 区块链落地实践者
  • 🌍 以技术驱动创新,我们的征途是改变世界!
  • 👉 实战干货:编程严选网

Google 发布了 LangExtract,这是一款 开源 Python 库,旨在帮助开发者借助大型语言模型(如 Gemini 模型)从非结构化文本中提取结构化信息。该库能将自由格式的文本(如临床记录、法律文书、客户反馈等)转换成结构化数据。开发者只需用自然语言指令和示例数据,就能定义提取任务,从而更轻松地处理和整理各种非结构化内容。

LangExtract 的一大亮点是采用了 [受控生成技术](https://developers.googleblog.com/en/introducing-langextract-a-gemini-powered-information-extraction-library/#:~:text=What makes LangExtract effective for information extraction),保证提取出的信息格式统一,并能准确对应到原文中的来源位置。它会高亮显示相关的文本片段,让每个被提取的实体都能追溯到原始文档的确切位置,这大大提高了提取结果的透明度与可信度。

为了应对冗长复杂的文档,LangExtract 结合了 文本分块并行处理多轮提取 等先进策略。这些方法能有效提升召回率和准确率,让该库在处理大规模文本时依然保持高质量输出,因此适用于医疗、法律等多个领域,而且无需对底层模型进行大量微调。

LangExtract 支持集成多种大型语言模型,包括云端的 Gemini 和本地运行的平台(如 Ollama)。这种灵活性让开发者在不同模型环境下都能使用它来定义多种信息提取任务,而无需具备深厚的机器学习背景。

LangExtract 的发布引发了开发者社区的热烈反响。Akshay Goel 作为主要贡献者之一,表示对这一发布非常兴奋,并期待看到用户的各种创新应用,这也体现了该项目的协作精神。他在帖子中写道:

今天和团队一起发布 LangExtract,迫不及待想看看开发者社区会用它做出什么!

开发者 Kyle Brown 称其为人工智能透明度上的一次重大进步,将非结构化文本转化为结构化、易理解的数据。同时,社区还推出了 TypeScript 版本,使其不仅兼容 Google 的 Gemini,还能支持 OpenAI 模型,进一步扩大了使用范围。

对感兴趣的人来说——我已将它移植到 TypeScript,并加入了对 OpenAI 的支持,不再仅限于 Gemini。

该库采用 Apache 2.0 许可协议,可通过 pip 轻松安装,为开发者在应用中添加信息提取功能提供了一个强大且易用的工具。

本文由博客一文多发平台 OpenWrite 发布!

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
JAVA开发工程师
手记
粉丝
1.4万
获赞与收藏
1479

关注作者,订阅最新文章

阅读免费教程

  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

举报

0/150
提交
取消