首页手记 Google 推出 LangExtract...

Google 推出 LangExtract —— 基于 Python 的非结构化文本结构化数据提取库

标签：

产品人工智能 API

本文已收录在Github，关注我，紧跟本系列专栏文章，咱们下篇再续！

🚀 魔都架构师 | 全网30W技术追随者
🔧 大厂分布式系统/数据中台实战专家
🏆 主导交易系统百万级流量调优 & 车联网平台架构
🧠 AIGC应用开发先行者 | 区块链落地实践者
🌍 以技术驱动创新，我们的征途是改变世界！
👉 实战干货：编程严选网

Google 发布了 LangExtract，这是一款开源 Python 库，旨在帮助开发者借助大型语言模型（如 Gemini 模型）从非结构化文本中提取结构化信息。该库能将自由格式的文本（如临床记录、法律文书、客户反馈等）转换成结构化数据。开发者只需用自然语言指令和示例数据，就能定义提取任务，从而更轻松地处理和整理各种非结构化内容。

LangExtract 的一大亮点是采用了 [受控生成技术](https://developers.googleblog.com/en/introducing-langextract-a-gemini-powered-information-extraction-library/#:~:text=What makes LangExtract effective for information extraction)，保证提取出的信息格式统一，并能准确对应到原文中的来源位置。它会高亮显示相关的文本片段，让每个被提取的实体都能追溯到原始文档的确切位置，这大大提高了提取结果的透明度与可信度。

为了应对冗长复杂的文档，LangExtract 结合了文本分块、并行处理和多轮提取等先进策略。这些方法能有效提升召回率和准确率，让该库在处理大规模文本时依然保持高质量输出，因此适用于医疗、法律等多个领域，而且无需对底层模型进行大量微调。

LangExtract 支持集成多种大型语言模型，包括云端的 Gemini 和本地运行的平台（如 Ollama）。这种灵活性让开发者在不同模型环境下都能使用它来定义多种信息提取任务，而无需具备深厚的机器学习背景。

LangExtract 的发布引发了开发者社区的热烈反响。Akshay Goel 作为主要贡献者之一，表示对这一发布非常兴奋，并期待看到用户的各种创新应用，这也体现了该项目的协作精神。他在帖子中写道：

今天和团队一起发布 LangExtract，迫不及待想看看开发者社区会用它做出什么！

开发者 Kyle Brown 称其为人工智能透明度上的一次重大进步，将非结构化文本转化为结构化、易理解的数据。同时，社区还推出了 TypeScript 版本，使其不仅兼容 Google 的 Gemini，还能支持 OpenAI 模型，进一步扩大了使用范围。

对感兴趣的人来说——我已将它移植到 TypeScript，并加入了对 OpenAI 的支持，不再仅限于 Gemini。

该库采用 Apache 2.0 许可协议，可通过 pip 轻松安装，为开发者在应用中添加信息提取功能提供了一个强大且易用的工具。

本文由博客一文多发平台 OpenWrite 发布！

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

JavaEdge

JAVA开发工程师

手记
篇

粉丝

1.4万

获赞与收藏

1484

关注作者，订阅最新文章

阅读免费教程

Hibernate 入门教程

29个小节 6505 97

HTTP 入门教程

28个小节 39255 676

后端通用面试教程

41个小节 33029 372

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

Google 推出 LangExtract —— 基于 Python 的非结构化文本结构化数据提取库

阅读免费教程