top of page

彭博利用人工智能及其海量数据创建新的金融聊天机器人

本文来源:Jamiel Sheikh Contributor, 福布斯 - 数字资产

Jamiel Sheikh Contributor

I’m a Web3 & AI entrepreneur and educator in New York City.


彭博正在为 ChatGPT 为日常通用聊天机器人带来的东西提供资金。

彭博社发布的论文揭示了其 BloombergGPT 机器学习模型的巨大技术深度,将 GPT 使用的人工智能技术类型应用于金融数据集。 四十多年来,彭博终端一直是交易和金融界获取金融市场数据的首选资源。 因此,彭博社获得或开发了大量专有和精选的数据集。 在许多方面,这些数据是彭博的皇冠上的明珠,在这个版本的 BloombergGPT 中,这个专有数据被用来构建一个前所未有的金融研究和分析工具。


推动此类 AI 实验的大型语言模型本质上是句法和语义的,用于根据源文本中和源文本之间的现有关系预测新结果。


机器学习算法从源数据中学习并生成模型,这一过程称为“训练”。BloombergGPT 模型的训练需要在 64 台服务器上运行大约 53 天的计算,每台服务器包含 8 个 NVIDIANVDA -2.4%DIA -1% 40GB A100 GPU . 相比之下,当我们使用 ChatGPT 时,我们向模型(或公式)提供一个输入,称为提示,然后模型产生一个输出,就像向公式提供输入并观察输出一样。 这些模型的生成需要大量的计算能力,因此 Bloomberg 与 NVIDIA 和 Amazon Web Services 合作生产 BloombergGPT 模型。


由于每个 GPU 的成本为数万美元(如果购买新的),并且用于模型生成的时间相对较短,因此 BloombergGPT 团队选择使用 AWS 云服务来运行计算。 由于每个服务器实例的成本为每小时 33 美元(正如目前公开宣传的那样),我们可以做出超过 270 万美元的餐巾纸背面成本估算,仅生产该模型。


向机器学习模型提供内容的一部分涉及将内容分割成片段或标记。 考虑标记的一种方法是我们可以将一篇文章分解成最明显的单词,尽管可能还有其他策略来标记或分割一篇文章,比如将其分解成句子或段落。 分词器算法决定以何种粒度进行分段,因为,例如,将一篇文章分段成字母可能会导致某些上下文或意义的丢失。 碎片太细,没有任何实际用途。


BloombergGPT 使用 Unigram 模型将其金融数据源分割成 3630 亿个令牌,这提供了一定的效率和好处。 要使用分词器,请在此处尝试 GPT 分词器。


Bloomberg 团队使用 PyTorch(一种流行的基于 Python 的免费开源深度学习包)来训练 BloombergGPT 模型。


就 BloombergGPT 而言,源数据集包括一些加权比例的金融新闻、公司财务文件、新闻稿和彭博新闻内容,这些都是彭博数十年来收集和策划的。 除了这些特定于金融的来源之外,

BloombergGPT 确实集成了一些通用和常见的数据集,例如 The Pile、The Colossal Clean Crawled Corpus 或 C4 以及维基百科。 结合起来,BloombergGPT 可以提供一种全新的金融研究方式。


关于 2007 年 3 月 1 日至 2022 年 7 月 31 日期间用于训练的彭博数据,彭博将这一金融数据收集称为 FINPILE。 FINPILE 包含五个主要的财务内容来源,即:


  1. 财经网。 一般 Web 内容(如网站和文档),但缩小到可归类为金融用途的特定站点。 即使在这个类别中,BloomberGPT 也只抓取它认为有信誉和高质量的网站。

  2. 财经新闻。 虽然网络抓取的是金融类网站,但产生新闻信息的新闻网站需要特别注意。 虽然 Web 可能包含过多的内容类型,从 PDF 到图像,但新闻网站需要更严格的管理。

  3. 公司文件。 任何对上市公司进行任何研究的人都必须考虑研究该公司的文件。 在美国,SEC 的 EDGAR 数据库通常是用于搜索和检索文件的存储库。

  4. 新闻稿。 公司的正式公共通讯通常可以包含财务信息,这已作为来源包含在 BloombergGPT 中。

  5. 彭博社新闻。 鉴于彭博也是一家媒体公司,其新闻内容被使用并提供给 BloombergGPT。 这包括意见和分析文章。


尽管 BloombergGPT 将如何影响金融科技行业还有待观察,但 BloombergGPT 的一些潜在用途可能包括:


  1. 生成证券交易委员会备案的初稿。 考虑到大量的备案数据,就像 ChatGPT 如何生成临时专利备案或定制的编程代码一样,完全有可能生成 SEC 备案,从而有可能降低备案成本。

  2. BloombergGPT 论文提供了一个将包含金融内容的广告摘要概括为标题的示例。 例如,如果宣传语是:根据 Redn 的数据,2022 年下半年美国房地产市场价值缩水 2.3 万亿美元,即 4.9%。 这是自 2008 年房地产危机以来的最大百分比跌幅,当时房价在同一时期下跌 5.8% BloombergGPT 将产生以下输出:“Home Prices See Biggest Drop in 15 Years”。

  3. 提供组织的公司图表以及个人与多家公司之间的联系。 由于公司名称和高管姓名被输入到 BloombergGPT 模型中,因此完全有可能至少可以查询该组织的高管级别结构。

  4. 为客户自动生成例行市场报告和摘要草案

  5. 通过单一提示检索特定时期财务报表的特定要素

BloombergGPT 代表了金融和 AI 社区的重大飞跃。 目前,该模型不公开可用,也没有 API,更不用说聊天界面来访问它了。 目前尚不清楚何时或是否可以公开访问,甚至目前的 BloombergGPT 版本仍将进行进一步修订。 BloombergGPT 团队在他们的论文中得出结论,“我们出于谨慎而犯了错误,并遵循了其他 LLM 开发人员的做法,没有发布我们的模型”,并且不会向公众公开该模型。


OpenAI 的估值超过 200 亿美元,谁能责怪他们呢?

每周五下午5:00-7:00直播: 报名链接: https://us02web.zoom.us/.../571.../WN_cuCx2zB0SgWwkcwLK1HIvA

2023股市面临巨大风险,关注“一级市场”投资机会


我们特别邀请了中国第一个私人银行(北京商业银行)的发起人 - John Wang为我们一对一解析一级市场投资机会和风险 “一级市场”投资研讨,不对公众开放,仅限“实名”认证的注册会员


加入方式: 1, 微信: Vandave 2, WhatsApp: 604-7227628 3, 视频号: 时空“资升堂”联系在线客服

风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

 

文章内容不代表本网站场,对文章内容概不负责。 如有争议,请随时联系我们!

 

免责声明

文章内容不代表本网站立场。 如有争议,请随时联系我们!

 



Comments


bottom of page