本文来源:机器之心
这篇由微软撰写的报告,深入研究了GPT-4V的功能,任何想要探索GPT-4V潜力的人,都值得一读。。。。。。。。
视觉-语言能力
论文第四章研究了如何利用 GPT-4V 来理解和解释视觉世界。 首先4.1节探讨了GPT-4V对不同域图像的识别能力,包括识别不同的名人,并能详细描述名人的职业、行为、背景、事件等信息。
除了识别名人外,GPT-4V能准确识别测试图像中的地标,还能产生生动而详细的叙述,从而捕捉地标的特性。
GPT-4V还可以识别各种菜肴,并给出菜肴中的特定成分,装饰物或烹饪技术。
除此以外,GPT-4V还可以识别常见的疾病,例如其能根据肺部的CT扫描指出潜在的问题,又或者对给定的x光片中的牙齿和颌骨,解释下颌左下方和右侧部分出现的智齿可能需要切除;GPT-4V能正确识别徽标,并提供详细的描述,包括其设计,颜色,形状和符号;如果提示中出现的问题与照片不符,GPT-4V也能进行反事实推理。
4.2节探讨了GPT-4V对目标的定位、计数和密集字幕生成。 下图表明GPT-4V能够理解图像中人与物体之间的空间关系,例如识别飞盘和人之间的空间关系。
GPT-4V能够确定图像中指定物体的数量,下图表明GPT-4V成功地计算出图像中出现的物体的数量,如苹果、橘子和人。
GPT-4V成功地定位和识别图像中的个体,然后为每个个体提供简洁的描述。
4.3节介绍了GPT-4V能够进行多模态理解以及对常识的掌握能力。下图展示了GPT-4V能够解释笑话和梗图:
GPT-4V能够回答科学问题:
GPT-4V还能进行多模态常识推理:
4.4节介绍了GPT-4V对场景文本、表格、图表和文档的推理能力。 GPT-4V可以进行数学推理:
GPT-4V还能阅读一份多页的技术报告,理解每个部分的内容,并对该技术报告进行总结:
4.5节介绍了GPT-4V对多语言多模态的理解。
GPT-4V能够生成不同语言的图像描述:
4.6节介绍了GPT-4V的编码能力。 基于手写数学方程生成LaTeX代码的能力:
GPT-4V生成Markdown/LaTex代码以重建图像中表的能力:
GPT-4V编写代码以复制输入图形的能力:
......... 待续
每周五下午5:00-7:00直播: 报名链接: https://us02web.zoom.us/.../571.../WN_cuCx2zB0SgWwkcwLK1HIvA
2023股市面临巨大风险,关注“一级市场”投资机会
我们特别邀请了中国第一个私人银行(北京商业银行)的发起人 - John Wang为我们一对一解析一级市场投资机会和风险 “一级市场”投资研讨,不对公众开放,仅限“实名”认证的注册会员
加入方式: 1, 微信: Vandave
2, WhatsApp: 604-7227628
3, 视频号: 时空“资升堂”联系在线客服
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
文章内容不代表本网站场,对文章内容概不负责。 如有争议,请随时联系我们!
免责声明
文章内容不代表本网站立场。 如有争议,请随时联系我们!
Kommentarer