随着所有关于聊天机器人(如ChatGPT)的讨论,很容易忘记基于文本的聊天只是众多AI功能之一。理想的生成式人工智能将能够根据需要跨不同的模型工作,解释和生成图像、音频和视频。
进入Jarvis,这是微软的一个新项目,它承诺一个机器人来统治所有项目。Jarvis使用ChatGPT作为系统的控制器,它可以根据需要使用各种其他模型来响应您的提示。在一篇论文中(在新选项卡中打开)由康奈尔大学出版的微软研究人员(沈永亮、宋开涛、徐谭、李东升、卢伟明和庄跃婷)解释了这个框架是如何工作的。用户向机器人发出请求,计划任务,选择所需的模型,让这些模型执行任务,然后生成并发出响应。
研究论文中提供的下图显示了这个过程在现实世界中是如何工作的。用户要求机器人创建一个图像,其中女孩正在阅读书籍,并且她的位置与示例图像中的男孩相同。机器人计划任务,使用模型解释原始图像中男孩的姿势,然后部署另一个模型来绘制输出。
微软有一个Github页面(在新选项卡中打开)您可以在基于Linux的PC上下载并试用Jarvis。该公司建议您使用Ubuntu(特别是过时的16LTS),但我能够获得它的主要功能-基于终端的聊天机器人-在Ubuntu22.04LTS和Linux的Windows子系统上工作。
但是,除非您真的喜欢弄乱配置文件的想法,否则查看Jarvis的最佳方法是使用HuggingGPT(在新选项卡中打开),微软研究人员在HuggingFace建立的基于Web的聊天机器人,这是一个在线AI社区,拥有数千个开源模型。
如果您按照以下步骤操作,您将拥有一个有效的聊天机器人,您可以向其显示图像或其他媒体,并要求它也输出图像。我应该指出,就像我尝试过的其他机器人一样,结果非常复杂。
如何设置和尝试微软贾维斯/拥抱GPT
1.获取OpenAPIAPI密钥(如果您还没有)。你可以在OpenAPI的网站上获得它(在新选项卡中打开)登录并单击“创建新密钥”。注册是免费的,您将获得免费的信用额度,但如果用完,则必须支付更多费用。将密钥存储在文本文件中等位置,以便轻松访问。一旦复制它,您将永远无法再次获得它。