天天新动态：【AI简报20230626】Midjourney 5.2震撼发布！AI助手0门槛开发+运行

2023-06-28 07:37:18 来源 : 商业新知网

AI 简报 20230626 期

1. 比sam快50倍的通用视觉模型fastsam(Fast Segment Anything)

MetaAI提出的能够“分割一切”的视觉基础大模型SAM提供了很好的分割效果，为探索视觉大模型提供了一个新的方向。

虽然sam的效果很好，但由于sam的backbone使用了vit，导致推理时显存的占用较多，推理速度偏慢，对硬件的要求较高，在项目应用上有很大的限制。

(资料图片)

也看到一些研究在尝试解决这个问题。

其中一个是清华团队的Expedit-SAM，对模型进行加速，论文结果最多可以提速1.5倍。主要思路是用2个不需要参数的操作：token clustering layer和token reconstruction layer。token clustering layer通过聚类将高分辨率特征转到低分辨率，推理时用低分辨率的进行卷积等操作，这样可以加速推理时间；token reconstruction layer是将低分辨率特征重新转回高分辨率。个人测试好像没有明显提升，不过已经打开了sam推理加速的思路。

最近看到FastSAM，论文结果最快提出50倍，参数更少，显存占用减少，适合应用部署。

论文: https://arxiv.org/pdf/2306.12156.pdf代码: https://github.com/CASIA-IVA-Lab/FastSAM, 目前只开放了推理代码。

web demo: FastSAM - a Hugging Face Space by An-619

预训练模型

fastsam-x

fastsam-s

1.论文解析

1.1 论文核心

以yolov8-seg的instance segmentation为基础，检测时集成instance segmentation分支。

fastsam模型结构如上图，fastsam主要分成2步：全实例分割(all instance Segmentation)和基于prompt的mask输出(Prompt-guided Selection)。全实例分割(all instance Segmentation)（1）模型：基于yolov8的模型，具体可以查看ultralytics.(2) 实例分割：yolov8-seg实现了实例分割，结果包含了检测和分割分支。检测分支输出box和类别cls,检测分支输出k（默认为32）个mask分数。检测和分割分支是并行的。对于图中的ProtoNet分割分支论文中未详细介绍。Prompt-guided Selection利用prompt挑选出感兴趣的特点目标，类似sam，支持point/box/text。

（1）point prompt：点prompt用点和实例分割输出的mask进行匹配。和sam一样，利用前景点/背景点作为prompt。如果一个前景点落在多个mask中，可以通过背景点进行过滤。通过使用一组前景/背景点，能够在感兴趣的区域内选择多个mask，然后将这些mask合并为一个mask，用于完整的标记感兴趣的对象。此外，利用形态学操作来提高掩模合并的性能。

（2）box prompt：与实例分割输出的mask的box和输入的box进行iou计算，利用iou得分过滤mask。

（3）text prompt：利用clip模型，利用图像编码和文本编码直接的相似性，提取分数较高的mask。因为引入clip模型，text prompt的运行速度比较慢。

1.2 实验结果

利用yolov8-x模型；取SA-1B数据集的2%进行监督训练；为了检测更大的instance，将yolov8的reg_max参数从16改成26；输入图像的size为1024。利用yolov8-x模型；取SA-1B数据集的2%进行监督训练；为了检测更大的instance，将yolov8的reg_max参数从16改成26；输入图像的size为1024。gpu显存占用gpu占用对比边缘检测速度对比在BSDS500数据集上对比边缘检测效果目标检测coco数据集上对比coco上max_dets参数结果对比实例分割COCO和LVIS数据集上对比显著性目标检测显著性目标检测结果对比建筑物提取建筑物提取结果对比text prompt 提取目标

1.3 不足之处

（1）低质量的小尺寸分割掩模具有较大的置信度分数。分析原因可能是因为YOLOv8的bbox分数作为置信度分数，实际上为它与mask质量并不密切相关。改进思路是修改网络以预测mask的IoU。 (2) 一些小尺寸的物体的mask基本都是正方形。另外，大尺寸物体的mask在边界框的边界上可能有一些错误的mask。这是YOLACT方法的缺点。通过提高mask原型的能力或重新制定mask生成器，可能解决这个问题。

2.应用测试

在nuscenes数据集中挑选了一张前向相机的图像，检测的mask效果还是不错的。整体来说检测效果比sam稍差一点，但是速度和显存占用有明显的改善，适合用于项目部署，对于精度要求没那么高时，可以作为sam的替换方案。nuscenes front image

# 推理代码# model_path 模型路径# img_path 图像路径# Everything modeInference.py  --model_path FastSAM.pt --img_path ./images/dog.jpg --imgsz 1024# Text promptpython inference.py --model_path ./weights/FastSAM.pt --img_path ./images/dogs.jpg  --text_prompt "the yellow dog"# Box prompt (xywh)python inference.py --model_path ./weights/FastSAM.pt --img_path ./images/dogs.jpg --box_prompt "[570,200,230,400]"# Points promptpython inference.py --model_path ./weights/FastSAM.pt --img_path ./images/dogs.jpg  --point_prompt "[[520,360],[620,300]]" --point_label "[1,0]"

2. 适配超20+芯片厂商，昇思MindSpore大模型之路走南闯北

原文：https://www.jiqizhixin.com/articles/2023-06-22-5

在 6 月 16 日的人工智能框架生态峰会 2023 上，我们见证了科学和 AI 领域的一系列技术突破，这些进展的背后都是 AI 框架昇思 MindSpore 在提供支持。上周科技领域这场备受关注的大会，展示的都是前沿 AI 应用。利用神经网络求解，在中科院大连化学物理研究所，以前用超算也无法完成的水分子运动方程计算效率提高了 1000 倍。通过跨模态统一表征学习，中科院自动化所和武汉人工智能研究院联合打造的「紫东太初」2.0，让大模型第一次进入了全模态时代，同时支持多轮问答、文本创作、图像生成、3D 理解、信号分析等任务。在 6 月 16 日的人工智能框架生态峰会 2023 上，我们见证了科学和 AI 领域的一系列技术突破，这些进展的背后都是 AI 框架昇思 MindSpore 在提供支持。人工智能的发展正在催生出前所未有的应用，AI 框架的重要性逐渐凸显，而在这个过程中，昇思已成为很多公司机构的 AI 基础设施。在峰会现场，昇思生态的参与者们公布了围绕 AI 框架生态的一系列合作，包括但不限于：启动上海昇思 AI 框架和大模型创新中心、发布「共建人工智能框架生态，繁荣中国人工智能产业」联合倡议、成立昇思 MindSpore 开源社区理事会。还有新技术和新方向，昇思的 2.0 正式版在易用性、生态兼容和 AI for Science 等方面有了里程碑式的提升。其中最引人关注的，是事关 AI 算力的重要一步：走南向。实现「多芯一生态」我们知道，AI 框架在人工智能技术构建的流程中承担着「操作系统」一样的关键角色。它集成了算法封装、数据处理、计算资源调用等能力，面向开发者提供方便的开发界面和高效的执行平台，是现阶段 AI 算法开发的必备工具。昇思 MindSpore 在机器学习开发的过程中起到上承应用、下接芯片的桥梁意义。为了持续拓展连接的广度，AI 框架需要向两个方向不断延伸：「南向」为 AI 芯片算力带来标准化，「北向」与开发者和算法厂商开展技术联创，围绕场景创新、重要需求创造更多可能性。在生态峰会上，昇思宣布了「南向」的新进展：昇思已兼容适配 20 余家芯片厂商伙伴的硬件设备，打通云端智能、边缘智能、端侧智能，实现端边云全场景协同。现在，昇思已经让智能无所不在。统一生态是昇思一直以来努力的目标。通过兼容不同架构、不同厂商的算力，昇思现在可以在 AI 框架的层面上实现统一、无感知的调用，而无需担心硬件适配能力，这种能力覆盖 NPU、GPGPU、CPU 等主流计算架构。对开发者来说，昇思从开发界面、框架能力等多个方面都做到了统一视角，应用可以同时在多种硬件后端之间平滑迁移。实际的应用效果如何？现在在云上环境中，开发者的同一套脚本可以不受资源限制地使用，比如可以先用 GPU 进行训练，当 NPU 资源可用时，不进行脚本修改就能直接切换至 NPU 继续训练。对于端侧的 AI 应用，昇思可以将云侧训练的模型无缝部署到端侧进行推理。这种能力大幅降低了 AI 开发的门槛。面向异构算力，通过昇思提供的标准南向接口与算子集，开发者可以让整体芯片使能周期大大缩短，无需再进行全量重新开发。同时借助于框架的公共能力，如自动并行、自动微分、模型导出等，我们在新硬件上也能快速完成 AI 应用的开发、训练、推理全流程。通过软硬件垂直整合方式搞优化，融合不同算力，还让它们都能发挥出最大能力，昇思所做的事在 AI 框架上属于意义重大，但难以实现。让算力在 AI 框架层面上实现统一面临很多挑战：首先，不同架构的芯片在算力配比、通信能力、内存规格等方面都有一定差异，而要充分发挥芯片算力，要解决算子执行效率、存储、运行时调度优化等问题。从技术架构上，昇思 MindSpore 为支持多硬件统一也做了不少事，包括：实现后端架构的解耦，快速支持新芯片插件化对接，包括支持第三方自定义图优化 Pass 注册，屏蔽资源管理细节，及驱动层接口注册；支持抽象硬件类型建模，让对接流程实现标准化；支持抽象算子封装，统一了算子接口，支持多平台算子库动态注册，框架层实现异构算子选择；支持第三方图 IR 接入，以充分发挥芯片的架构优势。公共组件实现跨硬件复用，如内存复用算法、内存池实现、统一运行时等。现在，开发者用同一套脚本就可以在多个硬件后端上执行 AI 任务，无需做面向硬件的修改。另外，框架的能力，如自动并行、自动微分、融合优化等都是基于统一 IR 来构建的，因此可以在多个硬件后端上进行复用，也无需芯片厂商进行重新适配。面向异构的执行环境，如 CPU+GPU、CPU+NPU 等，昇思的统一 IR 支持做异构的子图切分，不同的子图可以下发到不同的异构硬件上执行，这些异构切分可以由框架自动完成，同时也支持用户手动指定执行硬件。昇思的目标很明确：做 AI 应用和异构算力间的桥梁，降低开发者使用算力的门槛，让芯片算力能够触及更多的开发者和应用场景。通过大力发展「南向」，昇思帮开发者解决了核心问题，也可以实现更大规模的并行化，例如跨算力中心的协同计算和异构计算，这无疑会大大加速大模型等技术的应用。另一方面，通过连接昇思这一流行 AI 框架的生态，国产化 AI 算力在这一过程中也能被更好地应用起来。做业界领先的 AI 框架自 2020 年 3 月发布首个版本以来，昇思作为业内瞩目的 AI 框架经历了快速发展。围绕昇思的社区，已是国内最具创新活力的 AI 开源社区。过去十年，AI 领域经历了从技术突破到应用落地的阶段转换，众多科技公司、研究机构发布 AI 框架，但只有少数成为了主流，其中既包括 TensorFlow、PyTorch、JAX 等国外框架，也有昇思 MindSpore 和飞桨这样的国内佼佼者。科研论文数量是衡量创新能力的重要指标，基于 MindSpore 的顶会论文如今已超过 900 篇，据 Papers with Code 统计，2022 年使用 MindSpore 的顶级会议论文在国内 AI 框架中排名第一，全球范围内仅次于 PyTorch，位列第二。昇思的开源生态汇集了超过 1.3 万贡献者，通过超 10 家高校参与的社区模型众智活动，目前其平台已有超过 400 个主流模型，这些成果不断推动着 AI 能力的全场景应用，有超过 5500 家企业应用了昇思能力实现了智能化技术落地。可以说，昇思训练 - 推理 - 全场景协同、全流程降低开发门槛、全架构统一的三大愿景已在逐步实现。从地球系统模拟、自动驾驶，到预训练大模型训练，再到蛋白质结构预测，各行业的开发者在昇思上实现了 AI 开发自由，不断推动着技术创新和应用落地。在 2.0 的大版本更新上，昇思在大模型能力、科学计算和 AI 技术落地上继续实现大幅改进。目前行业内的新需求是生成式 AI 落地，在这方面昇思有自己的独特优势：三年前首版本发布时，昇思主打的就是面向大模型的自动并行特性。作为一款 AI 框架，昇思将大模型开发的系统工程难题集成到软件框架中解决，沉淀出了整套从预训练到场景应用的大模型实践方案。首先是基础模型，昇思社区开源了超过 15 个基础预训练模型以及训练脚本，包括当前最具备代表性的 BLOOM，LLaMA 等。人们可以方便地以此作为基础，然后通过昇思 2.0 正式推出的大模型全流程解决方案完成从开发 - 训练 - 微调到部署的全过程。以 LLaMA 模型为例：在脚本开发阶段，从 Transformer 模型库中一键导入 LLaMA 并调用 Trainer 高阶 API，你只需要十行代码就能完成算法脚本的开发。在训练阶段，如果算力有限，昇思可以通过异构与存储优化技术实现基于一台服务器，八张训练卡支持千亿参数大模型训练。而面向大规模集群方案，昇思原生了支持业界最完善的 9 种数据和模型并行模式，以及断点续训等高可靠方案，算力资源利用率比业界水平要高 15%。进入场景微调阶段，昇思 2.0 通过集成多种低参微调的算法，如 LoRA，Adapter 等，可实现一行代码运行 LLaMA 的低参微调，也支持千亿级模型进行 RLHF。在推理部署阶段，昇思提供模型压缩工具，结合不同的硬件能力，支持模型规模 5~20 倍压缩，同时精度损耗小于 0.5%，并且支持异构及多级存储优化的能力，单卡推理规模提升至千亿。过去三年，昇思社区帮助业界完成了紫东。太初、鹏程系列等百亿、千亿级大模型，根据《中国人工智能大模型地图研究报告》中的数据，基于昇思孵化的产业落地大模型，占到国内总数的 40%。除大模型之外，昇思也一直在推动 AI 使能科学计算，并积极推动进一步降低 AI 应用门槛，针对行业重点场景，打造了系列场景化开发套件。通过与启智 OpenI 社区联合打造的 MS-Adapter 项目，昇思在保留原生 API 能力的同时，实现了业界主流框架 Pytorch 大多数 API 的兼容。MindSpore 生态的未来简单来说，通过昇思 MindSpore 业界领先的能力，大模型可以更快落地，更多行业可以实现智能化重塑。在 AI 领域，新技术的探索让我们找到未来方向，而 AI 框架可以帮助我们将技术转化为生产力。昇思已为我们铺好了路，通过提供开箱即用的套件，它正在满足各领域开发者的需求。通过一系列共建与合作，昇思正在不断完善生态伙伴体系和「朋友圈」，基于 AI 框架的多芯一体生态还会不断壮大。未来，昇思还将持续提升框架的易用性，兼容业界生态，降低开发者编程门槛。在技术上进一步提升自动并行的核心能力，实现大模型从训练到推理部署的端到端闭环。昇思 AI 框架，将会成为更多行业的首选。

3. OpenAI计划推出大模型商店，开发者可以上架产品了！

原文：https://www.51cto.com/article/758515.html

最近，OpenAI热度持续不减，从GPT模型功能更新到安全性问题，一直站在舆论的封口浪尖上...为追赶AIGC潮流，拓展企业用户市场，OpenAI正在考虑推出类似“App store”的大模型商店，供客户向企业出售定制化AI模型。该计划是OpenAI的CEO Sam Altman上个月在伦敦与开发者见面时透露的。构建“App store”的想法源于企业要求根据特定用途定制模型。一旦搭建完成，此类模型的开发者或创业公司就可以通过OpenAI平台将模型提供给其它企业。外媒The Information上的报道也证明了，这个类似于应用商店的模型允许客户将定制的人工智能模型出售给其它企业。有了大模型商店，开发者还可以上架用OpenAI技术构建出的产品，如，聊天机器人或定制化模型等。1、试水：企业用户将模型放入AI商店OpenAI提供的该项服务已受到企业客户的广泛关注。举例来看，在垂直应用中，企业可以在模型商店里找到“识别电商交易中的金融欺诈”或者“用最新消息回答有关特定市场的问题”等能力的模型。The Information报告指出，一家为设备制造商开发软件的公司Aquant渴望参与到这个尚处于理论研究阶段的市场。上个月，该公司推出了自己的聊天机器人应用服务副驾驶(Service Copilot)，通过ChatGPT的改进版本，对其进行了专有数据培训，包括：支持单和员工反馈对ChatGPT的帮助程度的评价。目前，Aquant包括Salesforce App Exchange和Service Now Store在内的市场上都提供了这种模式。公司CEO Shahar Chen表示，目前，Aquant拥有的约100家企业客户中，有6家正在使用该AI聊天机器人软件，客户每月需要支付数千至几十万美元，甚至Aquant也已经在Salesforce的App Exchange平台上向其它家企业出售了该软件。另一家热衷于此的企业客户是教育App制造商Khan Academy(可汗学院），它在ChatGPT的基础上开发出个性化AI导师Khanmigo。据《信息》报道，目前，尚不清楚OpenAI是否会收取销售佣金或以其它方式从市场中获得收入。2、隐患：与投资者产生竞争OpenAI将目光转向企业级市场，为零售、金融、医疗等行业提供解决方案。虽然这是企业迈向更广阔市场走出的第一步，但是也后患无穷。其中的一种隐患是：OpenAI将与来自其客户和技术合作伙伴（如，Salesforce和微软）的应用程序商店竞争。这两家商店的访问权限出售给了使用OpenAI创建的聊天机器人。具体来看，最大的压力莫过于来自与它最大投资者微软的竞争，因为微软已经通过Azure云服务在向自己的客户推销GPT企业服务。此外，业内人士也普遍猜测，既“iPhone时刻”之后，OpenAI这是在效仿苹果，推出一个类似苹果“App Store”的AI模型应用商店，让开发者可以上架他们基于OpenAI技术搭建的产品，比如，针对各种垂直领域的聊天机器人或者定制的模型等。因此，该应用商店也不得不面对苹果公司的竞争。3、趋势：科技巨头入局大模型商店目前，包括ChatGPT在内的AI大模型都在走定制化路线，也面向各个行业推出了定制化版本以实现商业化落地。值得注意的是，腾讯也首次公布了AI大模型的最新进展。6月19日，腾讯宣布依托腾讯云平台打造行业大模型精选商店为客户提供一站式服务。虽然目前依旧不断有新的AI大模型问世，但行业趋势已经从单纯的模型向应用发展，接下来的方向无疑就是建立生态体系，以构筑自身的“技术壁垒”，包括：苹果iOS、谷歌的安卓以及微软的Windows等都是最好的例证。所以，如何建立AI大模型生态体系，已经成为众多科技巨头思考的重要话题。4、插件模式：早早收场此前，OpenAI 推出的基于ChatGPT的插件引起广泛关注，被称为 ChatGPT 的“App Store 时刻”。在微软Build大会上，微软和OpenAI宣布将统一插件规格并将推出“插件商店”，供用户选取自己想要安装的插件。但截至目前，插件模式并没有获得用户的绝对好评。因为OpenAI的审核过于严格。目前，平台上只有不到300个插件，使用插件的用户也只有数十万量级。作为参考的对比数字是：早早突破1亿用户的ChatGPT和每月独立访客量超过18亿的OpenAI官方网站。在伦敦的开发者活动上，Sam Altman也直言：“插件产品并没有匹配市场。”5、盈利模式：获客与竞争并存目前，还不知道OpenAI是否会从模型商店的交易中收取抽成或建立其它的盈利模式。模型商店也会为OpenAI的技术提供更广泛的客户群体，让它能在与微软、苹果、谷歌等企业端竞争对手的竞争中脱颖而出。就如前文所述，OpenAI模型商店将会与它的客户或技术合作伙伴（包括：Salesforce和微软等）产生竞争。开发者使用OpenAI软件创建的Chatbot也可以在这些应用商店上出售访问权限。针对此类报道，有人评论称：模型商店更适合巨头云厂商开发，因为企业数据的储存和算力都绑定在了云端。总体来看，在过去的几个月里，虽然OpenAI轰动全球的C端产品ChatGPT创造出了用户量增长的奇迹。但在企业端，近水楼台的微软依靠更成熟的Azure云服务，搭建起比OpenAI更具竞争力的GPT企业服务。OpenAI想要发展应用商店业务还有很长的一段路要走。

4. Midjourney 5.2震撼发布！原画生成3D场景，无限缩放无垠宇宙

原文：https://www.51cto.com/article/758500.html

Midjourney和Stable Diffusion，已经卷到没边了！几乎在Stable Diffusion XL 0.9发布的同一时间，Midjourney宣布推出了5.2版本。此次5.2版本最亮眼的更新在于zoom out功能，它可以无限扩展原始图像，同时保持跟原始图像的细节相同。用zoom out做出的无垠宇宙动画，直接让人震惊到失语，可以说，Midjourney 5.2看得比詹姆斯韦伯太空望远镜还要远！这个极其强大的功能，可以创造出非常神奇的图片，甚至还能被用来拍摄毫无破绽的高清变焦视频！无限缩放，像宇宙一样没有尽头老奶奶宇宙中有多少个老奶奶？答案是无穷个网友用zoom out自制的这个「兔子洞」，简直如梦如幻还有一个AI图像设计团队——ilumine AI只用一张很小的原画，就通过Zoom Out生成了下面这个宏大的场景图片。还有一个AI图像设计团队——ilumine AI只用一张很小的原画，就通过Zoom Out生成了下面这个宏大的场景图片。相信等到他们的产品正式推出之后，配合Midjourney Zoom Out这种凭空扩图的功能，用一张原画直接做出3D场景。这简直是要革了游戏行业的命了，很多游戏制作从业者应该要哭出声吧。这次V5.2更新，可以概括为如下8大功能:方形重构（Square Reframe）-扩大图片大小-选择制作方形这次该更新附带的一个「制作正方形」工具，可以改变以正方形以外的纵横比制作图像的形状。宽高比为16：9的原始图像方形图像使用这个工具，就可以调整任何照片的大小，重构图片，社交媒体上怎么方便展示，就怎么调整。标准变焦（Standard Zoom 1.5 - 2x）选择缩放1.5倍或2倍。这个功能适合短距离变焦，可以为照片添加更多细节。无限缩放「Endless Zoom (Re-Zoom a Pic) 」这个功能可以围绕特定角色，为图片制作全新的大背景。自定义缩放重构（Custom Zoom Reframing）无论是艺术家、设计师还是品牌，都可以自定义图像大小，让图片适应任何在线平台。风格化（Stylize）Midjourney经过训练，可以创建具有艺术闪光和丰富视觉美感的图像，这是它与Stable Diffusion的最大区别。以前，用户可以在提示的末尾添加「–styleize X」（图 X 的范围从 0-1000），但 V5.2采用了该模型现有的风格化功能，并在真实感和天赋方面将它们增加到11。变化模式（Variation Mode）Midjourney V5.2还附带了一个名为「变化模式」的新功能，可以用户反复打磨想要应用于输出的视觉细微差别。在prompt中使用「低变化」模式，就能生成一致的角色形象，而如果选择「高变化」，就会导致与原始输出的较大的视觉差别，四张图片就会更加具有创意和艺术表现力。不同的个人照片（Vary Individual Pics）给它一张你的原始图片，你可以选择生成好四个类似的你，或者风格变化非常大的你。更短提示（/Shorten Prompts）关于Midjourney，人们往往有一个误解：如果在prompt中使用更多单词，就会看到更好或更详细的结果。但其实，过于冗长的提示往往会抵消每个单词的影响，从而导致输出的图片并不一定符合用户的想法。而这次Midjourney更新的缩短」命令功能，就可以分析prompt的成分，为我们提供了一些替代方案的建议通过全新的prompts，往往能让原始图片生成更惊艳的结果。

4. PromptAppGPT重磅更新！AI助手0门槛开发+运行：几十行代码即可实现AutoGPT

原文：https://www.51cto.com/article/758498.html

近日首个自研全开源自然语言低代码GPT应用快速开发框架PromptAppGPT迎来重要更新。框架简介可以参考往期文章: 真低代码！首个基于ChatGPT的自然语言开发框架PromptAppGPT：全自动编译、运行、界面生成。

项目网站：https://promptappgpt.wangzhishi.net/

项目代码：https://github.com/mleoking/PromptAppGPT

PromptAppGPT框架更新后增加了对网页搜索、图片搜索、网页抓取、JavaScript代码执行等多个重要执行组件的内置支持。新的执行组件的加入和本次其他机制优化使得PromptAppGPT具备了几十行低代码实现AutoGPT这种AI自动助手的能力。更新后PromptAppGPT将AI全自动助手的开发和运行门槛都降到了最低: 人人都可以自然语言开发，直接打开网址点击就可以运行，不用安装任何依赖组件。本次更新增加的My AutoGPT程序就是基于PromptAppGPT开发AI全自动助手类APP的示例。基于PromptAppGPT 的 My AutoGPT的代码

---author: Leoname: My AutoGPTdescription: Use gpt  and executors to autonomously achieve whatever goal you set.gptRound: multiplefailedRetries: 2autoRun: truesysTask:- executor: gpt   prompt: |   Constraints:   1. If you are unsure how you previously  did something or want to recall past events, thinking about similar events  will help you remember.   2. No user assistance   3. Exclusively use the commands listed  in double quotes e.g. "command name"   Commands:   1. Webpage Search:  "doSearchWeb", args: "query":  ""   2. Image Search:  "doSearchImage", args: "query":  ""   3. Task Complete:  "doCompleteTask", args: "output":  ""   Resources:   1. Internet access for searches and  information gathering.   2. GPT-3.5 powered Agents for  delegation of simple tasks.   Performance Evaluation:   1. Continuously review and analyze your  actions to ensure you are performing to the best of your abilities.   2. Constructively self-criticize your  big-picture behavior constantly.   3. Reflect on past decisions and  strategies to refine your approach.   4. Every command has a cost, so be  smart and efficient. Aim to complete tasks in the least number of steps.   You should only respond in JSON format  as described below   Response Format:   {     "thoughts": {       "text":  "thought",       "reasoning":  "reasoning",       "plan": "- short  bulleted- list that conveys- long-term plan",       "criticism":  "constructive self-criticism",       "speak":  "thoughts summary to say to user"     },     "command": {       "name": "command  name",       "args": {         "arg name":  "value"       }     }   }userTask:- trigger: doSearchWeb   executor: bingWeb   prompt: |   query: $e{"query":  "(.*)"}   limit: 2   outputer: $e{RawInput} doGptNext- trigger: doSearchImage   executor: bingImage   prompt: |   query: $e{"query":  "(.*)"}   limit: 2   outputer: $e{RawInput} doGptNext- trigger: doGptNext   executor: gpt   prompt: Determine which next command to  use, and respond using the format specified above.- trigger: doCompleteTask   executor: log   prompt: |   $i{Task  Complete:@textarea=$e{"output": "(.*)"}}- executor: gpt   prompt: |   $i{My Objectives:@textarea=Objectives:   1. Recommend the best smartphone for  business professionals in 2023.   2. Explain why the smartphone is  recommended and show the smartphone"s image.}

代码中，sysTask部分描述了助手需要遵守的约束（Constraints）, 可以运行的命令（Commands），可以使用的资源（Resources），性能评估方法（Performance Evaluation），输出内容和格式规范。userTask部分配置了助手运行需要的5种任务各自的触发条件（trigger），执行器（executor）和执行输入（prompt）。My AutoGPT运行过程首先输入要助手完成的目标:Recommend the best smartphone for business professionals in 2023.为商务人士推荐2023年最好的智能手机Explain why the smartphone is recommended and show the smartphone"s image.解释智能手机的推荐理由并展示手机图片然后点击运行。这个时候程序就开始全自动目标拆解和完成的过程：第一步，调用GPT作决策判断需要先进行网页搜索，找出2023年对于商务人士最好的智能手机列表。第二步，调用bingWeb搜索给出两个网页，并得出2023年商务人士最优智能手机候选: iPhone 14 Pro Max, Samsung Galaxy S22 Ultra, Google Pixel 7 Pro, Samsung Galaxy Z Fold 4, Oppo Find X5 Pro。第三步，调用GPT作决策判断，下一步需要进一步搜索上面得到两个网页（TechRepublic vs TechRadar）观点的异同。第四步，调用bingWeb获得了两篇报道观点异同信息。第五步，调用GPT做决策判断，通过以上步骤输入，GPT判断出iPhone 14 Pro Max是2023年对商务人士最好的智能手机; 然后GPT决策下一步需要调用图像搜索来获得这个手机的图片。第六步，调用bingImage搜索得出iPhone 14 Pro Max的两张图片。第七步，调用GPT作决策判断，在两张图片中选择了第一张更好看的深蓝色的图片，并做出下一步决策是要完成任务（doCompleteTask）。第八步，任务完成，结果推荐了iPhone 14 Pro Max手机，并给出了推荐理由和手机的图片链接。我们看到基于PromptAppGPT的My AutoGPT应用已经展露出大语言模型对于目标进行自动拆解、决策、利用工具、和综合最终结果的能力。更新后的PromptAppGPT带有更多的插件和机制，将能支持低代码开发更加智能的大语言模型应用作者介绍张长旺，高级研究员，CCF理论计算机科学技术委员会委员。曾担任第37届AAAI人工智能会议（AAAI-23）的高级程序委员会（SPC）成员。他分别于2011年和2015年获得伦敦大学学院（UCL）的硕士和博士学位。2016年至2017年在阿里巴巴从事LBS数据挖掘，2018年至2022年在腾讯从事广告推荐和用户画像。目前的研究方向是信息检索（搜推广）、自然语言处理、大数据挖掘的研究与应用。

关键词：