Photo by Mariia Shalabaieva / Unsplash

AFL Weekly - 08/10/2023

AFL Weekly Aug 11, 2023
本周报由 New Bing 推荐,经过 AI 未来实验室(人类)团队编辑评论而成。

AI 行业要闻

本周,AFL 研究团队发现:如何更好地本地化运行和使用 LLM 已然是目前 AI 产品创新的「黄金地段」。
  • 谷歌助理据说已实现生成式 AI 升级」(原文:Google Assistant reportedly pivoting to generative AI1):据一封内部邮件称,「谷歌助理」正计划使用大型语言模型(LLM)来支持其语音和文本界面的升级。「助理」团队领导者们认为这是一个巨大的机会,可以探索由最新 LLM 技术驱动的超级助理用起来会是什么样子。
  • OpenAI 因为「准确率低」而放弃 AI 生成文本识别器」(原文:OpenAI scuttles AI-written text detector over ‘low rate of accuracy’):由于「准确率低」,OpenAI 放弃了它的「人工智能生成文本识别器」。由于在检测人工智能生成的文本方面准确率较低,OpenAI 已决定淘汰其人工智能分类/识别器。大型语言模型的快速发展使有效识别文本是 AI 还是人类生产已成为新挑战。「是人是鬼,AI 自己都还难以识别呀!」
  • Stack Overflow 官宣发布 Overflow AI 功能」(原文:Stack Overflow announces OverflowAI):Stack Overflow 正在通过 OverflowAI 将生成式人工智能集成到他们的平台中。这包括使用向量数据库进行语义搜索和个性化索搜结果。他们还将增强跨平台搜索功能,并为 Stack Overflow for Teams 引入企业知识摄取功能。
  • Stability AI 官宣发布 Stable Diffusion XL 1.0(模型)」(原文:Stability AI Announces Stable Diffusion XL 1.0):Stability AI 发布了 SDXL 1.0,一款开放式图像模型,拥有惊人的 66 亿参数模型处理能力。该版本在色彩、对比度、光照和阴影方面有重大改进。
  • 介绍 Bittensor 语言模型——一款适用移动设备和边缘设备的最先进的 30 亿参数的大模型」(原文:Introducing Bittensor Language Model — A State of the Art 3B Parameter Model For Mobile and Edge Devices):BTLM 是一个拥有 30 亿参数的大语言模型,可在内存有限的移动设备和边缘设备上高效运行。凭借更高的准确性和更大的上下文范围,它在基准测试中的表现优于类似规模的大模型。BTLM 在准确性方面与 70 亿级的模型不相上下,但在内存占用和推理成本方面却超过了 70 亿级别的大模型。其目的是在边缘设备上实现人工智能应用,减少对集中式人工智能云基础设施的依赖。
  • AI 巨头们成立行业论坛:The Frontier Model Forum」(原文:The Frontier Model Forum):Anthropic、谷歌、微软和 OpenAI 联手创建了 The Frontier Model Forum--「前沿模型论坛」,这是一个致力于安全、负责任地开发前沿人工智能模型的交流平台。该论坛旨在推动人工智能安全研究,建立安全最佳实践,分享知识,并利用人工智能应对社会挑战。

AI 实战指导

有趣的 AI 论文和代码

  • Github 项目:karpathy/llama2.c:用纯一个纯 C 语言实现 Llama 2 推理能力」(原文:karpathy/llama2.c: Inference Llama 2 in one file of pure C):安德鲁-卡帕奇(Andrew Karpathy)用纯 C 语言发布了 LLaMA 2 推论的教学实现用例。该项目让您在 PyTorch 中训练 LLaMA 2 LLM 架构,然后将权重加载到单个 C 文件中以进行高效推理。
  • FLASK:精细评测大语言模型的「对齐能力」」(原文:FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets):FLASK 是专为 LLM(大语言模型)的性能评估而设计的评估协议。它将评估细分为 12 个不同的技能集,可根据特定技能(如逻辑稳健性、事实性和理解力)对模型的性能进行详细分析。AFL 团队已记录这个好东西,以备后用。
  • WebArena:为自动化任务代理准备一个逼真的 Web 环境」(原文:WebArena: A Realistic Web Environment for Building Autonomous Agents):WebArena 是一个逼真的网络环境,它允许自主代理(AI)开发与电子商务、社交论坛、软件开发和内容管理相关的任务技能。它为评估任务完成情况提供了基准,并强调了改进代理的必要性。即使是 GPT-4 这样的先进模型,执行同样任务其成功率也只有 10.59%。
  • LLaVA:大语言和视觉助理」(原文:LLaVA: Large Language and Vision Assistant):LLaVA 是一个大型多模态模型,它将视觉和语言处理相结合,提高了视觉和语言理解能力。它的聊天能力令人印象深刻,并为科学研究的质量保证设定了新的最高精度。初步实验表明,与 GPT-4 相比,LLaVA 在一个合成的多模态指令跟随数据集上的表现更为出色。
  • 3D-LLM:把 3D 世界注入大语言模型中」(原文:3D-LLM: Injecting the 3D World into Large Language Models):一项新的研究介绍了 3D-LLMs ,它通过结合三维点云及其特征,增强了语言模型的三维理解能力。通过使用三维特征提取器和现有的二维 VLM,3D-LLM 在字幕、问题解答和导航等任务中取得了令人瞩目的性能,超越了现有的 LLM 和 VLM。
  • STEVE-1:在「我的世界」游戏里用文本驱动行为的生成式模型」(原文:STEVE-1: A Generative Model for Text-to-Behavior in Minecraft):Minecraft(「我对世界」游戏)中的 STEVE-1 模型能够理解并响应文本指令,这要归功于它的训练过程,其中包括预训练模型和自我监督行为的克隆。它不仅在遵从各种指令方面树立了新的标杆,还以较低的训练成本实现了卓越的性能,使预算有限的研究人员也能使用。

Tags

Chance Jiang

Editor and Director of AI Futures Lab