AFL Weekly - 08/10/2023

AFL Weekly Aug 11, 2023

本周报由 New Bing 推荐，经过 AI 未来实验室（人类）团队编辑评论而成。

AI 行业要闻

本周，AFL 研究团队发现：如何更好地本地化运行和使用 LLM 已然是目前 AI 产品创新的「黄金地段」。

「谷歌助理据说已实现生成式 AI 升级」（原文：Google Assistant reportedly pivoting to generative AI¹）：据一封内部邮件称，「谷歌助理」正计划使用大型语言模型（LLM）来支持其语音和文本界面的升级。「助理」团队领导者们认为这是一个巨大的机会，可以探索由最新 LLM 技术驱动的超级助理用起来会是什么样子。
「OpenAI 因为「准确率低」而放弃 AI 生成文本识别器」（原文：OpenAI scuttles AI-written text detector over ‘low rate of accuracy’）：由于「准确率低」，OpenAI 放弃了它的「人工智能生成文本识别器」。由于在检测人工智能生成的文本方面准确率较低，OpenAI 已决定淘汰其人工智能分类/识别器。大型语言模型的快速发展使有效识别文本是 AI 还是人类生产已成为新挑战。「是人是鬼，AI 自己都还难以识别呀！」
「Stack Overflow 官宣发布 Overflow AI 功能」（原文：Stack Overflow announces OverflowAI）：Stack Overflow 正在通过 OverflowAI 将生成式人工智能集成到他们的平台中。这包括使用向量数据库进行语义搜索和个性化索搜结果。他们还将增强跨平台搜索功能，并为 Stack Overflow for Teams 引入企业知识摄取功能。
「Stability AI 官宣发布 Stable Diffusion XL 1.0（模型）」（原文：Stability AI Announces Stable Diffusion XL 1.0）：Stability AI 发布了 SDXL 1.0，一款开放式图像模型，拥有惊人的 66 亿参数模型处理能力。该版本在色彩、对比度、光照和阴影方面有重大改进。
「介绍 Bittensor 语言模型——一款适用移动设备和边缘设备的最先进的 30 亿参数的大模型」（原文：Introducing Bittensor Language Model — A State of the Art 3B Parameter Model For Mobile and Edge Devices）：BTLM 是一个拥有 30 亿参数的大语言模型，可在内存有限的移动设备和边缘设备上高效运行。凭借更高的准确性和更大的上下文范围，它在基准测试中的表现优于类似规模的大模型。BTLM 在准确性方面与 70 亿级的模型不相上下，但在内存占用和推理成本方面却超过了 70 亿级别的大模型。其目的是在边缘设备上实现人工智能应用，减少对集中式人工智能云基础设施的依赖。
「AI 巨头们成立行业论坛：The Frontier Model Forum」（原文：The Frontier Model Forum）：Anthropic、谷歌、微软和 OpenAI 联手创建了 The Frontier Model Forum--「前沿模型论坛」，这是一个致力于安全、负责任地开发前沿人工智能模型的交流平台。该论坛旨在推动人工智能安全研究，建立安全最佳实践，分享知识，并利用人工智能应对社会挑战。

AI 实战指导

「用 Gradio 开发生成式 AI 应用」（原文：Building Generative AI Applications with Gradio）：Hugging Face 和 DeepLearning.ai 推出一门新的短课程，介绍如何使用 Gradio 开发生成式人工智能应用软件。课程的重点是使用开源语言模型创建用户友好的应用，目包括文本摘要、图像分析和图像生成。
「只用 50 行代码创建适用任何数据集类型的图表生成器」（原文：Build an AI Chart Generator That Adapting to Any Dataset Type, in Only 50 Lines）：开发人员可以使用 Langchain 的 GPT-3.5 或 GPT-4 轻松创建 AI 图表生成器，只需 50 行代码。
「自动化你的在线搜索任务」（原文：Automating Web Research）：本文探讨了网站内容调研代理工具的开发。该方法包括使用 LLM 生成搜索查询、执行搜索、爬网页数据、编制文档索引，以及为每个查询查找最相关的结果。
「用 Whisper 和 GPT-4 开发一个会议纪要生成器」（原文：Creating an automated meeting minutes generator with Whisper and GPT-4）：本指南探讨会议纪要生成工具的开发，该工具利用 Whisper 和 GPT-4 高效总结会议讨论的内容、提取重要细节并分析团队成员们的情感。

有趣的 AI 论文和代码

「Github 项目：karpathy/llama2.c：用纯一个纯 C 语言实现 Llama 2 推理能力」（原文：karpathy/llama2.c: Inference Llama 2 in one file of pure C）：安德鲁-卡帕奇（Andrew Karpathy）用纯 C 语言发布了 LLaMA 2 推论的教学实现用例。该项目让您在 PyTorch 中训练 LLaMA 2 LLM 架构，然后将权重加载到单个 C 文件中以进行高效推理。
「FLASK：精细评测大语言模型的「对齐能力」」（原文：FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets）：FLASK 是专为 LLM（大语言模型）的性能评估而设计的评估协议。它将评估细分为 12 个不同的技能集，可根据特定技能（如逻辑稳健性、事实性和理解力）对模型的性能进行详细分析。AFL 团队已记录这个好东西，以备后用。
「WebArena：为自动化任务代理准备一个逼真的 Web 环境」（原文：WebArena: A Realistic Web Environment for Building Autonomous Agents）：WebArena 是一个逼真的网络环境，它允许自主代理（AI）开发与电子商务、社交论坛、软件开发和内容管理相关的任务技能。它为评估任务完成情况提供了基准，并强调了改进代理的必要性。即使是 GPT-4 这样的先进模型，执行同样任务其成功率也只有 10.59%。
「LLaVA：大语言和视觉助理」（原文：LLaVA: Large Language and Vision Assistant）：LLaVA 是一个大型多模态模型，它将视觉和语言处理相结合，提高了视觉和语言理解能力。它的聊天能力令人印象深刻，并为科学研究的质量保证设定了新的最高精度。初步实验表明，与 GPT-4 相比，LLaVA 在一个合成的多模态指令跟随数据集上的表现更为出色。
「3D-LLM：把 3D 世界注入大语言模型中」（原文：3D-LLM: Injecting the 3D World into Large Language Models）：一项新的研究介绍了 3D-LLMs ，它通过结合三维点云及其特征，增强了语言模型的三维理解能力。通过使用三维特征提取器和现有的二维 VLM，3D-LLM 在字幕、问题解答和导航等任务中取得了令人瞩目的性能，超越了现有的 LLM 和 VLM。
「STEVE-1：在「我的世界」游戏里用文本驱动行为的生成式模型」（原文：STEVE-1: A Generative Model for Text-to-Behavior in Minecraft）：Minecraft（「我对世界」游戏）中的 STEVE-1 模型能够理解并响应文本指令，这要归功于它的训练过程，其中包括预训练模型和自我监督行为的克隆。它不仅在遵从各种指令方面树立了新的标杆，还以较低的训练成本实现了卓越的性能，使预算有限的研究人员也能使用。