AFL Weekly - 10/06/2023

AFL Weekly Oct 6, 2023

本周报基于主流 AI 搜索平台推荐、经 AFL 团队摘要和评论而生成。

AI 要闻和视角

「前 Tinder 首席执行官创办的利用人工智能聊天机器人对抗孤独的初创公司获得红杉支持」（原文：Former Tinder CEO’s startup to fight loneliness with AI chatbot gets backing by Sequoia）：前 Tinder 首席执行官雷娜特-尼伯格（Renate Nyborg）的初创公司 Meeno 宣布，该公司已获得由红杉（Sequoia）领投的 390 万美元种子轮融资。Meeno计划于12月在美国、英国、加拿大、澳大利亚、新西兰、挪威、瑞典和荷兰的应用商店发布其应用程序。

「LLaVA：大型语言和视觉助手」（项目官网：Visual Instruction Tuning, LaVA: Large Language and Vision Assistant）：LLaVA 是一种新型端到端训练有素的大型多模态模型，它将视觉编码器和用于通用视觉和语言理解的 Vicuna 结合在一起，实现了令人印象深刻的聊天能力，模仿了多模态 GPT-4 的精神，并在科学质量保证方面创造了新的最高精度。
「Lalal.ai，对复杂的合成音轨进行精准分离和无损提取」（官网：Extract vocal, accompaniment and various instruments from any audio and video）：这个音频处理工具可以对复杂的合成音轨进行精准分离和无损提取，主要用于两个场景：音轨剥离和声音移除。例如，它可以提取人声、鼓、贝斯、吉他和弦乐等声音，也可以去除背景音乐、麦克风隆隆声以及其他不需要的噪音。下面的视频演示了剥离伴奏和人声的效果，还是比较直观的。背后原理的论文来自： MSS（Musical Source Separation）的论文：Musical Source Separation: An Introduction，它介绍了基于模型和基于信号处理的两种较为传统的处理方式，也提到，当前引入深度神经网络来解决这个问题的应用越来越多，不过最大的局限性还是可用于学习的数据太少，例如，你让工具单独提取音频中鸟叫的声音，可能就比较吃力。

「多模态和大型多模态模型 (LMM)」（原文：Multimodality and Large Multimodal Models (LMMs)）：「多模态和大型多模态模型」以惊人的深度记录了大型语言模型的变迁：从 LLM 到 LMM...长期以来，每个 ML 模型都在一种数据模式下运行--文本（翻译、语言建模）、图像（物体检测、图像分类）或音频（语音识别）。然而，自然智能并不局限于单一模式。人类可以阅读和书写文本。我们可以观看图像和视频。我们可以听音乐来放松，也可以留意奇怪的声音来探测危险。能够处理多模态数据对于我们或任何人工智能在现实世界中的运行都至关重要。在 LLM 中加入更多模态，就能生成大型多模态模型......而且每家 AI 公司都在做： DeepMind、Salesforce、微软、腾讯，当然还有 OpenAI。(ChatGPT 已经是一个大型多模态模型）不过，并非所有多模态系统都是 LMM。Chip 说，「Midjourney、Stable Diffusion 和 Dall-E 不符合条件，因为它们没有语言模型组件。」她的文章（非常长）包括三个部分，值得一读，以了解最新进展。