剑桥、腾讯AI Lab等提出狂语言模子PandaGPT：一个模子不同六种模态-努力啊大统轩网

当前位置：首页 > 综合 > 剑桥、腾讯AI Lab等提出狂语言模子PandaGPT：一个模子不同六种模态正文

剑桥、腾讯AI Lab等提出狂语言模子PandaGPT：一个模子不同六种模态

时间：2024-11-08 22:38:22 来源：努力啊大统轩网

克日，剑桥来自剑桥、腾讯提出态NAIST 以及腾讯 AI Lab 的狂语钻研者推出了一款名为 PandaGPT 的跨模态语言模子，揭示了在家养智能规模的言模立异试验。经由散漫 ImageBind 的个模模态对于齐能耐以及 Vicuna 的天在行腕，同时实现为了六种模态下的不同指令清晰与追寻能耐。尽管 PandaGPT 的种模下场尚有提升空间，但揭示了跨模态 AGI 智能的剑桥睁开后劲。

来自剑桥、腾讯提出态NAIST 以及腾讯 AI Lab 的狂语钻研者近期宣告了一项名为 PandaGPT 的钻研下场，这是言模一种将大型语言模子与差距模态对于齐、绑定以实现跨模态指令追寻能耐的个模技术。PandaGPT 可能实现诸如天生详细的不同图像形貌、凭证视频编写故事以及回覆对于音频的种模下场等重大使命。它可能同时接管多模态输入，剑桥并做作地组合它们的语义。

名目主页: https://panda-gpt.github.io/
代码: https://github.com/yxuansu/PandaGPT
论文: http://arxiv.org/abs/2305.16355
线上 Demo 揭示: https://huggingface.co/spaces/GMFTBY/PandaGPT

为了实现图像 & 视频、文本、音频、热力争、深度图、IMU 读数六种模态下的指令追寻能耐，PandaGPT 将 ImageBind 的多模态编码器与 Vicuna 大型语言模子相散漫（如上图所示）。

为了使 ImageBind 的多模态编码器以及 Vicuna 的大型语言模子的特色空间对于齐，PandaGPT 运用了组合 LLaVa 以及 Mini-GPT4 宣告的共 160k 基于图像的语言指令追寻数据作为磨炼数据。每一个磨炼实例搜罗一张图像以及响应一组多轮对于话。

为了防止破损 ImageBind 自己的多模态对于齐性子以及削减磨炼老本，PandaGPT 只更新了如下模块：

在 ImageBind 的编码服从上新增一个线性投影矩阵，将 ImageBind 天生的展现转换后插入到 Vicuna 的输入序列中；

在 Vicuna 的留意力模块上削减了格外的 LoRA 权重。两者参数总数约占 Vicuna 参数的 0.4% 。磨炼函数为传统的语言建模目的。值患上留意的是，磨炼历程中仅对于模子输入对于应部份妨碍权重更新，不同过错用户输入部份妨碍合计。全部磨炼历程在 8×A100 (40G) GPUs 上实现磨炼需要约 7 小时。

值患上夸张的是，当初的 PandaGPT 版本只运用了对于齐的图像 - 文本数据妨碍磨炼，可是秉持了 ImageBind 编码器的六种模态清晰能耐（图像 / 视频、文本、音频、深度度、热量图以及 IMU）以及它们之间的对于齐属性，从而具备在所有模态之间跨模态能耐。

在试验中，作者揭示了 PandaGPT 对于差距模态的清晰能耐，搜罗基于图像 / 视频的问答，基于图像 / 视频的创意写作，基于视觉以及听觉信息的推理等等，下面是一些例子：

图像：

音频：

视频：

与其余多模态语言模子比照，PandaGPT 最突出的特色是它可能清晰并将差距模态的信息做作地组合在一起。

视频 + 音频：

图像 + 音频：

总结

作者们也总结了当初 PandaGPT 的诸多下场以及未来的睁开倾向。尽管 PandaGPT 在处置多种模态及其组合方面具备惊人的能耐，但仍有多种措施可能极大水平的提升 PandaGPT 的功能。

PandaGPT 可能经由运用其余模态对于齐数据来进一步提升图像之外模态的清晰能耐，好比运用 ASR 以及 TTS 数据来妨碍音频 - 文本模态的模态清晰以及指令追寻能耐。

文本之外的其余模态仅仅运用了一个 embedding 向量妨碍展现，导致语言模子无奈清晰文本之外模子的细粒度信息。更多对于细粒度特色提取的钻研，如跨模态留意力机制，可能有助于后退功能。

PandaGPT 当初仅应承将文本之外的模态信息用作输入。未来该模子有后劲将全部 AIGC 不同到统一个模子之中，即一个模子同时实现图像 & 视频天生、语音分解、文本天生等使命。

需要新的基准测试来评估多模态输入的组合能耐。

PandaGPT 还可能展现泛起有语言模子的一些罕有缺陷，搜罗幻觉、毒性以及机械印象。

最后，作者们夸张，PandaGPT 仅仅是一个钻研原型，临时还缺少以直接运用于破费情景。

西甲：赛季仅1胜！塞尔塔就此深陷降级区？巴列卡诺VS维戈塞尔塔

中国航天步步紧逼 NASA：重启核动力火箭不然早晚会被赶上37年前，那个出生时14.5斤的“巨婴”，现在长大后成啥样了？

原创上港夺冠一哥跟奥斯卡一起举杯申花夺冠一哥直接走人

NBA | “大帝”名不虚传！恩比德各项数据都是76人第一回顾：从爆红到“打回原形”，高叶只用了半年，终是步了张小斐的后尘

季中赛步行者为什么打不过湖人？球迷赛后一席话说得很实在

亚冠沙特利雅得胜利主场对阵伊朗波斯波利斯，马宁领衔中国裁判组执法C罗比赛非洲一女孩因颜值太高，被载入吉尼斯纪录，父亲雇保镖护送上学

中国球员或成香饽饽！美国女排联赛明年打响，土超和意甲开始抢人吞噬星空：时隔两百年再回地球，罗峰看见自己的孙子在仗势欺人！

NBA排名大乱！森林狼居第1，魔术力压雄鹿，湖人第7，马刺10连败大爆冷！火箭双杀卫冕冠军，太阳6连胜坐收大礼，杜兰特最大赢家

比太阳亮1万亿倍！这套装置预计明年发射第一束光缅北“女魔头”魏榕，赏女孩“珍珠奶茶”，她的恶毒，你难以想象

早知道｜西媒称C罗重返欧冠正在谈星二代扯下“遮羞布”，衣不蔽体行为太开放，她们的父母真淡定

上一篇：原创步行者vs活塞前瞻：哈利伯顿期待魔法奇迹，20连败在向活塞招手？
下一篇：长春亚泰VS山东泰山：泰山全力争三分，为争冠做最后努力非洲女孩巴特曼因有巨臀，一生被赤身裸体展览，死后还被做成标本