【48812】让「GPT-4V」跑在手机上这家中国大模型公司做到了_安保系列

【48812】让「GPT-4V」跑在手机上这家中国大模型公司做到了

时间: 2024-08-09 10:01:11 | 作者: 安保系列

　　实在世界的视觉信息是活动的，而在处理活动性的视觉信息上，端侧视频了解具有天然优势，手机、PC、AR、机器人、智能座驾等端侧设备自带的摄像头，具有天然的多模态输入才能。

　　与云端比较，端侧离用户更近，链路更短，功率更加高，一起具有更强的信息安全优势。

　　今天，面壁正式对外发布了 MiniCPM-V 2.6，在端侧功用完结全面临标 GPT-4V——

　　值得一提的是，面壁还将“实时”视频了解、多图联合了解、多图 ICL等才能初次搬上了端侧。

　　量化后端侧内存仅占 6 GB，端侧推理速度达 18 tokens/s，比较上代模型快 33%。而且发布即支撑 llama.cpp、ollama、vllm 推理，且支撑多种言语。

　　有了实时视频了解功用，大模型犹如具有一双“眼睛”，能够实时看到实在世界，这是多模态大模型走向具身智能等更多实践范畴，完结 AGI 的必要条件之一，此外实时视频了解功用进步人机交互的天然度。

　　此次，面壁新发布的 MiniCPM-V 2.6 让实时视频了解功用初次运转在了端侧。

　　此外，关于「太长不看」的视频，现在能够直接把文件拖进来，让模型为你总结要点信息，不必看完、不必倍速、也不必快进。

　　这段 1 分钟左右的气候预报视频，MiniCPM-V 2.6 能在没听到任何语音的情况下，发挥强壮的视频OCR功用，辨认出视频画面里密布的文字，给出不同视频阶段中不同城市的具体气候描绘：

　　除视频多模态外，在多图了解方面，最新发布的MiniCPM-V 2.6 还初次将多图联合了解、多图ICL（上下文少样本学习）功用集成在端侧模型，这也是此前 GPT-4V 引以为傲的才能。

　　在多图联合了解方面，面壁例举了如下场景——记账或报销难题令人头疼，小票上鳞次栉比的数字难以区分，更别提进行繁琐的总账核算。

　　此刻，能够摄影悉数甩给 MiniCPM-V 2.6，在 OCR 才能+CoT （思想链）才能的加持下，MiniCPM-V 2.6 能够找出每张小票的金额，并核算总账。

　　不仅如此，在端侧多模态推理才能方面，MiniCPM-V 2.6 也顺畅追逐 GPT-4V。

　　比方这道 GPT-4V 官方演示经典命题：调整自行车车座。这个对人很简单的问题对模型却十分困难，它十分检测多模态模型的杂乱推理才能和对物理常识的把握才能。

　　仅 8B 的 MiniCPM-V 2.6 展现出顺畅完结这项应战的潜力，经过和模型进行多图多轮对话，它明晰地奉告完结调低自行车车座的每一个具体进程，还能依据说明书和东西箱帮你找到比较适宜的东西。

　　值得一提的是，MiniCPM-V 2.6 的了解才能还不停步于外表，关于梗图背面的槽点也能翻开了解。

　　随后，结合两张图片的视觉信息联合推理出“作业在家时，8:59还在床上睡觉，9点立马出现在视频会议上”的居家工作的“抓狂”状况。

　　当然，MiniCPM-V 2.6 的单图了解才能也较为抱负，其也能揣测出梗图中许多未明显露出的潜台词。

　　而就多图 ICL 了解而言，上下文少样本学习能让模型无需 fine-tune，就能够快速适配到特定范畴和使命，进步模型的输出稳定性。对此，MiniCPM-V 2.6 也交出“答卷”：

　　提供给 MiniCPM-V 2.6 两组神转机画面，以及对画面中的“梗”给出暗示文字描绘，例如一个戴着手套、注重卫生的厨师，下一秒却用戴手套的手直接去拿实践有些龌龊的纸币；一个看似热心环保的人，却把塑料瓶装水翻开装进环保水壶……

　　MiniCPM-V 2.6 能主动从前面两组图文联系，揣摩命题人的目的，并主动学会“答题模版”，给入迷转机答案—— 一个人手握很多加密数字钱银，可你猜怎么着，他出门购物，但是商铺却居然只收现金！

　　而面壁 MiniCPM-V 2.6 以 8B 参数，在归纳功用上追逐上 GPT-4V 的一起，初次作为端侧模型，掀开单图、多图、视频了解三项多模态中心才能全面赶超 GPT-4V 的新格局，且均完结 20B 参数以下模型功用 SOTA。

　　Token Density = 编码像素数量 / 视觉 token 数量，是指单个 token 承载的像素密度即图画信息密度，直接决议了多模态模型实践的运转功率，数值越大，模型运转功率越高。

　　面壁以为，MiniCPM-V 2.6 之所以能完结从单一到全面的优势跃进，除了 Qwen2-7B 基座模型的功用加持之外，也归功于采用了一致高清视觉架构，让传统单图的多模态优势功用得以承继，并完结了一通百通。

　　以 OCR SOTA 才能为例，它能够将 MiniCPM-V 单图场景的“180万高清图画解析”进行才能搬迁和常识同享，无缝拓宽至多图场景和视频场景，并将这三种视觉了解场景一致方式化为图文替换的语义建模问题，同享底层视觉表明机制，完结比较同类型模型，视觉 token 数量节约超越 75% 。

　　而在 OCR 信息提取的基础上，MiniCPM-V 2.6 还能进一步对表格信息进行相似 CoT（思想链）的杂乱推理。比方让模型核算 2008 年奥运会取得金牌数最多的 3 个国家总共取得了多少枚金牌，CoT 的进程为，首要使用 OCR 才能辨认并提取出奖牌榜中金牌数量的前三名国家；再将前三名国家的金牌总数相加。