媒体人广告人达人最适合哪个AI11个大模_云雀的繁衍

当前位置： 云雀 >> 云雀的繁衍 >> 媒体人广告人达人最适合哪个AI11个大模

媒体人广告人达人最适合哪个AI11个大模

发布时间:2023/10/7 13:18:24

编辑/James

“都说AI好，一用急跺脚。”

这是娱乐资本论·视智未来在第一次做大语言模型文本应用能力测试时，写下的第一句话。

当时，对于不少从业者而言，AI大模型的重点不是能不能做顺口溜或回答哲学问题，而是在于AI是否能够在实际工作中发挥作用，提升效率。时至今日，这一基本需求仍未改变。

为了解决这样的疑问，我们特意咨询了编辑、写手、编剧、公关等许多内容行业的专业人士，征询到18个问题，针对国内的大型语言模型，进行了一次全面的，不同于以往科技工作者的文本应用能力测试。

时隔半年，情况发生了怎样的变化呢？

8月底，首批八款国产大模型完成备案，允许对公众开放：百度（文心一言）、抖音（云雀大模型）、智谱AI（GLM大模型）、中科院（紫东太初大模型）、百川智能（百川大模型）、商汤（日日新大模型）、MiniMax（ABAB大模型）、上海人工智能实验室（书生通用大模型）。

这也让9月成为国产AI大模型的“节日”。这八款大模型中绝大部分免费开放，吸引了许多人的使用。很多媒体也在第一时间进行了简单的上手测试，而一些侧重于逻辑推理等能力的基准评测也迅速展开，各自产生了不同的结果。

越来越多的国产大模型在生成结果时默认加入网络搜索内容，以避免大模型生成错误的叙述，还有些国产大模型表示已经超越了GPT-3.5。此时，我们认为是展开第二轮AI大模型实用性评测的绝佳时机。

本次测试有如下创新内容：

为尽可能排除测试中的干扰因素，使人们可以轻松地比较结果差异与提示词（prompt）之间的关系，我们的问题是模块化的。首先，按照大的任务分类，指定一些基础的提示词片段；然后，依据不同场景，逐级插入相应的段落。

考虑到目前大模型已经陆续接入网络，我们为同一个问题准备了联网和不联网的两种版本。本次测试中将有6个具体产品是联网的，有2个产品是不联网的。另有2个产品只参加跟写作能力有关的测试。

我们着重测试了通过自己长期使用，总结出来大模型最擅长的几种能力，包括对文章进行扩写、缩写和变换写作风格的改写，以及总结长文章的要点等。

这将是一篇特别长的评测。请坐稳扶好，我们现在出发。

测试过程简述：

我们的测试并非旨在提供学术上的严谨标准，我们的目标是：从实用的角度出发，分析这些大模型在各种文本应用场景的综合表现，为文娱、传媒行业从业者提供参考。

我们会基于以下5个维度，为每个答案打0-5分，来评判大模型的表现。

1.语言表达能力：文本是否通顺、流畅，语法是否正确。

2.准确性：模型是否能正确理解问题，并给出准确的信息。

3.完整性：文本内容是否足够完整，是否涵盖了问题的主要内容，是否达到了基本可用的标准。

4.交互性：模型是否能猜测不太准确的问题背后，用户的真实意图。

5.加分项：任何创新、独特、让人眼前一亮的内容（不作具体要求）。

本测试的题目是互相分开的，不设总分。读者可以自行计算模型之间的总分，但对总分的比较没有显著意义。读者只需要留意每一道题的具体分数即可。

包含所有题目及回答的详细测试表单，将通过

转载请注明:http://www.aideyishus.com/lkcf/5949.html

------分隔线----------------------------