6080影院
  • 首页
  • 电影
    • 动作片
    • 爱情片
    • 科幻片
    • 恐怖片
    • 战争片
    • 喜剧片
    • 纪录片
    • 剧情片
  • 电视剧
    • 国产剧
    • 香港剧
    • 欧美剧
    • 韩剧
    • 台湾剧
    • 日剧
    • 泰剧
  • 综艺
  • 动漫
  • 留言
播放记录
极限之心

极限之心 豆瓣评分:0

更新至第12集
  • 分类:动漫
  • 导演:西村纯二
  • 地区:日本
  • 年份:2022
  • 语言:日语
  • 更新:2026-01-10 17:50
报错 收藏
  • 极限之心是由野口瑠璃子,优木加奈,冈咲美保主演的一部动漫。机器之心报道 机器之心编辑部 deepmind 连发三篇论文,全面阐述大规模语言模型依然在进展之中.. 更多

极限之心剧情介绍

机器之心报道

机器之心编辑部

deepmind 连发三篇论文,全面阐述大规模语言模型依然在进展之中,能力也在继续增强。

近年来,国内外各大 ai 巨头的大规模语言模型(large language model,llm)一波接着一波,如 openai 的 gpt-3、智源研究院的悟道 2.0 等。大模型已然成为社区势不可挡的发展趋势。

然而,当前语言模型存在着一些问题,比如逻辑推理较弱。那么,我们是否可以仅通过添加更多数据和算力的情况下改进这些问题呢?或者,我们已经达到了语言模型相关技术范式的极限?

今日,deepmind「一口气」发表了三篇论文,目的之一就是解决当前语言模型存在的问题。deepmind 得出的结论是进一步扩展大规模语言模型应该会带来大量的改进。此前在一次电话简报会上,deepmind 研究科学家 jack rae 表示,「这些论文的一个关键发现是大规模语言模型依然在进展之中,能力也在继续增强。这个领域并没有停滞不前。」

"

博客地址:https://deepmind.com/blog/article/language-modelling-at-scale

这三篇论文的主题分别如下:

  • 一个具有 2800 亿参数的 transformer 语言模型 gopher;
  • 语言模型带来的道德和社会风险及危害;
  • 通过检索数万亿 token 来改进语言模型的新方法 retro。

本文机器之心将对大模型 gopher 和 retro 模型进行简单介绍。

gopher:2800 亿参数,接近人类阅读理解能力

deepmind 用一篇 118 页的论文介绍了全新的语言模型 gopher 及其 gopher 家族,论文作者也差不多达到 100 人。

"

论文地址:https://storage.googleapis.com/deepmind-media/research/language-research/training%20gopher.pdf

在探索语言模型和开发新模型的过程中,deepmind 探索了 6 个不同大小的 transformer 语言模型,参数量从 4400 万到 2800 亿不等,架构细节如表 1 所示。其中参数量最大的模型被命名为 gopher,具有 2800 亿参数,他们并将整个模型集称为 gopher 家族。这些模型在 152 项不同的任务上进行了评估,在大多数情况下实现了 sota 性能。此外,deepmind 还提供了对训练数据集和模型行为的整体分析,涵盖了模型规模与偏差等。最后,deepmind 讨论了语言模型在 ai 安全和减轻下游危害方面的应用。

"

deepmind 采用自回归 transformer 架构为基础,并进行了两处修改:将 layernorm 替换为 rmsnorm ;使用相对位置编码而不是绝对位置编码。此外 deepmind 使用拥有 32000 个词汇量的 sentencepiece 对文本进行 token 化,并使用字节级 backoff 来支持开放词汇模型。

训练

deepmind 使用 adam 优化器,所有模型的训练共有 3000 亿个 token,采用 2048token 上下文窗口方法。在训练的前 1500 step 中,学习率从 10^?7 增加到最大,之后采用 cosine schedule 再将学习率衰减到 1/10。随着模型尺寸的增加,研究者会相应的降低最大学习率并增加每 batch 中的 token 数量,如表 1 所示。

deepmind 结合了 bfloat16 数字格式来减少内存并增加训练吞吐量。小于 7.1b 的模型使用混合精度 float32 参数和 bfloat16 激活进行训练,而 7.1b 和 280b 使用 bfloat16 激活和参数。

训练基础设施

deepmind 采用 jax 来构建训练和评估的代码库。特别地,该研究使用 jax 的 pmap 转换来提高数据和模型并行性,所有模型的训练和评估是在 tpuv3 芯片上进行的。此外,deepmind 还采用了优化器状态分区、模型并行性和 rematerialisation 来划分模型状态并减少激活,因此这种方法适合 tpu 内存。

deepmind 发现 tpuv3 具有快速跨芯片通信的能力,因此数据、模型并行性在 tpuv3 上的开销都很低,并且在训练 gopher 时仅产生 10% 的开销。因此,该研究发现,在训练规模超过 1024-chip pod 之前,tpu 无需进行 pipelining 操作,这大大简化了中型模型的训练。

"

训练数据集

deepmind 在 massivetext 上训练 gopher 模型家族,massivetext 包括网页、书籍、新闻和代码等文本,包含约 23.5 亿个文档, 10.5 tb 的文本量。表 2 详细列出了该数据集。

"

结果

deepmind 深入调查了这些不同大小模型的优缺点,强调扩展模型会提高其性能——例如,在阅读理解、事实核查和有害语言识别等领域。

该研究在 152 个任务中对 gopher 及其家族模型进行了性能评估。deepmind 将这些结果与 sota 语言模型(lm 性能的 124 个任务)、使用特定任务数据的监督方法、人类专家性能进行了比较。以下摘取了一些主要结果。

例如,在逻辑推理和常识性任务中的性能比较:

"

按类别划分的海量多任务语言理解 (mmlu) 基准测试性能。gopher 在几个类别上优于之前的工作。

在这项研究中,研究者发现 gopher 在一些关键任务上的能力超过了当前的语言模型,包括大规模多任务语言理解 (mmlu) 基准。在一项任务上,gopher 展现出了重大进展,媲美人类专家的水准。

除了对 gopher 进行定量评价外,deepmind 的研究者还通过直接互动的方式对模型进行了测验。结果表明,当 gopher 被提示进行对话互动 (比如在聊天中) 时,该模型有时可以表现出令人惊讶的连贯性。

"

在这里,gopher 可以讨论细胞生物学并提供正确的引用来源,即使此前尚未进行过具体对话的微调。这项研究还详细描述了几种不同模型大小的故障模式,其中包括重复倾向、常规偏见反映以及错误信息传播。

"

对语言模型基准测试,deepmind 在图 2 中扩展了 gopher 与当前 178b sota 模型 jurassic-1 和 175b gpt-3 的相对性能结果。结果表明 gopher 在 19 项任务中有 8 项没有超过 sota 技术,尤其是在 ubuntu irc 和 dm mathematics 上表现不佳。

"

如图 4 所示, gopher 在绝大多数任务上都表现出了性能提升——只有在 16 个任务上(总共 152 个任务)的性能提升为零。相比之下,在 57 个任务有小幅改进,相对性能提升高达 25%,在 79 个任务有超过 25% 的显着改进。

"

这种类型的分析是重要的,理解和记录故障模式可以深入了解大语言模型是如何产生下游危害的,也提示了研究中的缓解方法应该集中在哪些方面来解决这些问题。

retro:带有互联网规模检索的高效训练

另一篇论文是 deepmind 在 gopher 的基础上,提出了一种改进的语言模型架构。该架构降低了训练的资源成本,并使模型输出更容易追踪到训练语料库中的来源。

"

论文地址:https://storage.googleapis.com/deepmind-media/research/language-research/improving%20language%20models%20by%20retrieving.pdf

具体而言,该研究提出了一种检索增强的自回归语言模型 retrieval-enhanced transformer (retro) ,使用互联网规模的检索机制进行预训练。受大脑在学习时依赖专用记忆机制的启发,retro 能够有效地查询文本段落以改进其预测。通过将生成的文本与 retro 生成所依赖的段落进行比较,可以解释模型做出某些预测的原因以及它们的来源。此外,研究者还发现该模型能够获得与常规 transformer 相当的性能,参数少一个数量级,并在多个语言建模基准上获得 sota 性能。

"

该研究设计的检索增强架构能够从具有数万亿个 token 的数据库中检索。为此,该方法对连续 token 块(chunk)进行检索,而非单个 token,这样借助线性因子减少了存储和计算需求。

该方法首先构建了一个键值对(key-value)数据库,其中值存储原始文本 token 块,键是 frozen bert 嵌入(devlin et al., 2019)。通过使用 frozen 模型来避免在训练期间定期重新计算整个数据库的嵌入。

然后将每个训练序列分成多个块,这些块通过从数据库中检索到的 k 最近邻进行扩充。编码器 - 解码器架构将检索块集成到模型的预测中,retro 的架构如下图所示。

"

如下图所示,研究者用实验数据表明该方法能够很好地适应不同的模型大小和数据集大小。

"

该研究还在问答任务上评估比较了 retro 模型和其他几种模型的性能,结果如下表所示。

"

文章部分内容来源:https://www.theverge.com/2021/12/8/22822199/large-language-models-ai-deepmind-scaling-gopher

  • 播放列表
  • 暴风
  • 1080
  • 非凡线路
排序
  • 第01集
  • 第02集
  • 第03集
  • 第04集
  • 第05集
  • 第06集
  • 第07集
  • 第08集
  • 第09集
  • 第10集
  • 第11集
  • 第12集
  • 排序
  • 第01集
  • 第02集
  • 第03集
  • 第04集
  • 第05集
  • 第06集
  • 第07集
  • 第08集
  • 第09集
  • 第10集
  • 第11集
  • 第12集
  • 无需安装任何插件,即可快速播放 排序
  • 第01集
  • 第02集
  • 第03集
  • 第04集
  • 第05集
  • 第06集
  • 第07集
  • 第08集
  • 第09集
  • 第10集
  • 第11集
  • 第12集
  • 剧情介绍

    机器之心报道

    机器之心编辑部

    deepmind 连发三篇论文,全面阐述大规模语言模型依然在进展之中,能力也在继续增强。

    近年来,国内外各大 ai 巨头的大规模语言模型(large language model,llm)一波接着一波,如 openai 的 gpt-3、智源研究院的悟道 2.0 等。大模型已然成为社区势不可挡的发展趋势。

    然而,当前语言模型存在着一些问题,比如逻辑推理较弱。那么,我们是否可以仅通过添加更多数据和算力的情况下改进这些问题呢?或者,我们已经达到了语言模型相关技术范式的极限?

    今日,deepmind「一口气」发表了三篇论文,目的之一就是解决当前语言模型存在的问题。deepmind 得出的结论是进一步扩展大规模语言模型应该会带来大量的改进。此前在一次电话简报会上,deepmind 研究科学家 jack rae 表示,「这些论文的一个关键发现是大规模语言模型依然在进展之中,能力也在继续增强。这个领域并没有停滞不前。」

    "

    博客地址:https://deepmind.com/blog/article/language-modelling-at-scale

    这三篇论文的主题分别如下:

    • 一个具有 2800 亿参数的 transformer 语言模型 gopher;
    • 语言模型带来的道德和社会风险及危害;
    • 通过检索数万亿 token 来改进语言模型的新方法 retro。

    本文机器之心将对大模型 gopher 和 retro 模型进行简单介绍。

    gopher:2800 亿参数,接近人类阅读理解能力

    deepmind 用一篇 118 页的论文介绍了全新的语言模型 gopher 及其 gopher 家族,论文作者也差不多达到 100 人。

    "

    论文地址:https://storage.googleapis.com/deepmind-media/research/language-research/training%20gopher.pdf

    在探索语言模型和开发新模型的过程中,deepmind 探索了 6 个不同大小的 transformer 语言模型,参数量从 4400 万到 2800 亿不等,架构细节如表 1 所示。其中参数量最大的模型被命名为 gopher,具有 2800 亿参数,他们并将整个模型集称为 gopher 家族。这些模型在 152 项不同的任务上进行了评估,在大多数情况下实现了 sota 性能。此外,deepmind 还提供了对训练数据集和模型行为的整体分析,涵盖了模型规模与偏差等。最后,deepmind 讨论了语言模型在 ai 安全和减轻下游危害方面的应用。

    "

    deepmind 采用自回归 transformer 架构为基础,并进行了两处修改:将 layernorm 替换为 rmsnorm ;使用相对位置编码而不是绝对位置编码。此外 deepmind 使用拥有 32000 个词汇量的 sentencepiece 对文本进行 token 化,并使用字节级 backoff 来支持开放词汇模型。

    训练

    deepmind 使用 adam 优化器,所有模型的训练共有 3000 亿个 token,采用 2048token 上下文窗口方法。在训练的前 1500 step 中,学习率从 10^?7 增加到最大,之后采用 cosine schedule 再将学习率衰减到 1/10。随着模型尺寸的增加,研究者会相应的降低最大学习率并增加每 batch 中的 token 数量,如表 1 所示。

    deepmind 结合了 bfloat16 数字格式来减少内存并增加训练吞吐量。小于 7.1b 的模型使用混合精度 float32 参数和 bfloat16 激活进行训练,而 7.1b 和 280b 使用 bfloat16 激活和参数。

    训练基础设施

    deepmind 采用 jax 来构建训练和评估的代码库。特别地,该研究使用 jax 的 pmap 转换来提高数据和模型并行性,所有模型的训练和评估是在 tpuv3 芯片上进行的。此外,deepmind 还采用了优化器状态分区、模型并行性和 rematerialisation 来划分模型状态并减少激活,因此这种方法适合 tpu 内存。

    deepmind 发现 tpuv3 具有快速跨芯片通信的能力,因此数据、模型并行性在 tpuv3 上的开销都很低,并且在训练 gopher 时仅产生 10% 的开销。因此,该研究发现,在训练规模超过 1024-chip pod 之前,tpu 无需进行 pipelining 操作,这大大简化了中型模型的训练。

    "

    训练数据集

    deepmind 在 massivetext 上训练 gopher 模型家族,massivetext 包括网页、书籍、新闻和代码等文本,包含约 23.5 亿个文档, 10.5 tb 的文本量。表 2 详细列出了该数据集。

    "

    结果

    deepmind 深入调查了这些不同大小模型的优缺点,强调扩展模型会提高其性能——例如,在阅读理解、事实核查和有害语言识别等领域。

    该研究在 152 个任务中对 gopher 及其家族模型进行了性能评估。deepmind 将这些结果与 sota 语言模型(lm 性能的 124 个任务)、使用特定任务数据的监督方法、人类专家性能进行了比较。以下摘取了一些主要结果。

    例如,在逻辑推理和常识性任务中的性能比较:

    "

    按类别划分的海量多任务语言理解 (mmlu) 基准测试性能。gopher 在几个类别上优于之前的工作。

    在这项研究中,研究者发现 gopher 在一些关键任务上的能力超过了当前的语言模型,包括大规模多任务语言理解 (mmlu) 基准。在一项任务上,gopher 展现出了重大进展,媲美人类专家的水准。

    除了对 gopher 进行定量评价外,deepmind 的研究者还通过直接互动的方式对模型进行了测验。结果表明,当 gopher 被提示进行对话互动 (比如在聊天中) 时,该模型有时可以表现出令人惊讶的连贯性。

    "

    在这里,gopher 可以讨论细胞生物学并提供正确的引用来源,即使此前尚未进行过具体对话的微调。这项研究还详细描述了几种不同模型大小的故障模式,其中包括重复倾向、常规偏见反映以及错误信息传播。

    "

    对语言模型基准测试,deepmind 在图 2 中扩展了 gopher 与当前 178b sota 模型 jurassic-1 和 175b gpt-3 的相对性能结果。结果表明 gopher 在 19 项任务中有 8 项没有超过 sota 技术,尤其是在 ubuntu irc 和 dm mathematics 上表现不佳。

    "

    如图 4 所示, gopher 在绝大多数任务上都表现出了性能提升——只有在 16 个任务上(总共 152 个任务)的性能提升为零。相比之下,在 57 个任务有小幅改进,相对性能提升高达 25%,在 79 个任务有超过 25% 的显着改进。

    "

    这种类型的分析是重要的,理解和记录故障模式可以深入了解大语言模型是如何产生下游危害的,也提示了研究中的缓解方法应该集中在哪些方面来解决这些问题。

    retro:带有互联网规模检索的高效训练

    另一篇论文是 deepmind 在 gopher 的基础上,提出了一种改进的语言模型架构。该架构降低了训练的资源成本,并使模型输出更容易追踪到训练语料库中的来源。

    "

    论文地址:https://storage.googleapis.com/deepmind-media/research/language-research/improving%20language%20models%20by%20retrieving.pdf

    具体而言,该研究提出了一种检索增强的自回归语言模型 retrieval-enhanced transformer (retro) ,使用互联网规模的检索机制进行预训练。受大脑在学习时依赖专用记忆机制的启发,retro 能够有效地查询文本段落以改进其预测。通过将生成的文本与 retro 生成所依赖的段落进行比较,可以解释模型做出某些预测的原因以及它们的来源。此外,研究者还发现该模型能够获得与常规 transformer 相当的性能,参数少一个数量级,并在多个语言建模基准上获得 sota 性能。

    "

    该研究设计的检索增强架构能够从具有数万亿个 token 的数据库中检索。为此,该方法对连续 token 块(chunk)进行检索,而非单个 token,这样借助线性因子减少了存储和计算需求。

    该方法首先构建了一个键值对(key-value)数据库,其中值存储原始文本 token 块,键是 frozen bert 嵌入(devlin et al., 2019)。通过使用 frozen 模型来避免在训练期间定期重新计算整个数据库的嵌入。

    然后将每个训练序列分成多个块,这些块通过从数据库中检索到的 k 最近邻进行扩充。编码器 - 解码器架构将检索块集成到模型的预测中,retro 的架构如下图所示。

    "

    如下图所示,研究者用实验数据表明该方法能够很好地适应不同的模型大小和数据集大小。

    "

    该研究还在问答任务上评估比较了 retro 模型和其他几种模型的性能,结果如下表所示。

    "

    文章部分内容来源:https://www.theverge.com/2021/12/8/22822199/large-language-models-ai-deepmind-scaling-gopher

    猜你喜欢
    黑色四叶草 9.5分 2017
    黑色四叶草
    梶原岳人,岛崎信长,诹访部顺一,优木加奈,福山润,室元气,村濑步,日野聪
    关于我转生后成为史莱姆的那件事 7.5分 2021
    关于我转生后成为史莱姆的那件事
    冈咲美保,丰口惠美,前野智昭,花守由美里
    关于我转生变成史莱姆这档事 6.5分 2021
    关于我转生变成史莱姆这档事
    冈咲美保,丰口惠美,前野智昭,花守由美里,古川慎,千本木彩花,市道真央,江口拓也,大塚芳忠,柳田淳一,小林亲弘,日高里菜
    因为太怕痛就全点防御力了 7.4分 2020
    因为太怕痛就全点防御力了
    本渡枫,野口瑠璃子
    关于我转生变成史莱姆这档事第二季 0分 2021
    关于我转生变成史莱姆这档事第二季
    冈咲美保,丰口惠美,古川慎,千本木彩花,市道真央,江口拓也,大塚芳忠,山本兼平,泊明日菜,小林亲弘,福岛润,樱井孝宏,日高里菜
    关于我转生后成为史莱姆的那件事第二季 7.6分 2021
    关于我转生后成为史莱姆的那件事第二季
    冈咲美保,丰口惠美,前野智昭,花守由美里,古川慎
    今天开始做明星 0分 2008
    今天开始做明星
    樱井孝宏,森川智之
    樱花忍法帖 6.6分 2018
    樱花忍法帖
    未知
    今天开始做魔王第三季 7.7分 2008
    今天开始做魔王第三季
    樱井孝宏,森川智之,斋贺光希,大塚明夫,井上和彦,胜生真沙子,宫田幸季,高山南,竹田雅則
    今天开始做魔王第一季 7.4分 2004
    今天开始做魔王第一季
    樱井孝宏 / 森川智之 / 斋贺光希 / 大塚明夫 / 井上和彦
    今天开始做魔王 7.4分 2004
    今天开始做魔王
    樱井孝宏,森川智之,斋贺光希,大塚明夫
    鬼神童子 8.5分 1995
    鬼神童子
    横山智佐,山口胜平,小杉十郎太,绪方惠美,齐藤昌,丸山咏二,堀胜之祐,上田祐司,天野由梨,梁田清之,岩田安生,高山南,一条和矢,岛本须美,辻谷耕史,难波圭
    影片评论
    评论加载中...
    动漫热播排行
    1数码宝贝第一季(普通话) 更新至第27集
    2精灵宝可梦第一季无印 已完结
    3奇妙萌可第二季 已完结
    4精灵宝可梦第二季超世代 更新至第71集
    5数码宝贝第一季 (1999) 已完结
    6憧憬成为魔法少女 已完结
    7美幸梦游仙境 已完结
    8人鱼的旋律第二季 已完结
    9海贼王 更新至第1155集
    10遮天 更新至第143集
    11浪浪山小妖怪 HD国语
    12仙逆 更新至第122集
    13数码宝贝第八季 更新至第17集
    14凡人修仙传 更新至第176集
    15假面骑士圣刃 已完结

    Copyright © 2024-2025 All Rights Reserved

    • 首页
    • 会员
    • 留言
    • 顶部
    数码宝贝第一季(..   奇妙萌可第二季   豺狼的日子第一季   迪迦奥特曼(普通..   憧憬成为魔法少女   精灵宝可梦第一季..   数码宝贝第一季 ..   怪医文三块   模范出租车3   白日焰火   美国人   人鱼的旋律第一季  
    加载中...