GPT2: 语言模型是无监督的多任务学习者

自然语言处理任务,例如问答、机器翻译、阅读理解和摘要,通常是通过对特定任务数据集的监督学习来完成的。 我们证明,当在包含数百万个网页(称为 WebText)的新数据集上进行训练时,语言模型开始在没有任何显式监督的情况下学习这些任务。 当以文档加问题为条件时,语言模型生成的答案在 CoQA 数据集上达到 55 F1 - 在不使用 127,000 多个训练示例的情况下,匹配或超过 4 个基线系统中的 3 个的性能。 语言模型的容量对于零样本任务迁移的成功至关重要,并且增加它可以以对数线性方式跨任务提高性能。 我们最大的模型 GPT-2 是一个 1.5B 参数 Transformer,它在零样本设置下的 8 个测试语言建模数据集中的 7 个上取得了最先进的结果,但仍然不适合 WebText。 模型中的示例反映了这些改进并包含连贯的文本段落。 这些发现为构建语言处理系统提供了一条有希望的道路,该系统可以从自然发生的演示中学习执行任务。
Read More

GPT1: 通过生成预训练提高语言理解

自然语言理解包括各种不同的任务,例如文本蕴涵、问题回答、语义相似性评估和文档分类。 尽管大型未标记文本语料库非常丰富,但用于学习这些特定任务的标记数据却很少,这使得经过区分训练的模型难以充分执行。 我们证明,通过在各种未标记文本的语料库上对语言模型进行生成式预训练,然后对每个特定任务进行区分性微调,可以实现这些任务的巨大收益。 与以前的方法相比,我们在微调过程中利用任务感知输入转换来实现有效的传输,同时需要对模型架构进行最小的更改。 我们在各种自然语言理解基准上证明了我们的方法的有效性。 我们的通用任务不可知模型的性能优于经过区分训练的模型,这些模型使用专门为每个任务设计的架构,在所研究的 12 个任务中,有 9 个任务显着改进了现有技术。 例如,我们在常识推理(故事完形填空测试)上实现了 8.9% 的绝对改进,在问答 (RACE) 上实现了 5.7%,在文本蕴涵 (MultiNLI) 上实现了 1.5%。
Read More

QWEN1 技术报告

大型语言模型 (LLM) 彻底改变了人工智能领域,使以前被认为是人类独有的自然语言处理任务成为可能。 在这项工作中,我们介绍了 QWEN1,这是我们大型语言模型系列的第一部分。 QWEN 是一个综合语言模型系列,包含具有不同参数数量的不同模型。 它包括 QWEN(基本预训练语言模型)和 QWEN-CHAT(通过人类对齐技术进行微调的聊天模型)。 基础语言模型在众多下游任务中始终表现出卓越的性能,而聊天模型,特别是那些使用人类反馈强化学习 (RLHF) 训练的模型,具有很强的竞争力。 聊天模型拥有用于创建代理应用程序的高级工具使用和规划功能,即使与执行复杂任务(例如使用代码解释器)的大型模型相比,也显示出令人印象深刻的性能。 此外,我们还开发了专门的编码模型 CODE-QWEN 和 CODE-QWEN-CHAT,以及基于基础语言模型构建的数学模型 MATH-QWEN-CHAT。 与开源模型相比,这些模型的性能显着提高,但略微落后于专有模型。
Read More

QWEN2技术报告

本报告介绍了 Qwen2 系列,这是我们大型语言模型和大型多模态模型的最新成员。 我们发布了一整套基础和指令调整的语言模型,参数范围从 0.5 到 720 亿,具有密集模型和专家混合模型。 Qwen2 超越了大多数先前的开放权重模型,包括其前身 Qwen1.5,并且在语言理解、生成、多语言熟练程度、编码、数学和推理等多个基准上表现出相对于专有模型的竞争性能。
Read More

多视角几何三维重建法识别工程结构缺损与变形

结构表面缺损与构件变形是既有结构现场检测或长期监测的重要指标,也是安全性评估、鉴定的重要依据,典型如混凝土结构表面裂缝、漏筋,钢结构锈蚀、螺栓脱落,钢结构构件弯曲变形与板材局部屈曲等。多视角几何三维重建法具有现场操作方便、操作技术要求低、设备成本低廉等优势,且相对而言精度满足工程要求,在工程实践中具有明显优势。
Read More

基于图像分割模型(U-net)的裂缝分割

裂缝图像的分割和提取技术对裂缝的视觉检测和长期监测具有重要意义。本文针对墙裂缝提取需求,构建基于深度学习U-Net模型的智能壁画裂缝语义分割模型。该模型能智能检测复杂背景墙体中的裂缝,并分割出裂缝区域,对光照、阴影的干扰具有极高鲁棒性。
Read More

基于计算机视觉方法(CV)的裂缝生长变形监测.

结构损伤是对结构进行损伤评估和安全性能检测的重要指标,也是长期监测应重点关注的对象。本文针对墙体裂缝监测需求,研发了基于视觉方法的裂缝生长变形监测技术。该技术能通过不定相机视角间隔拍摄影像的方式实现对壁画墙体关键受力裂缝的长期监测。
Read More

基于计算机视觉方法(CV)的结构变形监测

计算机视觉结构变形监测 Abstract 单台数码相机可以获得水平位移和垂直位移,称为二维(2d)位移。结构的位移响应是结构性能检测以及状态评估的硬性指标。在正常荷载范围下,位移信息的极值、波动范围能够表征结构的安全性。 本文利用视觉整体变形监测系统(由硬件设备和软件系统组成)评估了基于视觉方法的建筑整体变形监测系统在偶然荷载快速振动工况下的性能。并且采用视归一化均方根误差(normalized root mean square error, NRMSE)进行误差分析。
Read More

Transformer 是如何工作的:TRANSFORMERS FROM SCRATCH

Transformer 是一类非常令人着迷的机器学习架构(a family of machine learning architectures)。 之前已经有一些不错的介绍文章(例如 [1, 2]),但过去几年 transformer 变得简单了很多, 因此要解释清楚现代架构(modern architectures)是如何工作的,比以前容易多了。本文试图丢掉历史包袱,开门见山地解释现代 transformer 的工作原理。
Read More

Llama 2: Open Foundation and Fine-Tuned Chat Models

在这项工作中,我们开发并发布了 Llama 2,这是一系列预训练和微调的 Llama、Llama 2 和 Llama 2-Chat,参数规模高达 70B。在我们测试的一系列有用性和安全性基准中,Llama 2-Chat 模型的表现通常优于现有的开源模型。它们似乎也与一些闭源模型相当,至少在我们进行的人工评估上是如此(见图 1 和图 3)。我们已采取措施来提高这些模型的安全性,使用特定于安全的数据注释和调整,以及进行红队和采用迭代评估。此外,本文还全面描述了我们提高法学硕士安全性的微调方法和方法。。
Read More

LLaMA: Open and Efficient Foundation Language Models

本文介绍 LLaMA,一个包含7B~65B(70~650 亿) 参数的基础语言模型集(a collection of foundation language models)。 我们用数万亿个(trillions of) token训练这些模型,证明了使用公开数据集就能训练出最先进的模型, 而并非必须使用专有和私有数据集。特别是,LLaMA-13B 在大多数基准测试中优于 GPT-3(175B) ,而 LLaMA-65B 则与最佳模型 Chinchilla-70B 和 PaLM-540B 相当。 我们已经将所有模型开源,供社区研究。
Read More

Hierarchical Text Classification:层次文本分类

文本分类 (Text Classification, TC)是自然语言处理 (NLP) 社区中研究最广泛的任务。分层文本分类(Hierarchical Text Classification , HTC)是 TC 的子任务,也是更广泛的分层多标签分类 (HMC) 的一部分。Hierarchical Text Classification 与普通的Text Classification任务不同,预测标签之间存在分级关系,预测得到的标签集合需要满足预先设定好的类目树关系
Read More

Deep Neural Nets: 33 years ago and 33 years from now

To my knowledge, LeCun et al. 1989 is the earliest real-world application of a neural net trained end-to-end with backpropagation. Can we improve on it using 33 years of progress in deep learning? What does 1989 deep learning look like to someone in 2022, and what will today's deep learning look like to someone in 2055?
Read More