人工智能与深度学习

人工智能与深度学习(一)

有限理性下的决策(decision)。人的有限理性,从个体上研究,就变成了心理学,从社会层面研究,就变成了经济学,一个公司中决策问题,就变成了管理学。

实际上,如何获得和运用“知识”、如何做出“决策”,几乎就是人工智能全部的内容。获取知识,做出决策

模拟信号 –> (传感器,输入设备) –> 数字化成为本地化数据 –> (通信技术,互联网) –> 分享,信息化 –> (AI) –> 知识,解决问题

数字化背后有奈奎斯特采样定理,其核心的思想是“数字化总是伴随着失真”,失真的严重程度,与2个因素相关:我们采样的频度、数据本身变化的速度相关。

信息化,则有香农的信息论作为数学基础:“信息”定义为“不确定性的消除”、信息量与事件概率的倒数相关。

人工智能与深度学习(二)深度学习的原理

chatGPT的输出是确定的,还是随机的?

神经网络本身的计算是确定的:给定输入、通过神经网络计算后,得到的每个词的概率分布,这个核心的过程是确定的。但有时候系统会刻意增加一些随机性。比如现在大语言模型的输出,并不是取最大概率的那个词,而是基于概率、随机采样。概率最大的词、被采样到的几率较大,但其他词也有一些概率会被采样到。

深度学习的核心问题是,准确率/可靠性、泛化能力

大语言模型的生成过程:基于条件概率、一个一个蹦单词;

大语言模型****的训练过程:基于训练的语料 拟合 出一个条件概率、用 完形填空 实现 自监督学习;

泛化能力:实际使用的场景与训练的场景不同的时候,模型表现如何;

Transformer注意力机制:基于词的相似度、对其他词的信息加权求和;

扩散模型:逐步加噪、减噪。

人工智能与深度学习(三)十年技术发展

之前两篇分别表达了2个核心观点:

(1)从宏观来看,智能时代与数字时代、信息时代构成一脉相承的关系,是一个持续数十年的新时代;

(2)深度学习从原理上是统计学习,学习和推理的关键是一个条件概率:基于上下文、预测下一个词的概率。

人工智能与深度学习(最后一部分)生态

•我们已经进入了IT、CT之后的“智能时代”,这是40年的大机会

深度学习是伟大的技术创新,当前大模型“涌现”的能力,超出预期

•深度学习是基于概率的统计学习,有不可避免的鲁棒性问题

AI是与人不同的智能,不用以“人”的智能去外推“AI”的智能

•技术生态上,Huggingface的商业模式值得关注

•商业生态上,在垂直领域,专业的中小企业仍然有机会

推理Inference :即“生成”,使用一个训练好的模型,完成相应的任务

泛化 Generalization:模型对训练中未遇到过的场景的适应能力

过拟合 Overfitting:模型对训练中的数据误差“过小”,导致“泛化”能力下降

提示工程 Prompt Engineering:对于一个任务,如何设计出“好问题”,使得大模型的答案质量更高,模型本身不需要重新训练

思维链Chain of Thoughts (COT):在问题中加入一句“一步一步解答”

微调 Fine-Tuning:对预先训练好的模型,用新的数据进行再次训练,来适应新的任务和领域

参数高效微调 Parameter-Efficient Fine-Tuning(PEFT):大模型的主体不变,通过“并联”一个小模型(Adaptor),微调过程中,大模型参与训练但其参数不变。

LoRa(LowRank Adapto****r):目前主流的一种PEFT方法

Transformer:ChatGPT等大多数大语言模型(LLM)背后的深度神经网络架构,基于注意力机制

多模态 MultiModal:用图片/文字等多种信息来训练一个模型,具有类似“看图说话”的能力,GPT4已宣称具备该能力