-
Notifications
You must be signed in to change notification settings - Fork 0
Description
作为一个程序员,虽然我的工作不是 AI 强相关,但也一直在关注相关内容。这篇文章整理了我所了解的 AI 知识,以科普性质介绍目前 AI 方面常见的概念和应用,这既为了让自己的理解更清晰、也希望能帮助有需要的同学对 AI 有个基本的了解。
前言——这波 AI 真的有点东西
这波 AI,我印象中是随着 ChatGPT 的出现开始火爆起来的,突然间大家就纷纷讨论 AI、想办法注册 ChatGPT 试用起来、并感叹其强大,接着各家厂商们也陆续推出自家的 AI 产品。其中一个有趣的现象是各家都搞一个 waitlist、用户得排队等使用资格😆
对大众而言,这波 AI 接触到最多的是生成式 AI, GenAI, Generative AI——根据提示,AI 大模型生成文本、图像、语音、视频等形式的内容。最常见的产品形式则是聊天机器人,一般叫 AI 助手、助理等,用户发送的消息就是「提示」,AI 根据提示生成最符合的内容回复给用户。
就像和真人聊天发消息,AI 助手就可以辅导你学习新知识,不懂的点可以持续追问;可以帮你写工作小结、写论文,扩写、润色内容,要更正式地书面用语、随意的口头用语都可以;可以解读论文、总结重点……可以做的事太多了,无法一一列举。
同时,各类应用 APP 也开始接入/集成 AI 服务,给 APP 的功能带来质的变化。比如,代码编辑器可以接入如 GitHub Copilot 这样的 AI 代码助手,只要一个函数名称或一段注释,对应的代码就立即出现了;比如在线会议软件的 AI 助手,可以实时将会议内容转换为文本记录,会议结束后归纳出会议重点;比如钉钉文档的 AI 助理,可以学习公司知识库的文档文件,当你需要某些内容时,不用找特定的文件、直接问 AI 助理即可——沉淀的知识不再是一潭死水(利益相关:我曾经是钉钉文档的开发)。
随着技术的发展,除了文本内容,AI 助手们生成图片/视频也越来越快、越来越逼真。我真的已经看到杭州接头 宣传窗张贴的海报、地铁内容播放的宣传片等已经从原先拙劣的卡通😬变成了以假乱真的 AI 图片/视频。
AI 还在持续进化,越来越强的能力、越来越多的细分场景和应用。除了上述应用,还推动着自动驾驶、医疗诊断等更具价值的领域。
下面开始介绍一些在 AI 相关资讯中常见的概念及其关联。
本文作者 shhider
AI 的基础技术和发展过程
首先,人工智能, AI, Artificial Intelligence 是一个比较宽泛的概念,主要指 让机器具备/模拟人类的能力,比如「听、说——语音/音频的识别、生成」、「读、写——文本/自然语音的处理、生成」、「图像识别——计算机视觉」等。
机器学习, ML, Machine Learning则是 AI 的一个具体方向——让机器通过对已有数据的学习、在之后的任务中做出决策。而神经网络, Neural Network,则是机器学习的主要领域之一,顾名思义就是模拟大脑中神经元之间的连接。机器学习和神经网络的概念其实在约 1950s 就已经提出,到了 1980s 才开始有一些重要的进展。
- 第一届国际机器学习会议 ICML 在 1980 年举办;
反向传播算法 Backpropagation在此期间被提出,让陷入停滞的神经网络技术再次起步;- 2018 图灵奖得主杨立昆在此期间将
卷积神经网络 CNN应用到手写数字识别的场景中,取得了不错的效果;
接着在 2010s,神经网络取得了关键进展,深度学习, DL, Deep Learning概念形成并崭露头角 —— 因为算力的发展和大规模数据集的出现,神经网络的层级得以构建得更大更深,所以基于此的机器学习方向就称为 Deep Learning。
天时地利人和
因为读了李飞飞的自传《The Worlds I See》,我对 2010s 期间的发展印象比较深刻。
在 2006 年,出于研究计算机视觉的需要,李飞飞开始构建 ImageNet 数据集。初版 ImageNet 于 2009 年面世:从 10 亿张图片中筛选、标注了 1500 万张图片,分类到了 2000 多个类别中。
- 其实 ImageNet 得以面世,很大程度依赖了互联网的发展、众包平台的出现。因为一张张图片都是需要人工标注的。初期,李飞飞尝试招募学生组建了标注团队,但 ImageNet 的工作量预估需要标注团队工作 19 年…
ImageNet 数据集完成后,为了吸引大家基于 ImageNet 探索更高效的计算机视觉方案,李飞飞组织了「ImageNet 大规模视觉识别大赛」。在前两届,收到的作品基本就是对当时主流方案的修修补补、效果一般;而在 2012 年第三届挑战赛上,一支队伍的作品展现出了惊人的效果 —— 作品名为 AlexNet,采用了当时冷门的神经网络(具体就是卷积神经网络 CNN)方案,经过 ImageNet 数据的训练,在进行图像识别时展现出了惊人的准确率。
- AlexNet 作者背后的导师就是 Geoffrey Hinton —— 2024 年诺贝尔奖的获得者;
于是这场大赛吸引了业界大量的关注。神经网络技术一炮走红,使越来越多的研究者投入其中,各种算法模型、数据集、应用场景开始涌现;ImageNet 和李飞飞被大家熟知,现在她更是被称为「AI 教母」 —— 至此 AI 的发展进入了快车道,逐渐形成现在大家熟知的 AI。
和 ImageNet 的诞生类似,神经网络的方案能在 2012 年一鸣惊人,依赖了 ImageNet 数据集的规模之大,也更依赖于 GPU 的发展带来算力的大幅提升(以这都是天时地利人和啊~)。
- 所以,现在也有说法把「神经网络」、「GPU」、「ImageNet 数据集」称为现代 AI 的三大基石 —— 也就是算法、算力和数据。
什么是 AI「大模型」
模型, Model,在目前讨论下就是指神经网络的算法模型。又因为现在训练模型的数据规模很大、网络层级非常深,因此也叫「大模型」。
「模型」相关的术语,具体的又有:
大语言模型, LLM, Large Language Model,指处理文本/自然语言的模型(也常看到把 LLM 泛指大模型的);多模态模型, Multi-modal Large Model,指能处理多种数据类型的模型,比如既可以接受文本输入、也可以接受音频输入,既可以输出文本、也可以输出图片等。对应地,「单模态」的模型就是只能输入或产出一种数据类型;基础模型, FM, Foundation Model则是指已经用大量数据集训练过的预训练模型,已经具备一定的能力,用户可以直接使用,或者再按需进行微调 Fine-tuning训练。
ChatGPT、GPT、OpenAI 都什么关系 —— 区分 AI 模型和应用
OpenAI 是一家公司,研发了各种 AI 模型。
GPT就是其中的一个自然语音模型系列,具体模型有GPT-4o、GPT-1等;- 除了自然语言模型,OpenAI 还有文生图模型
DALL-E、文生视频模型Sora等;
- 除了自然语言模型,OpenAI 还有文生图模型
ChatGPT则是 OpenAI 推出的 AI 聊天机器人应用/APP,背后对接了 GPT 模型——用户向 ChatGPT 发送的消息,应用转发给 GPT 模型来生成对应的答案、再给到用户。- GPT 模型对外提供了一系列接口 API,通过这些接口可以调用 GPT 的能力。开发者可以开发自己的 APP,在其中调用这些接口来集成 GPT 的能力;
- 所以简单来说,ChatGPT 就是 OpenAI 自己接入 GPT 接口做的一个 APP。
👆 inspired by https://www.youtube.com/watch?v=2IK3DFHRFfw
类似地:
- 阿里巴巴的模型以
通义命名,包括大语言模型千问 Qwen系列、图像生成万相、音频合成CosyVoice等。并提供了通义APP 供用户进行聊天问答,也提供了百炼平台供开发者调用通义模型能力 —— 模型列表_大模型服务平台百炼(Model Studio)-阿里云帮助中心 - Google 有 Gemini 等系列 —— Our leading AI models – Google AI
- Meta/Facebook 有 Llama 等系列 —— Models and libraries - Meta AI
- 字节有
豆包系列模型、百度有文心……也有很多新厂商的模型也很有竞争力,比如月之暗面、百川智能等。
参考资料
- AI, Machine Learning, Deep Learning and Generative AI Explained - YouTube
- 简短地介绍了 AI 相关概念和相互关系;
- Generative AI in a Nutshell - how to survive and thrive in the age of AI - YouTube
- 一个非常全面的科普向视频;
- 《The Worlds I See》- 李飞飞, Li Fei-fei
- 李飞飞的自传。看完让人感叹 科技的进步需要天时地利人和,也必需科研工作者的热情、专注和坚韧。
- ChatGPT,豆包,通义……😆
本文作者 shhider
