中国版GPT会是一场幻梦吗

先上结论:无论是作为AI产品的GPT,还是作为革新技术的GPT;中国想要做,都最终只会是一场幻梦。而这一切,本就是早就写定的结局。

中国的AI学界和产业能追上GPT吗?

一个成功的AI模型,关键因素是算法+算力+数据。GPT作为一种通用的人工智能内容生成模型服务,对算法算力数据都有很高要求。然而,中国在每一项上都有鸿沟。

  • 算法

    • GPT3开始,API就已经不对中国开放,也就意味着中国技术人员能接触到的开源版本只到GPT2。而GPT2,GPT3,GPT3.5,GPT4——每一代都比上一代迈进一大步。OpenAI不仅研究算法,还研究开发了评估此类大体量算法准确性等性能平台。因此除了算法本身,差距还要包括基础设施。

    • GPT是大语言模型(Large Language Models,以下简称LLM)的一种发展。谷歌的对应产品Bard也基于LLM。在Google Scholar中搜索2016-2022年间LLM相关论文,很少能看到中国团队主导的研究,无论是对LLM本身的研究还是基于LLM的应用。中国在NLP的研究主要集中在落地应用上(语音识别,特定领域聊天机器人等),学术积累上已被甩一大截。

    • AI领域很多优秀研究者是中国人或者是华人,中国事实上在交流中吃到了不少”祖国“红利,随着脱钩加速,是否还会有了解相关技术的人选择回到中国发展,要打个问号。

  • 算力

    • 中国的芯片基建一向薄弱,过去还能依靠大量进口来维持算力供应。但随着与掌握芯片技术的国家关系恶化,芯片供应”卡脖子“将会成为常态。

    • 自主研发?——请参考大炼芯片的这几年,这条路可称为上一周期的幻梦。

    • 与此同时主流芯片厂商还在不断开发为机器学习设计的芯片,差距将进一步拉大。

  • 数据

    • OpenAI提出了Scailing Law,即模型能力与参数规模、数据规模强相关。并以此思路提升GPT性能。可以相信后来者要追赶也必须要具备足够大规模的数据,且数据质量会直接影响模型能力。

    • GPT训练数据来源包括互联网上大量论文、书籍网站、Github、Wiki、Reddit、Stack Exchange(技术问答交流网站)等。不仅数量可观,质量也相当过硬。

    • 反观简中互联网,由于高密度高强度的审查,专业性回答、长句子有逻辑的文本数量堪忧;规避审查而诞生的大量缩写词,在网络水军和无意义议程设置下骂战养蛊养出的阴阳怪气meme词是文本质量的基本盘。不难想象,中国版的GPT会是知乎贴吧微博豆瓣小红书等主流社交媒体的缝合怪。

    • 考虑使用国外数据集翻译成中文?——语言是思维的载体,这种方式在简中大概率不可行,因为中国审查光谱处在一个堪称战犯的位置,大量英文语料的价值观注定了不可能被中国的GPT使用。

综上,我对中国能否做出一个GPT类似的服务打个问号。即便做出来一个类似的产品,性能上将注定复刻百度和谷歌的技术、性能差距。不过GPT要翻墙,估计很多人也感受不到区别,就像认为谷歌也不过如此一样。

但是出来混迟早要还,作为具有颠覆性潜力的科技创新,GPT不诞生在自认为在AI领域弯道超车的中国,本身就是一种对保守封闭社会环境的报复。

中国能否复刻GPT诞生到下沉应用的环境?

一项提升社会生产力的技术,绝对不是只停留在纸面专利或是实验室里就可以改变社会的。从实验室走向普通用户,中间靠的是包括研究者、投资者、生态开发者的接力。想想交流电,想想苹果手机——你就能明白当我们讨论中国能否出一个颠覆想象的GPT的时候,我们讨论的并不只是GPT本身。

  • 研究者(学术界)

    • 颠覆性的想法只能来自于自由的想象、自由的探索和结合。复杂体系是自发生成的。然而中国的研究者们”自由“的时刻显然并不多,否则不会出现过去几年LLM研究无人问津的情况。

    • OpenAI最开始是无数非盈利研究机构中的一个,也并非是什么国家支持项目,是随着技术的发展逐步得到科技巨头的青睐的。必须是资源自由的流动,愿意承担失败风险的投入者们(无论是投入金钱还是投入智慧)支持不同的丰富的新点子,支持创新想法在实践中脱颖而出。

    • 中国想要追赶,很容易落入我称之为”大机构诅咒“的情况:在大机构内资源分配是取决于上级的,但是创新就意味着播下的种子会在什么时候发芽、是否能长成参天大树完全未知,大机构在资源分配时会倾向保守,追求可预见的回报。举国体制对应的大机构不具备选拔培育功能,而且会抑制颠覆性创新点子的成长。

    • 即便Google的Bard略逊一筹,但中国在Google与OpenAI两者你方唱罢我登场的时候,可能才如梦初醒——自己已经落后太多。论文能展示的只是结构化的东西,还有很多Know-How、经验是需要在实践、交流中获得的。过去几年可以说是因为疫情阻断了交流,但是随着脱钩加速,过去的交流受阻的非常态可能会成为未来的常态。

  • 投资者(商业环境)

    • 投资环境如果容错率高,偏好大胆的点子,那么颠覆性创新更容易落地;投资环境如果热衷于追短线即时回报,那么有再聪明的人创新也只能难产。在GPT出来以前,中国的VC基本处于哑火状态,ChatGPT已成气候才开始炒短线热点,连追硅谷VC的热点都慢了不止一拍。

    • 企业是建立、发展GPT环境不可或缺的一环(由上一部分可知,此处指私营企业,不含国企)。中国的私营企业曾经通过对外技术资金等交流快速成长,但是如今这些条件随着意识形态冲突加速不复存在。中国的科技企业光是追赶GPT产品本身就已是任务艰巨。

    • 马斯克、微软相继投资OpenAI是相信长远预期下创新能带来可观回报。然而中国随时动荡颠覆的政策环境不允许企业相信长远预期,做”汉化“是保险又来钱快的途径。因此中国的科技巨头只能追在别人屁股后面跑,难以产出、支持颠覆性的创新技术。

    • 中国的优势在于把别人的探索成果大规模复制,例如:过去的高铁,现在的新能源电池。但是复刻不能造就伟大的创新企业,尤其是在科技领域。宁德时代就是很好的例子,股价猛涨但是工程师类员工待遇一言难尽, 本身就依旧是劳力密集型而不是智慧密集型的企业,依旧不是一个高科技企业。

  • 生态开发者(将技术进一步推向普通用户的爱好者们)

    • GPT作为一种通用领域服务,可以发展成iOS、Android一样的基础设施;前提是有足够多的开发者进一步发挥想象力,降低使用门槛。以图灵为代表,英国在二战期间发展了计算机,但是作为行业的发展却是在美国,因为美国在战后对民间解禁计算机技术,开放了更多的可能性,才有行业的走向普通人的发展。

    • GPT发布后,在Reddit、Twitter这样的通用领域社交媒体都涌现了大量的开发者们宣传自己基于GPT建立个性化的服务。普通人不需要造访技术社区,在常规社交媒体上搜索也能找到好玩的GPT服务。反观国内的微博,不仅反应慢,信息质量也差——微博上搜索基本只能搜出毫无意义的新闻通稿和猎奇报道。

    • 中国的另一层阻碍在于合法性。GPT的API不对中国开放的情况下,中国的开发者即便建立了服务也只能偷偷摸摸用,不能够发展成为可观的商业服务。商机,消失了!

  • 普通用户

    • 上手一个新玩意,要先知道有如此一个产品,以及它的局限,才能更好的使用它。光是翻墙和国外手机号注册,就已经难倒中国大部分人,更别谈对ChatGPT的体验和感受了。

    • 22年12月,基于GPT3.5的ChatGPT就已经发布,在这期间许多国外用户都或多或少从各种媒体上了解到,并且也能注册试用。然而中国的主流舆论在两三个月后才注意到它,并且没有媒体能够产出一篇文章讲清楚GPT来龙去脉、优势和缺陷,普通人可能只被捕风捉影的报告吓得担心自己的工作要完蛋了,却难以体验到GPT可能带来的效率提升。

共同影响整体生态的,还有不能忽略的一只大象就是审查。不仅是前文提到的对数据质量的影响——而是从生态到落地全方面的影响了中国版GPT的前景。由于目前机器学习模型内部过于复杂,研究者们无法完全解释其中原理,对于生成式AI,更是无法完全控制和预测它的生成内容。在中国目前道路以目的环境下,无论是研究者还是企业都有蒙受超出可承受范围的风险的可能,这还不只是经济损失。

而如果研究的主体不是企业而是国家机构——如果不用于审查,最后下场必然是大炼芯片翻版;如果用于审查,那么产物和建立亲民的生态环境、提升普通人工作效率就毫无关系。上一个中国全力发展的AI领域是计算机视觉,它最终成为了警察系统监控普通人的“老大哥的眼睛”。

中美对审查的定义也大不一样,一有人提审查马上就有人说,“你也不能对Chatgpt说种族歧视的话啊”——但是你要知道在中国,说洗净平底锅也要被审查,说5月35号也要被审查,基本伦理道德和替威权捂嘴——难道这二者是一个级别的吗?如果大部分人,包括研发人员和商业落地中的实现人员,是如此理解审查合理性的话,那显而易见在无论在哪个平行宇宙,都不会有GPT出现。审查的本意是对内容质量的把关,但在中国,审查已经成为保守威权的打手。

小结

以上都是预测。时间会检验预测,前提是设立好标准。中国有以下三种程度的追赶GPT:

  1. 造出效果和GPT一样的AI产品

  2. 营造出基于GPT类产品的服务生态

  3. 超越GPT,提出更颠覆性的通用人工智能

中国会走到哪一步,还是连第一步都难望其项背?至少目前为止,围绕GPT在中国发生的讨论,说明简中人早已变成了不能说、看不到、听不见“三不”猴子。

Reference

想看更多技术内容可看:

GPT-4 Research

中国如何缺席chatgpt盛宴

Timeline of AI and Language model

对OpenAI发展历程感兴趣的可看:

Timeline of OpenAI

涉及社会环境的讨论可看(以下均来自不明白博客):

Chatgpt会如何改变我们的生活

从 ChatGPT 看中美人工智能竞争

Last updated