机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 545|回复: 0

简体中文 互联网的有效信息才有6TB

[复制链接]

2万

主题

2万

帖子

17万

积分

超级版主

Rank: 8Rank: 8

积分
176325
发表于 2024-6-11 20:58:25 | 显示全部楼层 |阅读模式
本帖最后由 寂静回声 于 2024-6-12 09:17 编辑

最近有一个话题在网上引发关注,就是简体中文网络的内容缩减。这个话题的讨论热度是对当下舆论环境悲观的呼应。

最源初的那篇文章,提供的简中互联网缩减证据是搜索马云过去的新闻,会发现信息很少,但这点被人质疑搜索的时间相对较早,马云本来尚未有很大的影响力。
但之后,知名互联网博主“月光博客”找到了其他数据支撑这个视角。他在文章《中文互联网内容正在逐步消失》提到“Web Technology Surveys”网站对全球网站使用的语言的排序。
在2024年,全球网页使用语言数量排序依次是英语、西班牙语、德语、日语、法语、俄语、葡萄牙语、意大利语、荷兰语、土耳其语、波兰语、波斯语,然后才是中文,排名第十三。而在2013年,中文可以排到第七名。
在这十年间,中文网页的数量从2013年的4.3%降低到2024年的1.3%,比例下降了70%,目前数量仅略高于印尼语和越南语。
同一篇文章内亦引用了CNNIC发布的《中国互联网络发展状况统计报告》的数据。数据显示从2018年12月到2023年12月,中国的网站数量从544万个下降到388万个,五年时间内下降近30%。
相反,从2018年到2023年,中国网民人数却从8.3亿上涨到10.92亿。
这代表两方面的趋势。一方面,网站数量大幅度下降。持续的审核与删除,让早期论坛和网站的内容大幅下降,这可以被上述统计报告佐证。
另一方面,近几年新的互联网内容,很多是不可检索的封闭信息,例如短视频、公众号文章、小红书笔记等。连知乎也改变了搜索策略,和最近的强制登录策略同时推出的,就是禁止Google和Bing爬取和检索其内容,目前仅有百度和搜狗可以抓取知乎的信息。
根据“Common Crawl”(一个专门复制全网数据供研究者使用的组织)的历年数据,简体中文压缩数据仅有6TB,解压后也仅有30TB,中文互联网数据量到2023年到达最大值,随后快速回落,呈现出锐减的态势。
因此,准确地说,不是互联网的信息内容减少了,现在各种介质的信息呈现着爆炸的状态,而是过去的可检索信息在大幅减少。

对一般网民而言,这不构成直观的影响。毕竟新闻热点事件一天就有三四个,在此基础上生产的公众号文章、微博、小红书、播客、短视频,可以说是无穷无尽。

其实四五年之前,搜索能力的下降,搜索引擎使用的减少就已经成为趋势。
公众不是不会搜索,而是没什么搜索的必要了,各个社交媒体平台上的热榜和推荐算法已经提供了大多数的信息需要。只有少数需要生成理性内容的人,才需要密集的搜索。而这部分的需要,随着LLM模型(大语言模型)的生成变淡,很多人逐渐依赖它们提供的答案,而不再进行搜索和浏览。
这么看来,这些“长尾”内容不过是互联网时代的遗迹和荒原,对大多数人并不重要,好像失去了也不可惜。
但反过来想,互联网上的内容在变得越来越糟糕吗?这个问题涉及价值判断,恐怕很难有数量上的定论。较悲观地说,一切都在变糟恐怕更容易取得共识。不过这个问题有另一个微观视角:浏览内容的人无所谓搜索,但生产内容的人却依赖大量信息。
假设你是一位做经济分析的内容创作者,那么不管是历史数据,还是当下的数据,都会影响你分析的质量。同理,判决文书数据的收紧,也会让法律研究受挫。
从微观角度来讲,对于一篇文章或内容,可检索数据的收缩甚至难度的加大,都会导致内容生产的困境。
进行经济分析、社会分析,也不总是都从一手数据开始,很多时候也会参考二手分析找视角。这对于研究或内容创作非常重要,有越多优秀的二手分析,我们就更可能不断推进边界。
因此,一手数据和内容的缩减会进一步导致二手分析内容的数量、质量双重降低,减缓新内容的生产。然后内容生态链的下游也会逐步受影响,整个内容生态会被拖垮。
AI的内容生成就像是对互联网所有既有内容的无损或低损压缩,原始的内容库质量有多好,产出的内容就有对应的质量。所以最初讨论到AI,大家才会格外关注数据质量的高低,担心国内的互联网并没有足够的优质语料,并最终影响大模型的质量。
同样的“压缩”逻辑与每个网民接受的内容类似。非常宏观地看,我们每日浏览的公众号文章、短视频、长视频,也可以用这种“压缩”逻辑进行思考。

例如,有人写一篇分析特朗普刑事案件的文章,最有可能的写作过程是根据他对美国的印象,看数篇类似立场的文章后,“压缩”出一篇他自己的。那么,这些文章的平均水准就变得很重要了。
如果整个信息环境中的平均内容水平高,那么互相压缩,可能让内容不断升级。反之,则大家都囿于一种低水平状态。
“压缩”的隐喻只要往前一步,就可以更好地概括我们面临的处境。人的创作过程毕竟不像AI,现在的AI是不会创作出新的内容,而是根据既有内容的压缩和复述,但人作为创作者,总是可以加入自己新的理解。
从这个角度上看,内容生态与生物生态很相似,多样化、充分竞争是维持良性循环的关键。信息的丰沛与多样,让各个生物不断提高自己的适存性,也让整个环境更稳健。而信息、可检索内容的缩减,则会导致多样性的式微,种群则可能陷入简化和平庸。
既然面临的媒介环境如此,对于个体而言,可以做的事情就像物种保育一样,你需要一个保护区,就以你为圆心展开。既然整体环境已经失去可持续的空间,我们就需要建立一个属于自己的封闭式环境。998也是这个观点http://jixietop.top/thread-56600-1-1.html

既然现在的问题是多样性与质量的双重问题,那么解决方案也从这两部分开始。
多样性是一件知易行难的事,这需要整体改变你已习惯和舒适的媒体摄入习惯。大多数读者以简中媒体圈为核心信息源,包括但不限于公众号、微博、B站、小红书、中文播客。最简单地说,我们可能认为上述平台已经包罗万象,只需要找到这些平台里优秀的内容即可。
但这里需要考虑几个方面:1)在这些平台上,你能摆脱推荐算法的影响吗?(执行选优内容的可能性)2)在这些平台上,内容的多元化程度高吗?(不要高估简中内容的丰富程度)3)在这些平台上,优质内容与非优质内容的比例如何?(执行选优内容的成本)。
甚至,我们还需要深思那些我们已经认为是优质的内容,是真的优质还是源于我们对它的熟悉。
因此,从多样性的角度来看,最容易的方式反而是“引入外来物种”。去不熟悉的网站、平台看看,多使用搜索、使用外语。为这件事找到必要性是困难的,如果没有十足的理由,谁会走出自己的舒适圈去不熟悉的地方呢?
这里可能的实现路径是对于新话题的关心。通过关注新话题,从而对这些话题的来源产生兴趣,并拓展自己的摄取范围。比如,如果你对特朗普的审判感兴趣,这就是关注一批英语播客的好时机。
将你的媒介摄入通过听、读的方式转向更多书籍,将漫不经心的滑动屏幕变为投入在一本书籍上集中摄取,长期下来一定会提高对信息的检索能力和吸收能力。
不过这仍然是不足够的。或许很多人都有这样的体验:你看了一篇很好的文章,或者听了一期不错的播客,期间颇有收获,但过了一两天就把那些内容忘得七七八八。
如果我们可以用欣赏音乐会一样的要求来应对知识和信息,这倒也无妨,只要在阅读和收听的当下给予我们愉悦的体验,之后的部分就全不在乎。但网络内容能传达的视角通常都很简单,是一个概念或一个简单的叙事。一篇飞速炮制的文章或播客本来就难以传达很深度的信息,其残留的内容则会更扁平。
与其相反,我们在大学时期学到的内容,都是以更大的篇幅吸收的。当前面提及的可搜索性减少时,恐怕需要在我们自己的内容周围提供一种搜索的可能。很多人在阅读文章或吸收内容的时候制作“思维导图”,可能就会在未来提供搜索的可能。
我有一个习惯,在遇到有价值的文章时,我都会转存到咱们山庄来,并在之后利用内部的搜索功能来进行检索,这弥补了无法在网上进行搜索的问题。不过这也需要每个人去寻找适合自己的笔记app,比如oneNote。
完成以上两点,至少能在个人生活的周围,在贫瘠的信息环境下,进行一定的保育。互联网信息崩溃式的缩减在你的生活中会得到遏制,甚至会带来一些新的机会和转变。

现在开始有一种新的可能性,即我们所有信息的需要,都可以通过AI完成。不需要搜索,不需要文章、书籍、社交媒体,所有问题都可以由AI给予答案。
我想诸位应该都已经尝试过一二,有时候AI能带来惊喜,但大多数时候过于笼统,且信息的准确性都很难保证。
当然,AI依然在一日千里地发展。经过不断迭代,上述问题是否都可以得到解决?我不敢断言这是不可能的。
不过我的疑惑是,如果将来我们用这个方式替代了原始的搜索,并依赖AI给予我们对很多问题的直接答案,我们如何确保自己的独立性?



http://jixietop.top/thread-56602-1-1.html
一个AI负责编造内容,另一个AI负责引用内容。
只有人类是最大的傻瓜


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2024-12-24 07:10 , Processed in 0.100701 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表