对《Scratch 社区数据分析与智能系统》的回复


文杰,如果要对Scratch社区的数据做分析,相比关注用户,我更倾向于关注作品。将作品作为分析对象,如哪些作品被喜欢收藏的次数最多、哪些主题相关的作品最多增长最快、动态变化趋势,这些是相对简单基本的分析。另外,通过提取Instructions、Notes中的关键词,是不是还能对作品进行一些更复杂的分析(如关于作品的内容或类型)。甚至有没有可能通过机器学习对作品封面的图片进行分析,识别不同的风格等。。。分析整理后的结果呈现在社区中,让用户自己对社区的内容有整体动态的认识和把握。如果工作流程固定下来了,甚至可以教用户自己去维护,类似数据分析与汇报委员会。系统本身不针对每位用户个人做定制化个性化的推荐,只是把信息挖掘呈现出来,让用户自己去看去寻找兴趣方向。每个作品背后都有一个作者,这个过程中自然会有人际互动与联结。

我建议关注作品而非用户的原因是我现在对用户数据分析有情感性的不适。之前你不是也跟我讲了一些关于隐私的问题吗,那个时候是理解但没有特别共鸣的,学完那门课对推荐算法的讲解后,我才意识到隐私问题可能意味着什么。我们吃什么穿什么用什么看什么听什么各种信息全都掌握在某些人手中,当关于一个人的所有信息汇总在一起的时候,对这个人会有多全面深刻的了解。外部的姓名长相都不算什么,就像Human Compatible那本书里说的,可能仅凭一个人喜欢看的电影就能判断政治和性取向。不仅是隐私,还有塑造的问题。那些应用并不只是满足于提高用户的点击率,还要影响、塑造用户的偏好,从而产生更高的点击率,获取更多的利益,这也是那本书里讲到的。想到这些甚至使我考虑退出对各种软件的登录,虽然很可能还是会屈服于强大的便利和习惯,但是认知冲突确实已产生,就像我现在会好奇与之相对立的有什么技术,如那天涉及的加密问题、还有之前没有特别关注的本地化问题。现在你应该已明白我所说的情感性的不适。我当然知道你完全是出于好奇与好意,我现在对用户数据分析与推荐算法的排斥也可能是非理性的应激,就像医学生开始学医时可能会怀疑自己是不是有各种病症。所以这个方向我可能还需更多的学习与理解,但我现在倾向于先不关注用户个人,即使是有数据。

说到Scratch,我昨天看了同一作者两篇交互设计有关的文章( 链接在下),从交互设计师的角度,很精细微妙地讨论了人与计算机的关系,特别是第一篇文章主要在谈用户问题。这两篇文章使我进一步认识到Scratch与当前主流软件的区别,通过Scratch,用户真正是在与计算机互动(因为在编程),使用计算机表达自我,即使粗糙简陋幼稚;而主流软件精美地包裹并掩盖掉计算机的复杂性,用户使用这些软件实现各种功能。关于包装问题我们之前也讨论过,汽车这些复杂精密的机器还有其他可能所有人类产品都有包装,用户也只是使用就可以了,看不见也不用管机器内部的工作机制。互联网行业当前应该也是类似思路的,一个具体的功能或所谓需求对应的就是一类产品和互联网公司,用户同样只是使用产品。都是复杂机器,作者认为我们不能把电脑当汽车看待的原因,是 汽车只对应交通问题,而 电脑可能就关系所有问题了。曾经的(个人)计算机先驱们努力的方向与期待的人机关系也是前一种有真正人机互动的(第一篇文章中作者也对他们做了多次引用)。有趣的是,作者在此批评了Alan Kay和他所提的“user illusion”概念。作者认为当前主流软件发展到今天这样的形态正是基于Alan Kay最初GUI的创造,他多少对此负有责任。。。虽然我们知道(作者应该也很清楚)Alan Kay初衷绝非如此,Etoys就同时支持GUI和CLI,而且里面很多模块都是可以被任意查看、移动、和修改的。我们不会批评Alan Kay,但类似前两天对AI的讨论,我现在觉得这些不同观点的论述很有意思,特别是这些不同观点在大方向上其实是一致的时候。在这些讨论中,问题的各个维度被暴露得更为充分,相应的,行为的选择就变得更精妙了。

两篇文章的链接:

之后我想写一篇文章,题目大概是为什么我们要学习计算机或编程,或者我们以CodeLab的名义合写,把每个人想表达的内容融合在一起。写之前,我还想至少再读一下Engelbart那篇文章、As we may think可能还有Ted Nelson那本书的节选(就是你们上次在美国见到的那本Dream Machine,也是Alan Kay和他妻子的红娘)。这个想法完全是临时起意,可能和最近关于学习的一些认识有关。即使像以前没有特别去了解计算机行业,脑袋里也会有很多计算机有关的概念,如各种主流的编程语言、工种(前端后端UI)、词汇(AI、算法、机器学习)等等,这些就好像是计算机领域的前景(foreground)。因为传媒、互联网公司等缘故,这些前景距离我们普通人最近,也最热闹,占据了各种注意资源。但是他们背后其实隐藏着一个更广阔的大背景(background),可能涉及很多方面:如计算机本身的发展史或者历史,计算机与其他学科如数学、物理、工程、生命科学的关系,涉及到的政治或道德问题等等。反思最近的学习经验,我发现对背景的认识和理解会影响到前景,比如具体学习或使用什么技术,怎么应用这些技术,解决什么问题等。如果缺乏一些背景知识,行动就主要受前景中周围人周围环境的影响,并不理解自己究竟在做什么,要往哪个方向走。在对计算机背景的认识上,你对我有很大的影响和帮助,编程语言、开源社区、人机交互、隐私安全(先列这四个方面,排名分先后,硬件部分也分情况体现在这些类别下),特别是开源社区与隐私安全,这两部分我之前不了解也不关注。之所以做这样的分析,我是在考虑这种影响或许也是CodeLab可以传递给更多人的。我们可以想想看是不是以什么样的形式做出来,文章、Scratch project、“课程”、或网站,最开始提到的那篇文章和这个想法可以等同为一件事。或许我可以先用文章和scratch实验。哈,这个时候我就想知道社区里作品的形态都有哪些了!最直接的搜索方法可能是从studio标题入手吧。关于Elements of AI,你谈到了AI民主化,我理解你表达的意思,这门课对我有相似的启发,我有把它分享给与计算机行业无关的朋友。理解与思考需要知识基础,既然AI或计算机对我们有如此大的影响,越多人了解它越好。包括AI,都是统一在人与计算机的关系问题中的。

关于蒙台梭利,我也理解你的感受,犀利的头脑、温暖的心肠,既有理论又有实践,你讲到的点我也都印象深刻。有些东西真的会好到让人想哭,她的书和她做的事就是。我觉得她和Seymour有很多相似之处。他们都做教育,肯定也都读过很多教育学专著,但明显各自的理论基础都在教育学之外,一个是科学与医学,一个是数学与计算机。不仅如此,这些应用在教育中的源自其他学科的成果在当时都还是非常前沿的。他们对儿童自主性的充分尊重也是相似的。我在读的时候一直关注的一个问题就是她是如何将那个时代她吸收到的科学理论知识转化应用到自己的实践工作中,甚至建立起一套体系。前面几章我看了不止一遍,最开始看到她讨论给学生以自由时我很激动,觉得论述如此有理难度别人不觉得吗。后来我意识到,自由是一个很复杂的问题,并非其他所有方面大家都全部自由了,只有学生没道理的不自由,那么给学生以自由也不是如我一开始想的那样理所应当。我们肯定认同她,但这到底还是关系到主观价值判断问题,就会有很多人不这样想或觉得有其他东西权重更大。我没有看完,想到这些我就放下去学微积分了,就好像有更基本且相对不受价值观左右的东西需要先学习。

Back to blog

Projects, Passion, Peers, Play