Self-Attention
要解决的问题:之前的网络结构支持的输入都是一个Vector,如果Input是个vector set,而且不同的vector set大小不一样,那么网络可能无法处理
- Input:N个vector
- Output有以下几种:
- N个class label(sequence labeling)
- 1个class label
- N’个label,模型自己学习他要输出多少个,又称为seq2seq
idea:
Word Embedding是一种无监督式学习,只需要让模型阅读大量的文本资料,模型就能学习怎么将如何用vector表示所有单词学习出来。
那怎么找到这样的function去训练模型 exploit the context?
有以下两种思路:(1)count based;(2)prediction based;
让Word w_i和w_j的向量乘积能够近似于w_i和w_j共同出现的document数量。
given a word, predict 下一个word是什么
input: 词汇的 1-of-N encoding
output: 概率分布vector,dim=N
完成训练后,模型是中间的hidden layer-z。因为不同的w_i作为input放进模型的时候,对应的z_i不同,可以用z_i表示w_i.
prediction-based为什么可以学习到context信息?
下面的例子(抛开政治含义)是说:如果training data中,两个人名后面跟着的word一致,那么模型需要让两个人名作为input的时候,输出的probability distribution vector应该要差不多,才能保证预测的下一个词是一样的。
本文主要介绍自然语言处理中的常见任务有哪些,参考材料为李宏毅教授的课程
假设将NLP看作一个黑匣子,把任务按照黑匣子的能力分类,可以分成两大类:
Input:文字
Output:文字|类别
NLP的黑匣子中是各种各样的NLP模型,各自处理着不同场景下的不同任务:
Input: One Sequence| Multiple Sequences
Output: One Class| Class for each token| Copy from Input| …
1. POS part of Speech Tagging
给所有的词标注词性,输入为一段文本(sequence),输出为此文本中所有单词及对应的词性(class for each token)
2. Word Segmentation
对于中文来说,有时候是需要的,因为中文不像英文有空格这个天然的分词符号,分词有时候是有歧义的。但是Bert模型的出现,说明分词可能不太需要(Bert将所有字单独拆为一个个token,而不是用词当token)
3. Parsing
输入:一个句子;输出:一个树状结构
分类:Constituency Parsing|Dependency Parsing
Parsing的结果通常会作为downstream任务的额外feature input
在阅读梁老师的这本书时,像是一些年轻的学生带着自己的迷茫在老师办公室中请老师指点迷津,梁老师用一种关怀、真切的方式娓娓讲述他对这些迷茫和困惑的理解,以及他的建议,老师的每一句话都包含对年轻人们的希望和鼓励。学生们静静聆听,时不时露出若有所思的表情,在沟通完之后,每一个人都或多或少对自己的未来有了更加明确的期待,前路的迷雾也被拂去了一些。
这样说起来,其实这本书有点像是一期播客的脚本,播客的主题覆盖很广,梁老师从自我出发,聊到了年轻人的工作观、“躺平”,聊到了人格,女性话题,爱情与孤独,还延伸扩展到什么是美,什么是艺术和修养。
不同于苍白的说教,老师在分享他对于这些论题的观点和自己的理解前,是充分了解当代年轻人,也就是我们这一代人,是怎么看这些问题的。
比如,老师在谈论工作和“躺平”的话题时,他知道年轻人们口中的“躺平”、“摸鱼”不等同于偷懒和怕苦,这只是年轻人应对「父辈传承下来的“劳动是为集体为国家发光发热”的价值体系」与当前「自己的工作就是在压榨生活」的割裂时的自嘲和调侃,看似年轻人工作不积极,但是隐藏在这些话语下是年轻人在探索自己究竟想要什么样的生活的积极心态。
正是因为我们不想要时刻紧绷的,996式的工作,不想要下班假期还要随时oncall的状态,所以我们选择用“摸鱼”、“躺平”的话语去抗争,去表达对现在工作环境的不满。在躺平话语的另一面,多少年轻人面对超饱和的工作量和压力紧绷的工作环境,表面骂骂咧咧,交付产出的工作保质保量,绝不含糊敷衍了事。还要保存活力和积极的态度去探索自己生命中的光,这样煎熬着努力的年轻人难道还不能有一些埋怨了?
梁老师认为我们中华民族非常可贵,在短短的一百多年近代史里,我们完成了从农耕文化到后工业时代的飞跃,老中青三代人经历的成长时期完全不同,农业时期是一种前喻社会,生存法则由长辈向晚辈口耳相传,工业开始发展时,前喻社会与后喻社会共存,父母那一辈人很多在和同龄人共同接受新知识,互相学习,同时一些有经验的前辈也能进行指导。而现在,在信息化时代,很多时候年轻人接受新事物的能力和速度比前辈快得多,老一辈人在不清楚新事物的前提下常常会采取保守和回避的态度,有时候甚至会靠打压来维护自己的尊严,由于中国的传统文化和家族传承让我们没办法不顾及长辈的感受,我们大部分都希望得到长辈的祝福和肯定,这也是当前很多家庭矛盾产生的原因。
REST stands for Representation State Transfer
RESTful服务是云计算的关键,REST架构的四个约束:
Technology should be considered as business enabler instead of necessary cost.
在很多公司,都将Technology视为必要的成本,有时候为了削减成本,公司会选择外包的方式省一些钱。而实际上,Technology能够承担的角色应该是实现更高商业价值的助推器,但是很多企业家会害怕Technology不能给他们带来可观的收益,因此不敢给Tech发挥的空间和环境。但是像Tesla,Pixar这些成功颠覆各自领域的公司,他们都是大胆采用新的技术,为了给用户带去更好的体验,然后实现成功的business transformation。
在一个公司里,从产研团队向谁汇报就能看出这个公司是如何看待Technology的。一般来说,如果产研团队的管理者是CIO,因为CIO是为业务服务的,所以在这样的business-serving氛围自顶向下的传导下,产研团队会被视为是成本部门,负责接收股东们的需求,并作为feature factory不断迭代。
Leadership和Management是不一样的,虽然有些Leader同时是Manager,但是就这两种身份来说,他们身兼之职的侧重点不一样。
Leadership->Inspiration;
Management->Execution;
四项 Product Leadership的责任:
Product Vision-产品愿景:产品迭代中的北极星,要为用户在产品生命周期内提供什么样的价值,用于指引团队无论在做什么样的功能需求,认清楚愿景,就能够保证所做之事不会偏离原定轨道,同时起到凝聚团队的作用。
Principles:能体现团队的价值观,在面临一些权衡的时候,principles能够帮助团队成员正确决策,并且这样的决策是符合团队的价值观的。
前提:对于很多做SaaS的企业来说,他们最大的竞品很可能是Excel或者Google Sheet,因为大部分的工作都可以通过这两款产品完成,很多SaaS产品都是针对某类特定办公场景提供比这两款产品更便捷使用的效率工具。
让Notion变成现在这样All in One的产品的契机是两位创始人在京都打造产品时,除了用Figma进行协作外,还需要用很多其他的产品和服务才能完成工作,因此创始人之一Ivan决定做一款产品让所有的工作都可以在上面完成。
创始人的产品理念
他们的产品把除电子邮件和即时通讯之外的几乎所有效率工具都整合到一个精简美观的设计中:Ivan将其总结为一个“后文件、后 MS Office世界”的工具。这使Notion比当时市场上的任何其他工具都要实用得多,并吸引了更广泛的用户。
Notion的产品设计
Notion的产品设计主要围绕WIKI、Task management、Notes这三个工作方向开展,用户可以通过以下Notion的模块完成这三种任务:
Notion鼓励用户去分享自己的模板,高质量的社区文化也是Notion在用户中自发传播的重要原因,新用户通过核心用户分享的可直接duplicate的模板接触到产品,并通过一键复制开始使用产品。
Notion的竞争策略设计
主动替换竞争产品,通过与竞品对比让用户快速理解Notion能做什么,以及为什么做的比别人好,这些信息都直白的写在官网里:
减少用户的迁移成本,Notion提供了一键Import的服务,让用户能够很方便的将过往的内容迁移到Notion中来管理:
例如,Notion提供了一键迁移印象笔记的服务,同样的,Notion也提供像印象笔记一样的Chrome clipper插件,让用户能够无缝从印象笔记中迁移【过往的笔记】、【使用习惯】来到Notion。
Notion的用户增长来源主要为有机增长(Organic Growth)和社交媒体传播,80% 以上的流量来自用户的主动搜索,付费搜索只占 6% 。Product Hunter,Reddit 等网站和社区都给 Notion 带来了很多口碑用户。
有机增长(Organic Growth)是指公司依托现有资源和业务,通过提高产品质量、销量与服务水平,拓展客户以及扩大市场份额,推进创新与提高生产效率等途径,而获得的销售收入及利润的自然增长。
Notion的增长三板斧
建立活跃的社区
Notion在其他社交平台上向所有用户介绍自己的产品,并且告诉用户们在哪里可以与其他Notion用户一起讨论,互相认识,交流使用心得。
同时,Notion的Twitter也是他们的客户支持渠道之一,帮助用户处理解决不了的问题,偶尔也会通过这个渠道来举办一些活动,促进用户活跃度
让用户成为推广大使
Notion 还上线了名叫 Notion Pro 的大使计划,旨在利用超级用户来激励和教育其他用户,这一策略取得了很大成功。Notion 的营销主管 Camille Ricketts 在与 Forget The Funnel 的谈话中谈到了这个项目的早期阶段。为了测试用户反响,他们使用 Notion 平台建立了一个简单的登陆页面,很快就有了 400 个申请。为了保持可管理性,Notion Pro 最初只开放 20 席。现在已经逐步放开,只要能够证明自己在某个社交平台有足够影响力,并且善于使用 Notion 的产品,就可以成为大使。
用模板库建立增长循环
Author: @Xiaoxiao Liao
Shopee在2015年成立于新加坡,其母公司SEA是领先全球的消费互联网企业,核心业务涵盖电子游戏、电子商务以及电子金融。Shopee于2016年开始在中国开展跨境电商业务。完整内容请点击简历中的链接查看。
从东南亚起家,随后Shopee逐步扩展至拉美,欧洲等地区,从宏观角度来看,得益于目标市场地区的社会人口结构及互联网水平发展,以及疫情的催化,Shopee在过去的几年,无论是订单数量还是GMV都在迅猛增长。
订单总数 | 订单增长率 | GMV | GMV增长率 | |
---|---|---|---|---|
2019 | 12 亿 | 176 亿USD | ||
2020 | 28 亿 | 132.8% | 354 亿USD | 101.1% |
2021 | 61 亿 | 116.5% | 625 亿USD | 76.8% |
同时,Shopee也在积极布局本地生活服务赛道,拓展外卖、出行、旅游机酒等业务,趁热打铁,让更多电商服务渗透用户的生活,形成一种新的生活方式。
截至2022年3月,Shopee平台已覆盖15个站点,从人均消费能力层面来看,中国台湾站、新加坡站、马来西亚站、巴西站这四个站点是目前最大的蓝海市场,印尼站、越南站、菲律宾站未来增长潜力巨大。
在网络环境中,需要被保护的对象有哪些?
网络安全的首要目标
常见的加密方式
在哪些地方需要用到加密?
在一些场合下,人们除了传输的内容对第三方保密之外,还需要保证传输的内容不被篡改,应对这样的需求,基于Hash算法的数字签名可以很好的响应需求。
关于身份验证和授权的一个比喻,身份验证就像用身份证或护照证明自己的身份,验证后方可进入;授权则是,在拿到自己的登机牌后,凭借登机牌,拿到进入对应航班的授权。
常见的身份验证的方式
在获得身份验证时,安全系统也会根据这个身份以及对应的权限来决定你可以访问哪些位置和哪些资源。
数据和资源的访问级别:
最小特权的概念是向用户授予他们所需的最小权限。 此概念适用于任何与安全相关的设置
例如,对于一份资源,如果大部分员工都不应该去更改它,那么就应该给这些员工分配“只读”权限
又来开个坑,记录一下4集纪录片《宇宙的构造》中提及的物理学知识
💡 Empty space is not nothing, space is something and it is real and flexible.
空间是宇宙的基本构造,空间充斥着整个宇宙,虽然我们经常意识不到空间的存在。但是空间究竟是什么”物质”,目前物理学界尚未得出统一的结论。
牛顿对于空间的描述:空间是一个静止的舞台,舞台上的演员和道具不能影响舞台,永恒不变的舞台理论,是牛顿力学的基础。
爱因斯坦在20世纪初提出的假设推翻了牛顿的舞台理论。爱因斯坦从光速不变的事实入手,认为光速之所以恒定不变是因为空间和时间可以协同工作以保证光速恒定不变(速度=距离\时间),也就是说时间和空间不是恒定不变的,他们在运动中相互融合协作,并且形成了我们熟知的“时空(spacetime)”。