AI带动最火副业:拉框员,了解一下?

HR实名俱乐部 2024-01-23 10:10 328 阅读

作者:熊童子

来源:HR实名俱乐部(ID:HR_club)

下午看百度“文心一言”发布会,百感交集。

略有失望,比如产品演示播放的是视频,需要邀请码用户才能使用,怎么看都觉得缺点自信,很多人还把注意力留给李彦宏的着装。

当然,小编还是觉得,没必要对一个初代产品一棍子闷死,毕竟,所有产品1.0都是浑身bug,比如初代的iPhone,初代的特斯拉电动车,都有各种问题,而火爆的ChatGPT,已经是迭代三四代之后的产品。

正如李彦宏所言,“文心一言并不完美……只是市场有需求,百度算第一个做出来并真正发布出来的”,勇气可嘉。

关于AI行业,就像手机、新能源行业、我们应该给国内科技大厂一点时间。

今天重点想谈谈,AI行业会带来那些新工作,之前太多人谈A可能I会替代什么工作,实际上,AI也会带来一些新岗位。

就像外卖行业,诞生了大量的“外卖小哥“,AI行业,首先也会诞生一个并不引人注意的岗位——拉框员。

1、拉框员的来源

“拉框员”是俗称,专业称呼是“数据标注员”。

张强是一个创业小团队的老板,他搞数据标注的工作有一年多,他的团队里有十几个人,项目涉及百度、网易、阿里等互联网大厂,他们每天的工作做数据标注。

如图所示,电脑屏上的图片,有人戴着眼镜,拉框员要做的就是,用鼠标框出来人脸的眉毛、眼镜、颧骨等位置。

“说出来你可能都不相信,就是画这一个框。”张强信解释道,“好比你现在打开电脑,然后摁住鼠标右键拉一下,一个框就是3分钱。”

张强说,“拉框工作最主要的卖点,可以利用碎片化时间获得收入、操作简单无门槛。”

因此,拉框工作还特别适合一个群体——宝妈。

每当丈夫上班、儿子返校,家住武汉的全职妈妈吴海燕,便会坐到电脑前开始一天的工作,她的参与一个兼职的项目叫“freespace鱼眼语义分割”。

所谓鱼眼语义分割,是因为吴海燕标注的图片全都来源于车载鱼眼摄像头所录视频。

这些图片的场景大多在停车场中,吴海燕需要做的是利用点阵工具,将立柱、栅栏、机动车、行人等物体的接地点标出并链接,形成一块蓝色的封闭多边形区域,这块区域就是freespace(可行驶区域)。

吴海燕标注好的数据,可用于训练智能汽车的自动驾驶算法,帮助AI理解在停车场哪些区域可以行驶、哪些区域可以停车、哪些区域不能触碰。

吴海燕说“现在看到新闻里很火的ChatGPT,有一种亲切感,好像是自己手把手教出来的。”

2、拉框简史

2007年,计算机视觉专家李飞飞第一次试验用数据标注训练人工智能时,以每小时10美元的价格雇佣了一批普林斯顿的本科生为她「拉框」。

2009年,她和一群华裔学者建立起一个超大图像数据库。2010年起,每年他们都会举办一次计算机识别竞赛,参赛者拿出自己的算法,以数据库内120万张图片为训练样本,经过训练的算法再去识别另外5万张新图片,看谁的算法识别率更高。

他们数据库里面的每一张图片都是经过人工标注的,这一点很少有人知道。

一晃八九年过去,当时美国普林斯顿本科生干的那些活,飞入了中国河南、河北、山东的四五线小城,成了一个庞大的产业。

2021年,国内科创板有一家上市公司叫海天瑞声,专门做人工数据标记服务的。2019年度,在海天瑞声兼职的“拉框员”有6.93万人,同期该公司的员工仅142人。

2019年,这个公司年收入就突破2个亿。

3、拉框工作原理

根据应用场景的不同,“拉框”分很多类型。

比如前面提到何信团队的图像标记、吴海燕的鱼眼freespace标注,属于“图片版标注”,专业说法是属于语义分割。

还有“语音版标注”,主要针对语音片段处理,拉框员一般需要标出语音语调、音素、 韵律、词性(动 词、名词)等属性。

看一个具体的例子,要求是非常细致的,如图所示:

大火的ChatGPT属于NLP(自然语言处理)模型的一种,这类模型的训练,需要拉框员进行大量的自然语义类型的标注,也叫“情感类标注”

比如,AI机器看到一句话“今天是周五”,这句话好像是传达正面情绪,如果这句话后面紧接着补一句“我还要加班”,瞬间就变成了负面情绪。拉框员就要对这些语料进行“正面情绪、负面情绪”等标记。

再看一个例子,看看具体怎么标记的:

总之,原始的文本数据给机器是识别不了的,所以需要拉框员进行人工标注,给每一个词语、句子进行定性,从而可以使用模型做分析和表达。

而且,词性及句法标注只是NLP模型训练的第一步,后续还要经过特征工程(将词句向量化,便于计算机识别)、选择模型、训练模型、评估模型及测试上线,如果没有高质量的优秀训练数据集作为基础,后面聪明的AI机器人不可能诞生。

4、拉框行业状况

拉框员平均收入怎么样?

根据张强介绍,2017年左右,那时候做“拉框”的人不是很多,价格是目前两到三倍,画一个框大概七八分钱。

现在在他的团队里,一个成熟的员工一小时能画600个框(二维图片标记),按照一个框3分的标准,能赚18元。

如果做语音标记,熟手的话,工作日薪能达300元左右。

当然,拉框员也有不同准入门槛。比如在有道众包的少儿英语段音频转写里,要求口误重复、语法错误等如实转写,这对于拉框员的英语水平要求不低。

因此,不同门槛的拉框员,收入有差距也很正常。

5、最后的总结

无论ChatGPT,还是百度的文心一言,或其他AI模型,

它们的诞生本质上还是靠“大力出奇迹”,依靠大数据、高算力、大模型硬堆出来的,背后还包含了大量的、数不清的拉框员的劳动力。

就好比说,滴滴和美团的市值越高,他们平台上的司机和小哥就越忙。当然,不可否认,他们给社会创造了上百万乃至上千万的灵活工作岗位。

2021年2月,“数据标注员”正式成为新职业,并纳入国家职业分类目录,相信不久,“拉框小妹/小哥”也将走到舞台中央。




(本文来源HR实名俱乐部(公众号ID:HR_club),如有侵权请联系删除)

刷新简历无人问津?AI精准优化,让面试邀约多起来!
在职跳槽,简历查询却无人问津?别让简历影响您的职业机会!我们的AI简历优化服务,融合了数万份成功简历的实战经验,通过精准分析和深度优化,让您的简历完美匹配目标岗位。让招聘官第一时间注意到你,邀请面试...
2024-09-18 17:51
下载APP
扫码下载APP
三茅公众号
扫码添加公众号
在线咨询
扫码在线咨询
消息
关注
粉丝
正在加载中
猜你感兴趣
换一批
评论和点赞
59452
企业的人才理念应该和整体的用人理念有所区别,因为人才和普通劳动力,本身就身就存在质量身就存在质量存在质量
评论和点赞
59452
企业的人才理念应该和整体的用人理念有所区别,因为人才和普通劳动力,本身就身就存在质量身就存在质量存在质量
评论和点赞
59452
企业的人才理念应该和整体的用人理念有所区别,因为人才和普通劳动力,本身就身就存在质量身就存在质量存在质量
评论和点赞
59452
企业的人才理念应该和整体的用人理念有所区别,因为人才和普通劳动力,本身就身就存在质量身就存在质量存在质量
评论和点赞
59452
企业的人才理念应该和整体的用人理念有所区别,因为人才和普通劳动力,本身就身就存在质量身就存在质量存在质量
更多
消息免打扰
拉黑
不再接受Ta的消息
举报
返回消息中心
暂无权限
成为三茅认证用户,即可使用群发功能~
返回消息中心
群发消息本周还可群发  次
文字消息
图片消息
群发须知:
(1)  一周内可向关注您的人群发2次消息;
(2)  创建群发后,工作人员审核通过后的72小时内,您的粉丝若有登录三茅网页或APP,即可接收消息;
(3)  审核过程将冻结1条群发数,通过后正式消耗,未通过审核会自动退回;
(4)  为维护绿色、健康的网络环境,请勿发送骚扰、广告等不良信息,创建申请即代表您同意《发布协议》
本周群发次数不足~
群发记录
暂无记录
多多分享,帮助他人成长,提高自身价值
群发记录
群发文字消息
0/300
群发
取消
提交成功,消息将在审核通过后发送
我知道了
您可以向我询问有关该内容的任何信息,或者点击以下选项之一:
{{item}}
三茅网出品,免费使用
复制
全选
总结
解释一下
延展问题
自由提问

AI带动最火副业:拉框员,了解一下?

HR实名俱乐部2024-01-23 10:10
328 阅读

作者:熊童子

来源:HR实名俱乐部(ID:HR_club)

下午看百度“文心一言”发布会,百感交集。

略有失望,比如产品演示播放的是视频,需要邀请码用户才能使用,怎么看都觉得缺点自信,很多人还把注意力留给李彦宏的着装。

当然,小编还是觉得,没必要对一个初代产品一棍子闷死,毕竟,所有产品1.0都是浑身bug,比如初代的iPhone,初代的特斯拉电动车,都有各种问题,而火爆的ChatGPT,已经是迭代三四代之后的产品。

正如李彦宏所言,“文心一言并不完美……只是市场有需求,百度算第一个做出来并真正发布出来的”,勇气可嘉。

关于AI行业,就像手机、新能源行业、我们应该给国内科技大厂一点时间。

今天重点想谈谈,AI行业会带来那些新工作,之前太多人谈A可能I会替代什么工作,实际上,AI也会带来一些新岗位。

就像外卖行业,诞生了大量的“外卖小哥“,AI行业,首先也会诞生一个并不引人注意的岗位——拉框员。

1、拉框员的来源

“拉框员”是俗称,专业称呼是“数据标注员”。

张强是一个创业小团队的老板,他搞数据标注的工作有一年多,他的团队里有十几个人,项目涉及百度、网易、阿里等互联网大厂,他们每天的工作做数据标注。

如图所示,电脑屏上的图片,有人戴着眼镜,拉框员要做的就是,用鼠标框出来人脸的眉毛、眼镜、颧骨等位置。

“说出来你可能都不相信,就是画这一个框。”张强信解释道,“好比你现在打开电脑,然后摁住鼠标右键拉一下,一个框就是3分钱。”

张强说,“拉框工作最主要的卖点,可以利用碎片化时间获得收入、操作简单无门槛。”

因此,拉框工作还特别适合一个群体——宝妈。

每当丈夫上班、儿子返校,家住武汉的全职妈妈吴海燕,便会坐到电脑前开始一天的工作,她的参与一个兼职的项目叫“freespace鱼眼语义分割”。

所谓鱼眼语义分割,是因为吴海燕标注的图片全都来源于车载鱼眼摄像头所录视频。

这些图片的场景大多在停车场中,吴海燕需要做的是利用点阵工具,将立柱、栅栏、机动车、行人等物体的接地点标出并链接,形成一块蓝色的封闭多边形区域,这块区域就是freespace(可行驶区域)。

吴海燕标注好的数据,可用于训练智能汽车的自动驾驶算法,帮助AI理解在停车场哪些区域可以行驶、哪些区域可以停车、哪些区域不能触碰。

吴海燕说“现在看到新闻里很火的ChatGPT,有一种亲切感,好像是自己手把手教出来的。”

2、拉框简史

2007年,计算机视觉专家李飞飞第一次试验用数据标注训练人工智能时,以每小时10美元的价格雇佣了一批普林斯顿的本科生为她「拉框」。

2009年,她和一群华裔学者建立起一个超大图像数据库。2010年起,每年他们都会举办一次计算机识别竞赛,参赛者拿出自己的算法,以数据库内120万张图片为训练样本,经过训练的算法再去识别另外5万张新图片,看谁的算法识别率更高。

他们数据库里面的每一张图片都是经过人工标注的,这一点很少有人知道。

一晃八九年过去,当时美国普林斯顿本科生干的那些活,飞入了中国河南、河北、山东的四五线小城,成了一个庞大的产业。

2021年,国内科创板有一家上市公司叫海天瑞声,专门做人工数据标记服务的。2019年度,在海天瑞声兼职的“拉框员”有6.93万人,同期该公司的员工仅142人。

2019年,这个公司年收入就突破2个亿。

3、拉框工作原理

根据应用场景的不同,“拉框”分很多类型。

比如前面提到何信团队的图像标记、吴海燕的鱼眼freespace标注,属于“图片版标注”,专业说法是属于语义分割。

还有“语音版标注”,主要针对语音片段处理,拉框员一般需要标出语音语调、音素、 韵律、词性(动 词、名词)等属性。

看一个具体的例子,要求是非常细致的,如图所示:

大火的ChatGPT属于NLP(自然语言处理)模型的一种,这类模型的训练,需要拉框员进行大量的自然语义类型的标注,也叫“情感类标注”

比如,AI机器看到一句话“今天是周五”,这句话好像是传达正面情绪,如果这句话后面紧接着补一句“我还要加班”,瞬间就变成了负面情绪。拉框员就要对这些语料进行“正面情绪、负面情绪”等标记。

再看一个例子,看看具体怎么标记的:

总之,原始的文本数据给机器是识别不了的,所以需要拉框员进行人工标注,给每一个词语、句子进行定性,从而可以使用模型做分析和表达。

而且,词性及句法标注只是NLP模型训练的第一步,后续还要经过特征工程(将词句向量化,便于计算机识别)、选择模型、训练模型、评估模型及测试上线,如果没有高质量的优秀训练数据集作为基础,后面聪明的AI机器人不可能诞生。

4、拉框行业状况

拉框员平均收入怎么样?

根据张强介绍,2017年左右,那时候做“拉框”的人不是很多,价格是目前两到三倍,画一个框大概七八分钱。

现在在他的团队里,一个成熟的员工一小时能画600个框(二维图片标记),按照一个框3分的标准,能赚18元。

如果做语音标记,熟手的话,工作日薪能达300元左右。

当然,拉框员也有不同准入门槛。比如在有道众包的少儿英语段音频转写里,要求口误重复、语法错误等如实转写,这对于拉框员的英语水平要求不低。

因此,不同门槛的拉框员,收入有差距也很正常。

5、最后的总结

无论ChatGPT,还是百度的文心一言,或其他AI模型,

它们的诞生本质上还是靠“大力出奇迹”,依靠大数据、高算力、大模型硬堆出来的,背后还包含了大量的、数不清的拉框员的劳动力。

就好比说,滴滴和美团的市值越高,他们平台上的司机和小哥就越忙。当然,不可否认,他们给社会创造了上百万乃至上千万的灵活工作岗位。

2021年2月,“数据标注员”正式成为新职业,并纳入国家职业分类目录,相信不久,“拉框小妹/小哥”也将走到舞台中央。




(本文来源HR实名俱乐部(公众号ID:HR_club),如有侵权请联系删除)

展开全文
顶部
AI赋能,让您的工作更高效
您可以向我询问有关该内容的任何信息,或者点击以下选项之一:
{{item}}
{{copyMenuTxt}}
您可以向我询问有关该内容的任何信息,或者点击以下选项之一:
{{item}}
{{copyMenuTxt}}
三茅网出品,免费使用
复制
全选
总结
解释一下
延展问题
自由提问
联系我们(工作日 09:00-19:00 )