训练AI,被AI替代

日期:2023-09-25  作者:小天  来源:www.txunda.com  人气:184

一、标注,让AI睁眼看世界 

为了让机器像人一样理解文字、语音、图片,人类创造了一个机器的学习链条:采集物理世界的实物图像和声音,对数据进行标注、清洗,将数据转换为一串串代码后输送给机器。

 如果您需要相关服务,可以找天津天迅达科技有限公司,我们的业务有Web开发、iOS APP、Android APP、微信开发、HTML5开发等,天迅达——您身边的App个性化定制专家!

 AI学者认为,三岁婴儿通过眼睛“拍摄”了数亿张图片,反复认识世界。所以只要给机器灌输足够多的数据,也能让机器从学会识字、认句子,最终理解语言背后的深意。 标注图集ImageNet上有1500万张图片,这个数据集帮助无数AI企业获得在计算机视觉上的突破,比如人脸识别、搜图看看。 

为了搭建ImageNet,全球167个国家的近5万名数据标注工一起标注了两年半,他们都来自众包平台Mechanical Turk。 标注要求十分简单,MTurk常见的工作内容就是区分照片的颜色,或者对图像中出现的动物进行分类,或是用一个个方框框定选定对象,标注其名称:这是蛋糕、这是汽车、这是一朵云等等。

 当AI迈入2.0时代,ChatGPT惊艳了投资者、企业家和创业者,大家对AI的期待已经不仅仅是死板地识别文本、语音和图片的信息了。人们还希望AI能像人一样真正理解事物之间的联系,识别微小的区别和动作背后的情绪,主动地分辨和搜集信息。 比如让自动驾驶汽车区分前方是一个空扁的塑料袋,而不是一块颜色体积相近的石头;让游泳池旁的摄像头不再只是记录泳池旁发生了什么,而是理解发生了什么,在有人溺水时发出警报。 这些依然需要依赖数据标注,并且对标注提出更高的要求——更垂直、更精确、更节约。 标注市场的热潮也由此开始。

 二、“订单多到做不过来” 在需求的推动下,成立新团队淘金的不止代延。

山东东营的张唯在去年底也开始投身数据标注创业,半年发展为一个十几人的小团队。依靠当地政府的补贴和扶持,张唯的公司不仅获得免费的办公室,政府还帮忙拉通甲方资源。 项目订单不少,从最初十几万的项目到最近的40万订单,紧迫的交付任务让张唯更积极地寻找标注工:前几天,张唯仅一天就添置了6台电脑。

 在河南郑州,一家做数据标注的众包平台正迁移至能容纳百人的两层办公楼。它们在门口招牌、办公室里都写上公司的定位:“AI人工智能大数据研发基地”“重复的数据清洗,是为了你的AI更智能”。 

三、更卷,也更严格 

数据标注的链条由三部分组成。 上游:1~150人的数据标注公司、线上散兵和小作坊。 中游:数据服务商,一类是承接上下游的中介方众包平台,一类是企业为稳定投入产业而选择自建标注基地。 下游:科技公司、行业企业、AI公司、科研单位,在2018年左右以互联网企业为主导,现在转至车企、自动驾驶企业。 行业普遍采取分包模式,即先由甲方企业发标,第三方服务商参与竞标,竞标成功后进入企业的供应商梯队,其中核心供应商能享受优先任务选择权和更多订单。

 企业对核心供应商的要求是拥有至少30人的交付团队,成熟的订单交付经验,建立培训体系、把控交付质量和数量的能力。稳定的生产团队,最终导向让公司更有竞争力的低报价。 人工智能学者吴恩达多次强调,有标注的高质量数据才能释放人工智能的价值,高质量数据越多,人工智能的发展就会越快。

 在无人车的标注数据中,表现为矩形框与标注对象的贴合度,贴合度越高算法精度越高,算法对车辆的控制越精准。 高质量的文本标注项目,表现为语义理解的正确性、答题的正确率等。正确率越高,被训练的大模型越聪明。 这种练习是指,训练拉框的精确度,用鼠标在电脑的标注页面一气呵成拉出一个矩形框,能准确盖住标注对象,不踩线、不漏点,甚至是严丝合缝。 

总结:

天津天迅达科技有限公司从业多年,积累丰富项目经验,能帮助您做出您想要的产品。 

以上所有设计图和部分文字均来自网络,如有侵权,请call我删除,感谢~ 

天津天迅达科技有限公司经过多年来对APP、小程序、以及网站建设的探索,已经帮助每一个客户快速开发出属于自己的APP、小程序、网站,是万千企业之选。 

标签:天迅达科技 天津APP开发 天津网站建设 网站建设