一种基于智能合约的数据标注众包平台系统及众包数据标注方法与流程

文档序号:17079338发布日期:2019-03-09 00:04阅读:1734来源:国知局
导航: X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术
一种基于智能合约的数据标注众包平台系统及众包数据标注方法与流程

本发明涉及区块链、智能合约、数据众包、机器学习和深度学习技术领域,特别涉及一种基于智能合约的数据标注众包平台系统及众包数据标注方法。



背景技术:

区块链技术,又称为分布式账本技术,是一种去中心信任化、集体维护分布式账本的技术方案,其利用块链式数据结构来验证与存储数据,其本质是由多个节点集体参与通过多方存储、多方计算的方式来实现数据不可篡改、计算结果可信的分布式数据库系统。区块链并不是一种单一的技术,而是多种技术融合的结果,利用区块链技术维护一个可靠的、难以篡改的账本记录,可以降低信任的风险,并能有效的降低众参与方协作的维护成本。

区块链技术的发展使得智能合约成为可能,智能合约是一段由一台计算机或者计算机网络按照签署合约的权利和义务自动执行的代码,合约的执行无需中心节点来进行控制,通过自动化脚本代码实现编程和操作数据。由于智能合约使用代码的方式,保证了合同条款的强制执行力;将智能合约与区块链相结合,使得合约的条款一旦设定,就没有第三方可以篡改。智能合约这一颠覆性的技术是区块链的重要特性,将会对人类社会结构产生重大变化。

近年来,人工智能技术发展迅速,其商业化速度超出预期,人工智能将会给整个社会带来颠覆性的变化,已经成为未来各国重要的发展战略。以深度学习为核心的算法演进,其超强的进化能力,在大数据的支持下,通过训练构建得到类似人脑结构的大规模卷积神经网络,已经可以解决各类问题。而云中心聚合了大量的物理硬件资源,并采用虚拟化技术将物理硬件设备的硬件资源进行抽象,实现异构网络计算资源的统一的分配、调度和管理,高效的实现了深度学习的训练任务。特别是在计算机视觉领域,各种复杂的因素往往以非线性的方式结合在一起,特征的学习尤其重要,通过海量数据的训练在很大程度上缓解了训练过拟合的问题,从大数据中进行深度学习也就需要大量训练样本数据的标注。

标注是对未处理的初级数据,包括语音、图片、文本、视频等进行加工处理(如标识发音人性别,判断噪音类型等),转换为机器可识别信息的过程。数据标注包含很多方面,例如图片类型分类、路况图片人车非识别、文本语法校验、图片相关性评估、图片文字提取、文本关键字提取、语音转写文本等等,这些标注工作往往需要人工来处理。

众包模式的出现,带来了新的可能,极大的提升任务的执行效率并且大幅降低成本,但是由于参与众包标注的工作者数量众多,专业背景和工作能力参差不齐,标注质量也就无法保证,这也导致最终模型的训练达不到预期的效果。在这种情况下,如何有效的保证众包标注数据的质量,形成更有价值的高质量样本,同时利用区块链和智能合约技术来保证众包承诺、数据标注质量责任认定成为亟需解决的问题。



技术实现要素:

为了解决现有技术的问题,本发明提供了一种基于智能合约的数据标注众包平台系统及众包数据标注方法,将数据众包标注任务和标注结果质量评估任务进行分离,通过已经训练的模型进行对标注数据进行评估,同时随机选取多个标注数据质检员进行众包评估,综合多种评估方式确定数据标注质量;众包任务的整个过程都将利用区块链基础设施写入到区块链中,实现参与众包各方的互信,保障了行为的完整性和不可篡改性,这也在一定程度上提高了数据标注质量,进而提升训练模型的效率及预测模型的准确率。

本发明所采用的技术方案如下:

一种基于智能合约的数据标注众包平台系统,包括数据标注众包平台和区块链基础设施,所述的数据众包平台提供数据众包任务的分配和管理,实现参与标注人员及机构的注册、审核及身份认证,同时提供标注数据评估众包任务,并将评估任务随机分配给数据标注质检员,最终形成评价结果;所述的区块链基础设施建立在一个p2p共识网络中,所述的p2p共识网络存在管理节点、背书节点和记账节点,共同合作实现智能合约的执行以及区块链新区块的生成;另外,通过第三方数字证书认证中心为参与众包任务的各个参与方提供身份证书及通信安全认证服务。

数据众包任务分为数据标注任务和众包标注评估任务,数据标注任务由众包任务发起方通过所述的数据标注众包平台进行发布,并以智能合约的形式出现,同时生成所述的众包标注评估任务,用以标注数据的评估质量,参与数据标注任务的p2p共识网络中的各个参与节点共同维护一份账本,账本中记录数据标注任务和众包标注评估任务的智能合约的执行结果。

数据标注质检员包含人工质检员和机器质检员,机器质检员是利用其推力模型对数据进行标注,并对比众包标注任务中的标注数据与机器标注数据,并进行综合评估。

p2p共识网络,通过创建一个代币,并为其分配移动价值,作为数据众包任务的支付货币,同时将区块链中待执行的智能合约程序公开,供各个参与方及社区开发者检查和调用,所有的智能合约执行结果都将记录在区块链中。

所述的p2p共识网络是没有中心节点、通过节点间进行消息交换的网络体系,p2p共识网络存在管理节点、背书节点和记账节点,共同合作实现智能合约的执行以及区块链新区块的生成。

管理节点负责参与节点的准入。

第三方数字证书认证中心负责发放数字证书,为参与众包任务的各个参与方提供身份证书及节点间的通信安全认证服务。

代币发行采用以太坊区块链,结构包括版本号、时间戳、交易merkle树根摘要、合约执行状态、前区块摘要值和本区块摘要值,其中交易内容记录智能合约的执行结果,包括数据标注众包任务的智能合约,数据标注众包子任务智能合约和数据标注众包评估智能合约。

一种基于智能合约的众包数据标注方法,包括以下步骤:

a、利用云端中心区块链基础设施资源,形成p2p共识网络;

b、在所述的p2p共识网络中选出管理节点、背书节点和记账节点,并由第三方数字证书认证中心发放数字证书,实现节点间的互信;

c、所述的管理节点发行代币;

d、数据众包任务发布者、数据标注机构、数据标注员、数据标注质检员或机器质检员在所述的云端中心众包平台进行注册,提交其基本信息;

e、云端中心众包平台进行审核,审核通过后由所述的第三方数字证书认证中心发放数字证书,并进行相应的代币发放;

f、数据标注需求方通过数据标注众包平台,发布数据标注众包任务,其中包含对于数据标注的存储位置、鉴权方式、标注数据数量、标注内容以及计费标准,同时发布数据标注众包任务智能合约,将数据标注众包任务记录到区块链中;

g、所述的数据标注众包平台动态分配数据标注众包任务,由所述的数据标注员接受众包任务,产生数据标注子任务智能合约;

h、所述的数据标注员根据标注要求,下载数据,进行人工标注;

i、所述的数据标注员将标注后数据上传到所述的数据标注众包平台的指定位置,触发数据标注子任务智能合约的执行;

j、所述的数据标注众包平台根据标注数据结果,根据数据标注要求,产生众包标注评估任务,同时发布相应的智能合约;

k、所述的数据标注众包平台随机的将评估任务进行分发,由所述的标注质检员和机器质检员进行评估;

l、所述的机器质检员将利用其模型进行数据标注,比较标注偏差,进行数据标注质量打分,并且标注差异点;

m、所述人工质检员则进行人工查验,标注质量问题,并进行打分;

n、所述的人工或机器标注质检员将打分结果反馈给所述的数据标注众包平台;

o、所述的数据标注众包平台根据规则,确定最终的众包数据评估结果;

p、上述的步骤中的智能合约将在区块链基础设施p2p网络中广播;

q、自动检查上述智能合约发起方的代币余额,如果余额不足则终止合约;

r、上述的步骤中的智能合约将自动根据合约内容执行,所述的背书节点收集到足够的背书后将结果发送给所述的记账节点,并由记账节点达成共识,生成新的区块,按照预先设定的计费规则完成代币扣款;

s、所述的区块链参与节点通过p2p共识网络获取最新区块链数据,更新各自本地账本记录。

t、所述的数据标注众包任务发布方获得标注结果,用于其模型的训练。

本发明提供的技术方案带来的有益效果是:

本发明的一种基于智能合约的高质量众包数据标注方法,有效利用云端的大量计算资源,提供区块链基础设施和数据标注众包平台,将数据众包标注任务和标注结果质量评估任务进行分离,根据数据标注工作和评估工作不同的工作量来制定智能合约,极大的提升任务的执行效率并且大幅降低成本,通过已经训练的模型进行对标注数据进行评估,同时随机选取多个数据标注质检员进行众包评估,综合人工及机器多种评判方式,更好的反应标注数据的标注质量;数据标注众包任务的整个过程都将以智能合约的形式,利用区块链基础设施写入到区块链中,相较于传统的方式,通过统一的、去中心化的方式,众包任务的支付通过智能合约实现代币自动扣款,减少了人为的干预,有效地解决了众包各方的互信问题,保障了行为的完整性和不可篡改性,极大的提升了数据标注质量,进而提升训练模型的效率及预测模型的准确率。另外,采用第三方ca数字认证中心,也保证了智能终端和云端中心的身份安全及通信安全。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明的一种基于智能合约的数据标注众包平台系统的数据标注众包节点组成示意图;

图2为本发明的一种基于智能合约的数据标注众包平台系统的区块链结构示意图;

图3为本发明的一种基于智能合约的众包数据标注方法的方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

如附图1所示,云端聚集大量计算资源,通过海量标注数据进行深度学习训练,针对业务领域形成预测模型,并且提供数据标注众包平台,实现众包任务的分配和管理,同时提供区块链服务,在一个p2p共识网络中建立区块链基础设施,p2p共识网络存在管理节点、背书节点和记账节点,共同合作实现智能合约的执行以及区块链新区块的生成;参与数据标注任务的各个参与节点共同维护一份账本,账本中记录数据标注众包任务和数据标注评价众包任务智能合约的执行结果。另外,通过第三方数字证书认证中心为参与众包任务的各个参与方提供身份证书及通信安全认证服务。其中,

所述的云端中心包含数据标注众包平台和区块链基础设施,同时提供深度学习模型训练及推理服务;所述的数据众包平台提供数据众包任务的分配和管理,实现参与标注人员及机构的注册、审核及身份认证,同时提供标注数据评估众包任务,并将评估任务随机分配给数据标注质检员,最终形成评价结果;所述的众包任务智能合约分为数据标注任务和众包标注评估任务,由众包任务发起方通过众包平台进行发布,并以智能合约的形式出现,同时生成众包标注评估任务,用以标注数据的评估质量;所述的数据标注质检员包含人工质检员和机器质检员,机器质检员是利用其推力模型对数据进行标注,并对比众包标注任务中的标注数据与机器标注数据,并进行综合评估。所述的区块链基础设施建立一个p2p共识网络,通过创建一个代币,并为其分配移动价值,作为众包任务的支付货币,同时将区块链中待执行的智能合约程序公开,供各个参与方及社区开发者检查和调用,所有的智能合约执行结果都将记录在区块链中;所述的p2p共识网络是没有中心节点、通过节点间进行消息交换的网络体系,p2p共识网络存在管理节点、背书节点和记账节点,共同合作实现智能合约的执行以及区块链新区块的生成;所述的管理节点负责参与节点的准入;所述的第三方数字证书认证中心负责发放数字证书,为参与众包任务的各个参与方提供身份证书及节点间的通信安全认证服务。

为了描述清楚,代币发行采用以太坊区块链,如图2中所示,区块链中记录的数据区块(block)结构包括版本号、时间戳、交易merkle树根摘要、合约执行状态、前区块摘要值和本区块摘要值(标识),其中交易内容记录智能合约的执行结果,包括数据标注众包任务智能合约,数据标注众包子任务智能合约和数据标注众包评估智能合约。本领域技术人员将理解的是,除了使用以上结构表示方法之外,根据本发明的实施方式的构造也能够应用于其他数据表示方法之上。

下面将结合具体的实施例对本发明提供的方法过程进行详细的说明。为了描述方便,以下过程中采用sha256算法作为摘要算法,sha256withecdsa作为签名算法,非对称密钥采用ecc算法,对称加密使用aes,数字信封使用pkcs7。下面将结合具体的实施例对本发明提供的方法过程进行详细的说明。

下面将结合具体的实施例对本发明提供的方法过程进行详细的说明。

一、数据标注

参考图2,数据标注包括以下步骤:

步骤101、利用所述的云端中心区块链基础设施资源,形成p2p共识网络;

步骤102、在所述的区块链共识网络中选出管理节点、背书节点和记账节点,并由第三方数字证书认证中心发放数字证书,实现节点间的互信;

步骤103、所述的管理节点发行代币;

步骤104、所述的数据众包任务发布者、数据标注机构、数据标注员、数据标注质检员以及机器质检员等在所述的云端中心众包平台进行注册,提交其基本信息;

步骤105、所述的云端中心众包平台进行审核,审核通过后由所述的第三方数字证书认证中心发放数字证书,并进行相应的代币发放;

步骤106、数据标注需求方通过所述的数据标注众包平台,发布数据标注众包任务,其中包含对于数据标注的存储位置、鉴权方式、标注数据数量、标注内容以及计费标准等,同时发布数据标注众包任务智能合约,将数据标注众包任务记录到区块链中;

步骤107、所述的数据标注众包平台动态分配数据标注众包任务,由所述的数据标注员接受众包任务,产生数据标注子任务智能合约;

步骤108、所述的数据标注员根据标注要求,下载数据,进行人工标注;

步骤109、所述的数据标注员将标注后数据上传到所述的数据标注众包平台的指定位置,触发数据标注子任务智能合约的执行;

步骤110、所述的数据标注众包平台根据标注数据结果,根据数据标注要求,产生众包标注评估任务,同时发布相应的智能合约;

步骤111、所述的数据标注众包平台随机的将评估任务进行分发,由所述的标注质检员和机器质检员进行评估;

步骤112、所述的机器质检员将利用其模型进行数据标注,比较标注偏差,进行数据标注质量打分,并且标注差异点;

步骤113、所述人工质检员则进行人工查验,标注质量问题,并进行打分;

步骤114、所述的人工或机器标注质检员将打分结果反馈给所述的数据标注众包平台;

步骤115、所述的数据标注众包平台根据规则,确定最终的众包数据评估结果;

步骤116、上述的步骤中的智能合约将在区块链基础设施p2p网络中广播;

步骤117、自动检查上述智能合约发起方的代币余额,如果余额不足则终止合约;

步骤118、上述的步骤中的智能合约将自动根据合约内容执行,所述的背书节点收集到足够的背书后将结果发送给所述的记账节点,并由记账节点达成共识,生成新的区块,按照预先设定的计费规则完成代币扣款;

步骤119、所述的区块链参与节点通过p2p共识网络获取最新区块链数据,更新各自本地账本记录。

步骤120、所述的数据标注众包任务发布方获得标注结果,用于其模型的训练。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

完整全部详细技术资料下载
当前第1页 1  2 
相关技术
  • 资源的分配处理方法、装置、设...
  • 一种无人机云端任务部署方法及...
  • 应用程序的内存分配方法、移动...
  • 一种基于DPDK的网络数据采...
  • 内核态系统中I/O栈的内存管...
  • 一种心跳消息的处理方法及装置...
  • 配置处理器性能的方法、装置、...
  • 一种基于物联网的挖矿方法、系...
  • 一种基于主动出让机制的软实时...
  • 一种云资源状态修正方法和装置...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1

国外留学毕业证书制作公司深圳做海外本科毕业证代做乌鲁木齐办海外留学学位证定做杭州代办国外留学生学位证代办珠海代办海外留学生学位证办理天津办理国外文凭毕业证代办银川代做海外学位证制作福州做国外博士毕业证北京办理国外博士毕业证定制杭州办理国外留学学位证办理南宁海外证件代做定做海外硕士毕业证制作西宁制作国外大学毕业证定做兰州做海外证件沈阳国外留学学位证补办合肥代办国外成绩单制作郑州制作国外留学学位证代做制作国外学历证办理杭州补办国外留学毕业证贵阳补办海外文凭证书补办南京办国外留学毕业证代做天津海外证书办理哈尔滨做国外博士毕业证定制天津代办国外大学毕业证制作广州补办国外成绩单补办乌鲁木齐做国外证件定做长春制作国外学历文凭补办珠海代办国外成绩单制作太原代做海外本科毕业证代做长春办海外学位办理哈尔滨补办国外成绩单代办淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻让美丽中国“从细节出发”清明节放假3天调休1天男孩疑遭霸凌 家长讨说法被踢出群国产伟哥去年销售近13亿网友建议重庆地铁不准乘客携带菜筐雅江山火三名扑火人员牺牲系谣言代拍被何赛飞拿着魔杖追着打月嫂回应掌掴婴儿是在赶虫子山西高速一大巴发生事故 已致13死高中生被打伤下体休学 邯郸通报李梦为奥运任务婉拒WNBA邀请19岁小伙救下5人后溺亡 多方发声王树国3次鞠躬告别西交大师生单亲妈妈陷入热恋 14岁儿子报警315晚会后胖东来又人满为患了倪萍分享减重40斤方法王楚钦登顶三项第一今日春分两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?周杰伦一审败诉网易房客欠租失踪 房东直发愁男子持台球杆殴打2名女店员被抓男子被猫抓伤后确诊“猫抓病”“重生之我在北大当嫡校长”槽头肉企业被曝光前生意红火男孩8年未见母亲被告知被遗忘恒大被罚41.75亿到底怎么缴网友洛杉矶偶遇贾玲杨倩无缘巴黎奥运张立群任西安交通大学校长黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发妈妈回应孩子在校撞护栏坠楼考生莫言也上北大硕士复试名单了韩国首次吊销离岗医生执照奥巴马现身唐宁街 黑色着装引猜测沈阳一轿车冲入人行道致3死2伤阿根廷将发行1万与2万面值的纸币外国人感慨凌晨的中国很安全男子被流浪猫绊倒 投喂者赔24万手机成瘾是影响睡眠质量重要因素春分“立蛋”成功率更高?胖东来员工每周单休无小长假“开封王婆”爆火:促成四五十对专家建议不必谈骨泥色变浙江一高校内汽车冲撞行人 多人受伤许家印被限制高消费

国外留学毕业证书制作公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化