一手数据?互联网上收集一手数据和二手数据的优势和劣势有哪些

大家好,今天给各位分享一手数据的一些知识,其中也会对互联网上收集一手数据和二手数据的优势和劣势有哪些进行解释,文章篇幅可能偏长,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在就马上开始吧!本文目录互联网上收集一手数据和二手数据的优势和劣势有哪些团队如何接数据标注任务互联网上收集一手数据和二手数据的优势和劣势有哪些一手数据和二手数据优势和劣势分别如下:1、一

大家好,今天给各位分享一手数据的一些知识,其中也会对互联网上收集一手数据和二手数据的优势和劣势有哪些进行解释,文章篇幅可能偏长,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在就马上开始吧!

本文目录

  1. 互联网上收集一手数据和二手数据的优势和劣势有哪些
  2. 团队如何接数据标注任务

互联网上收集一手数据和二手数据的优势和劣势有哪些

一手数据和二手数据优势和劣势分别如下:

1、一手数据(Primarydata)也称为原始数据,原始数据是指通过访谈、询问、问卷、测定等方式直截了当获得的,通过收集一手数据可以解决待定问题。

2、二手数据是相对于原始数据而言的,指那些并非为正在进行的研究而是为其余目的已经收集好的统计资料。与原始数据相比,二手数据具有取得迅速、成本低、易获取、能为进一步原始数据的收集奠定基础等优点。

团队如何接数据标注任务

谢@霍华德邀我目前在车厂无人驾驶部门的职责之一便是研发无人驾驶感知算法的数据集的半自动标注算法再具体一点计算机视觉领域的:语义分割(SemanticSegmentation)和全景分割(PanopticSegmentation)https://arxiv.org/pdf/1801.00868.pdf它们或许是数据标注领域成本最高的俩个任务(德国高达100人民币/图)它们的具体定义可以见上图一、标注任务语义分割:对图片中每一个像素标注其类别(如:汽车、行人、道路等)全景分割:对于每一个像素,在语义分割的基础上再区分目标instance物体(如:汽车1、汽车2、行人5等)二、标注格式通常标注结果还是存成图片的常见格式(如:png)图片的每一个通道存储不同信息(用数字1-255表示)例如第一通道存储:该像素所属类别第二通道:如果该像素属于目标物体,他属于第几个instance第三通道:通常是0或1,1表示该像素是可以驾驶的区域,0反之三、开源数据集Cityscapes(戴姆勒公司、德国马普所、TUDarmstadt):https://www.cityscapes-dataset.com/MapillaryVistas(丰田、Lytf等赞助):https://www.mapillary.com/dataset/vistas?pKey=0_xJqX3-c-KyTb90oG_8HQKittiDataset(德国KIT和丰田芝加哥研究所):http://www.cvlibs.net/datasets/kitti/eval_scene_flow.php等等可以看到背后都有财团的支持四、数据集的成本和作用成本:据Cityscapes官方,标注一张该数据集中的语义分割平均需要1.5小时!!!德国最低工资是9欧元左右/小时因此在德国标注一张语义分割图片的成本超过13欧元(约合100块人民币)!!重要性:深度学习需要大量精细标注的数据作为“燃料”保守L3要能够上路需要至少几百万张标注精细的训练图片人工智能时代,谁拥有数据谁就拥有源源不断的燃料数据集也成为无人驾驶公司和主机厂的兵家必争之地五、用优化算法节约标注成本手动标注一张语义分割像素级别的图片平均需要1.5小时有没有什么更智能的办法提高标注效率呢?专注于优化算法的@运筹OR帷幄以下略探12:1.ScribbleSup:Scribble-SupervisedConvolutionalNetworksfor…2.Weakly-andSemi-SupervisedPanopticSegmentation3.FastInteractiveObjectAnnotationWithCurve-GCN其中paper1和2是用涂鸦和画方框的方式与图片交互Paper3是用描物体边界的方式标注软件的一般流程是:标注者输入交互信息-算法自动标注-标注者修改-算法标注直到标注者满意为止Paper1和2还report了只进行一次交互(标注时间为几十秒)图像分割优化算法结合深度学习CNN便可以达到相较于精细标注95%的精度Weobtainstate-of-the-artresultsonPascalVOC,forbothfullandweaksupervision(whichachievesabout95%offullysupervisedperformance).注:以上研究方向关键词weaklyandsemi-supervisedlearning六、结语数据标注是如今深度学习获得巨大成功的基石从FeifeiLi创建ImageNet(1千多万张、2万多类别图片)开始数据集便成为计算机视觉的一个热点话题而伴随着数据集的各种challenge和刷榜单也成为CV领域发顶会的标配希望“无偿”使用公开数据集的研究者和业界从业者都能尊重数据集创作者的汗水人工智能的从业者也能认可那些幕后做着重复枯燥标记工作者的付出(例如:贵阳数据标记村)最后,无人驾驶、计算机视觉、人工智能的学生|研发者欢迎加入@运筹OR帷幄公众号后台的学术|研发群交流~

OK,本文到此结束,希望对大家有所帮助。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 sumchina520@foxmail.com 举报,一经查实,本站将立刻删除。
如若转载,请注明出处:https://www.qinzaoqiangbu.com/18608.html