全国统一咨询热线:18925199527

新闻中心

新闻中心News Center

联系方式

联系方式Contact infoemation

电话:18925199527

邮箱:2880061754@qq.com

地址:广州市天河区林和西横路219号

当前位置:网站首页 > 行业新闻 > 图片搜索优化

图片搜索优化

文章出处:http://www.dddjz.com/a/315.html 阅读量:9 发表时间:06-27 16:52
行业新闻

  图片搜索由于在搜索目标上的特殊性,往往依赖于图片所在网页的文本来判断图片的内容(我们成为图片周边文本)。而周边文本往往不能很好的表达图片的内容,并且一张图片往往在多个网页中被引用,图片周边文本也不太一致,甚至于很多图片并没有周边文本,因此给图片搜索算法提出了更高挑战。

  通过众包的方式(百度众测平台)为图片进行信息标注,从而提高搜索引擎的准确性和召回率往往是一个比较有效的方法,并且标注的数据可以作为图片机器学习的样本数据,对于提高图片机器学习的准确率也有很大的效果;但是在图片标注的过程中也有很多问题需要解决,例如:

  (1)用户作弊问题:在众包平台中,有因为兴趣爱好参与标注的,也有因为平台激励机制而参与标注的,因此会存在部分用户为了获取奖励而进行作弊的行为,这些作弊行为会给标注数据的准确率带来很大的影响;

  (2)如何对用户的标注进行引导,使得标注的信息更为准确,让用户的标注成本更低,标注过程更为有趣味性,从而提高标注的效率;

  本文所提到的就是一种带有防作弊功能的,能够对用户的标注信息进行细分引导,从而使得标注数据越来越精确的图片标注方法。

  在本文所描述的图片标注游戏中,用户被区分为两种类型:

  (1)描述者:对系统展现的一张图片用一段文字或者几组关键字进行描述,表达出图片的内容和特点;

  (2)判断者:系统向其展现多张图片(一般情况下为4张)以及一段描述文字,这段描述文字所对应的图片也包含在所展现的图片当中,判断者根据描述文字挑选出对应的图片;

  用户可以随时在描述者和判断者之间切换身份,但是不会出现用户自己判断自己所描述的图片的情况。系统将描述者描述的图片分配给判断者的时候有一套算法确保不会分配给原描述者,并且也不会分配给距离描述者较近或者可能认识的判断者。我们在文章后面会描述这个分配算法。

  一、描述者描述图片的过程

  图1: 图片标注系统

  如图1,当用户点击图片标注系统的描述图片按钮之后,系统会从图片数据集(图片URL集合)中随机挑选出100个图片URL,然后逐个给用户展示图片(如图2和3)。

  图2:描述图片(甲壳虫昆虫)

  图3:描述图片(甲壳虫汽车)

  图4:描述图片(甲壳虫乐队)

  二、判断者判断图片的过程

  图5:判断图片

  当用户选择判断图片的时候,系统也会选择随机选择100个已经有标注(就是有用户描述)的图片,每次展示一段标注文字以及相应的4张图片(可以是更多张,系统可以配置)。如图5,最上面蓝色框里面是已有用户标注甲壳虫汽车,中间是系统挑选出来的4张图片,挑选的算法后面会有详细介绍。挑选的图片当中包含用户标注对应的图片,例如图5中就是对应中间的红色甲壳虫汽车。

  当用户判断出图片之后,只要用鼠标点击相应的图片就会在图片周边有红色的方框将图片圈住,用户点击继续判断即可提交判断结果并进入到下一个标注文字的判断。

  三、判断者的选取方法

  为了防止作弊,系统有一套判断者选取方法,主要避免如下的作弊行为:

  (1)描述者判断自己所标注的图片;

  (2)描述者和判断者之间协同作弊;

  系统的处理方法如下:

  (1)描述者在标注图片的时候,系统会记录描述者的账号和IP地址;

  (2)系统在挑选判断者的时候会选择不同的账号,并且对IP地址进行位置转换,选择一个距离描述者较远的判断者;

  (3)系统会记录标注文字的分配历史记录,不会将同一个标注文字重复分配给同一个判断者,描述者和判断者之间的持续作弊成本很高;

  四、相关图片的选取方法

  系统在挑选相关图片给判断者的时候,需要解决如下问题:

  (1)不能出现极度相似甚至重复的图片;

  (2)图片之间要对标注文字有区分度和标注引导作用;


相关资讯

More+

全国咨询热线:18925199527

二维码

地址:广州市天河区林和西横路219号

版权所有 © 1999-2017 Copyright © 1999-2017 All Rights Reserved

cache
Processed in 0.012463 Second.