一波未平,又一波兴起,CVPR 2022再次被曝抄袭!
这两天,来自中国的一个研究团队发现,他们去年参加ICDAR竞赛的想法,居然被IBM用来赢得今年的CVPR。
这件事最讽刺的是ICDAR 2021是IBM自己主办的。
目前作者已将相关证据信息发送至CVPR。
关于此事的热度仍在酝酿之中。 该话题的讨论量即将突破1000。
不过,挑战大厂商的权威并不容易。
作者声明
接下来让我们用第一人称来还原原作者的自述。 感受原作者的愤怒和委屈。
“我叫齐,在计算机视觉领域做了十多年的研究。我写这篇博客是为了揭露一种公然的抄袭行为。IBM苏黎世研究院抄袭了我们的研究成果。”
“他们复制的不是文字,而是我们努力创造的想法。”
Qi提到的论文是《-'s for ICDAR 2021 on Task B: Table to HTML》,于2021年6月上传到arXiv。合作者包括Ye、Qi、Yelin He等人。
另外,代码也已经开源。
论文地址:
抄袭团队是来自 IBM 苏黎世研究院的 Ahmed、Lysak 和 Peter Staar。
他们拿走了最好的想法,然后将这篇文章重新发布在 IEEE/CVF 计算机视觉和模式识别会议的会议记录中。
复制的文章名为“:表同”,请擦亮眼睛。
论文地址:
齐说,等人的文章。 复制了我们的整体方法,以及前处理和后处理部分,可视化部分,推理部分,以及给出的系统方案。 甚至还有代码和预先训练的模型。
不过,他没有其他技能,但完美包装却十分熟练。 他们的文章没有一个字引用Qi团队的文章。 他们认为这样可以骗过抄袭检查。
通俗地说,研究生的抄袭行为通常涉及直接复制文本,但苏黎世的这位博士后更“高级”——重写想法。
事实上,这个方法确实有效。 等人的文章确实没有被判定为抄袭。 最终,很多其他专家发现了两篇文章思想上的相似之处,并报告给了Qi团队。
网络上,不少网友表示支持作者的维权,也提醒他在作证时尽量不要情绪化,虽然很难做到。
也有网友指出,现在列出的证据还远远不够确凿:
两个团队研究相同的问题,使用相同的公开数据,并有类似的解决方案。 但这并不意味着一方抄袭另一方。
知乎上的讨论也很热闹。
简要时间表
事情是这样的,时间线还需要整理一下:
2021年4月7日,Qi团队结束ICDAR 2021表格识别大赛,获得第二名。 该活动由澳大利亚 IBM 团队主办。
同年5月5日,团队在arXiv上发布了该想法的技术报告和预印本。 占了个坑。
两个月后,即7月29日,团队开源了相关代码,甚至在互联网上发布了相关幻灯片。
2021年9月,团队发布了预训练模型。 11月,环境持续释放。
齐自嘲道,“我们的项目基本上是赤裸裸的,该发布的东西我们都发布了。但我们发布它是为了造福整个社区,而不是为了让你抄袭。”
年底,来也技术团队在《表单识别方法回顾与来也技术实践》中提到了这篇论文:
从非常新颖的角度解决表格识别问题是一次大胆的尝试,效果也非常好。 也用类似的思路开源了一个非常轻量级的表格识别模型,并提供了数据集的预训练模型。 细微的差别是使用 RARE 和 GRU 而不是 and。
时间到了2022年3月2日,就发布了。
当然,齐虽然愤怒,但并没有失去冷静。 他列举了九大证据来证明自己的抄袭行为。
9件证据
我们的、你的
我们的预,你
我们的帖子-,你
我们的、你的
我们的“”工作,你甚至
我们的文字行和文字行,你
我们的、你的
我们的、你的
为了不为了
首先,复制了方法论部分。
我直接抄袭了Qi团队的想法,重写了文字。
并且关键图表也进行了重新绘制。 但核心思想是一样的。
其次,复制预处理阶段。
等人。 直接从七贤彪团队那里偷了最大序列长度500,然后悄悄改成了512。其实他们自己也不知道为什么要改成这个数字。
第三,我复制了后处理部分。
齐的团队设计了三个巧妙的规则来处理后面的部分。
抄袭团队直接根据齐团队发布的开源代码,将三条规则写成了九条。
这些规则和规范花了齐的团队几周的时间才完成。
第四,推理加速方法被复制。
在推理阶段,Qi团队在之前的论文中提出了-cache方法。 然后等别人直接使用就可以了。
”齐说:“你真的明白什么意思,就用它吗?
第五,我还真抄袭了这个小伎俩。
六、文本行检测和文本行识别,复制。
Qi团队的文本行检测和识别的训练过程是被别人直接复制的。
第七,系统解决,复制。
两边的加工程序是一模一样的,不可能完全重合。
第八,可视化部分复制。
正如您所看到的,视觉图标部分刚刚改变了颜色。
第九,利用各种手段误导读者,避免被抓抄袭。
最后,作者说,他这次学到的最深刻的教训是:“即使你开源了代码,也不要开源你训练的模型。”
参考: