您的位置  > 互联网

CVPR再曝抄袭门!IBM,在?来解释解释?

一波未平,又一波兴起,CVPR 2022再次被曝抄袭!

这两天,来自中国的一个研究团队发现,他们去年参加ICDAR竞赛的想法,居然被IBM用来赢得今年的CVPR。

这件事最讽刺的是ICDAR 2021是IBM自己主办的。

目前作者已将相关证据信息发送至CVPR。

关于此事的热度仍在酝酿之中。 该话题的讨论量即将突破1000。

不过,挑战大厂商的权威并不容易。

作者声明

接下来让我们用第一人称来还原原作者的自述。 感受原作者的愤怒和委屈。

“我叫齐,在计算机视觉领域做了十多年的研究。我写这篇博客是为了揭露一种公然的抄袭行为。IBM苏黎世研究院抄袭了我们的研究成果。”

“他们复制的不是文字,而是我们努力创造的想法。”

Qi提到的论文是《-'s for ICDAR 2021 on Task B: Table to HTML》,于2021年6月上传到arXiv。合作者包括Ye、Qi、Yelin He等人。

另外,代码也已经开源。

论文地址:

抄袭团队是来自 IBM 苏黎世研究院的 Ahmed、Lysak 和 Peter Staar。

他们拿走了最好的想法,然后将这篇文章重新发布在 IEEE/CVF 计算机视觉和模式识别会议的会议记录中。

复制的文章名为“:表同”,请擦亮眼睛。

论文地址:

齐说,等人的文章。 复制了我们的整体方法,以及前处理和后处理部分,可视化部分,推理部分,以及给出的系统方案。 甚至还有代码和预先训练的模型。

不过,他没有其他技能,但完美包装却十分熟练。 他们的文章没有一个字引用Qi团队的文章。 他们认为这样可以骗过抄袭检查。

通俗地说,研究生的抄袭行为通常涉及直接复制文本,但苏黎世的这位博士后更“高级”——重写想法。

事实上,这个方法确实有效。 等人的文章确实没有被判定为抄袭。 最终,很多其他专家发现了两篇文章思想上的相似之处,并报告给了Qi团队。

网络上,不少网友表示支持作者的维权,也提醒他在作证时尽量不要情绪化,虽然很难做到。

也有网友指出,现在列出的证据还远远不够确凿:

两个团队研究相同的问题,使用相同的公开数据,并有类似的解决方案。 但这并不意味着一方抄袭另一方。

知乎上的讨论也很热闹。

简要时间表

事情是这样的,时间线还需要整理一下:

2021年4月7日,Qi团队结束ICDAR 2021表格识别大赛,获得第二名。 该活动由澳大利亚 IBM 团队主办。

同年5月5日,团队在arXiv上发布了该想法的技术报告和预印本。 占了个坑。

两个月后,即7月29日,团队开源了相关代码,甚至在互联网上发布了相关幻灯片。

2021年9月,团队发布了预训练模型。 11月,环境持续释放。

齐自嘲道,“我们的项目基本上是赤裸裸的,该发布的东西我们都发布了。但我们发布它是为了造福整个社区,而不是为了让你抄袭。”

年底,来也技术团队在《表单识别方法回顾与来也技术实践》中提到了这篇论文:

从非常新颖的角度解决表格识别问题是一次大胆的尝试,效果也非常好。 也用类似的思路开源了一个非常轻量级的表格识别模型,并提供了数据集的预训练模型。 细微的差别是使用 RARE 和 GRU 而不是 and。

时间到了2022年3月2日,就发布了。

当然,齐虽然愤怒,但并没有失去冷静。 他列举了九大证据来证明自己的抄袭行为。

9件证据

我们的、你的

我们的预,你

我们的帖子-,你

我们的、你的

我们的“”工作,你甚至

我们的文字行和文字行,你

我们的、你的

我们的、你的

为了不为了

首先,复制了方法论部分。

我直接抄袭了Qi团队的想法,重写了文字。

并且关键图表也进行了重新绘制。 但核心思想是一样的。

其次,复制预处理阶段。

等人。 直接从七贤彪团队那里偷了最大序列长度500,然后悄悄改成了512。其实他们自己也不知道为什么要改成这个数字。

第三,我复制了后处理部分。

齐的团队设计了三个巧妙的规则来处理后面的部分。

抄袭团队直接根据齐团队发布的开源代码,将三条规则写成了九条。

这些规则和规范花了齐的团队几周的时间才完成。

第四,推理加速方法被复制。

在推理阶段,Qi团队在之前的论文中提出了-cache方法。 然后等别人直接使用就可以了。

”齐说:“你真的明白什么意思,就用它吗?

第五,我还真抄袭了这个小伎俩。

六、文本行检测和文本行识别,复制。

Qi团队的文本行检测和识别的训练过程是被别人直接复制的。

第七,系统解决,复制。

两边的加工程序是一模一样的,不可能完全重合。

第八,可视化部分复制。

正如您所看到的,视觉图标部分刚刚改变了颜色。

第九,利用各种手段误导读者,避免被抓抄袭。

最后,作者说,他这次学到的最深刻的教训是:“即使你开源了代码,也不要开源你训练的模型。”

参考: