cocoakang +

关于学术

这个周末参加了一个关于医学与人工智能的前沿进展讲习班。有一场报告的主题是,使用神经网络预测血管两点的压力比值。其基本思路是,使用传统方法对心脏及其周边血管三维重建后(如CT),将某两点的测量值作为输入,由神经网络预测这两点的压力比值。当压力比值小于0.8时,意味着这两点中间出现了病变。传统的测量方法是介入式,需要使用仪器直达心脏,而这种方法不需要介入,对病人确实很有好处。

但之前我在一个项目中,发现神经网络在进行数值回归任务时,即使总体Loss很低,在验证集上还会有一两个错得离谱。在此基础上,即使增加网络,结果Loss确实能更低,但这种”奇异点”总是存在。听这个报告时,我就想到了当时那个问题。

之后报告者给出了一组实测数据,果然存在一个点错误很大(ground truth为0.1左右,网络输出为0.4,具体数值记得不太清了),并且报告者承认这个无法解释。此外,在临界值(0.8)处,存在很多上下浮动的点。例如,ground truth为0.7,输出为0.81;ground truth为0.83,输出为0.79(数值不准确)。对于这两个问题,报告者认为后者的严重性要高于前者,理由是:对于前者,反正输出与groundtruth都在临界值之下,虽然偏差很大,但都是出现了病变。而后者,会使得结果处于两种不同的状态。

报告结束后,我忍不住提问:“怎么保证训练出的模型的稳定性呢?在这次给出的测试数据中,有这样一个奇异点,由于都处于临界值之下,所以没有造成问题,那如果是另一个未知的奇异点呢?”报告者态度比较随便地回答:“那往上堆数据就好了。而且认证机构几千个的测试,没有测出问题。”

我对此表示非常不认同。

一方面,根据我自己的研究经验,这种奇异点问题,即使增加数据也不能完全解决,更何况在这个医学影像问题中训练数据本来就很少,更成问题。另一方面,虽然几千个样例测试没有问题,但是怎么能保证以后也不会出问题呢?现在一些paper给出了很多方法,随随便便就能把卷积神经网络搞废。他们可以使用特定方法生成出一张看似噪声的图片,神经网络却识别出有语义的物体;也可以改变一些像素,使得神经网络给出截然相反的预测值,但改变前后的图片对人来说并没有太大区别。如果训练出的模型遇到这些情况呢?而且这些神经网络是用于医疗的,如果真的出现了问题,谁又为病人和他的亲属负责呢?这种没有error-bound的东西,怎么保证它的可靠性?

对于神经网络的回归问题,诚然snr,psnr等评判标准是必须的,但并不够。在上述背景下,我认为增加一个平坦性(error bound)的评判标准是必须的。但对于一些图像识别的问题,怎样定义平坦性,怎样检测,还需要进一步思考。

至于在临界值浮动的问题,因为神经网络的输出在真值附近,我认为反而问题不大。报告者认为这里问题严重的原因是,使用者仅仅根据一个临界值,高于则评价为A,低于为B。这样是一种教条主义。0.81和0.79的差值与0.4和0.1的差值不应被这样评价。

做学术不能为了发论文而发论文,研究者还应多思考思考实际应用与背后的人伦道德,为自己的研究负责。

Blog

Photo

Project