国产又粗又长又大无遮挡,丰满人妻av一区二区三区,国产精品全国免费观看高,亚洲欧美国产日韩精品在线

關(guān)注公眾號

關(guān)注公眾號

手機(jī)掃碼查看

手機(jī)查看

喜歡作者

打賞方式

微信支付微信支付
支付寶支付支付寶支付
×

科研人員必看!Nature發(fā)出最新警告:AI人工智能對科學(xué)探索存在隱藏的危機(jī)

2023.12.06

????導(dǎo)讀:12月5日Nature發(fā)表的新聞評論,關(guān)于使用AI的許多論文的有效性或可靠性存在許多潛在問題,但目前尚不清楚基于AI的科學(xué)文獻(xiàn)中的錯(cuò)誤或不可靠的發(fā)現(xiàn)是否已經(jīng)在實(shí)際臨床實(shí)踐中造成了真正的危險(xiǎn)。科研人員表示:“很難避免我們可能在科學(xué)領(lǐng)域看到更多誠信問題的擔(dān)憂”...i_f42.gif


307717_202312061205231.jpg

在2020年底的COVID-19大流行期間,一些國家的病毒感染檢測試劑短缺。因此,利用一種已經(jīng)廣泛使用的醫(yī)學(xué)技術(shù)——胸部X射線來診斷感染的想法聽起來很吸引人。盡管人眼不能可靠地區(qū)分感染和非感染個(gè)體之間的差異,但印度的一個(gè)團(tuán)隊(duì)報(bào)告稱,人工智能(AI)可以做到,利用機(jī)器學(xué)習(xí)分析一組X射線圖像。[1]

這篇論文是關(guān)于這個(gè)想法的數(shù)十篇研究之一,已經(jīng)被引用了900多次。但是到了次年的9月,堪薩斯州曼哈頓的計(jì)算機(jī)科學(xué)家Sanchari Dhar和Lior Shamir進(jìn)行了更詳細(xì)的研究。他們在相同的圖像上訓(xùn)練了一個(gè)機(jī)器學(xué)習(xí)算法,但只使用了完全不顯示任何身體部位的空白背景部分。然而,他們的人工智能仍然能夠在遠(yuǎn)高于隨機(jī)水平的情況下識(shí)別出COVID-19病例。[2]

問題似乎是醫(yī)學(xué)圖像數(shù)據(jù)集中醫(yī)學(xué)圖像的背景存在一致的差異。一個(gè)AI系統(tǒng)可以捕捉到這些偽像,從而在診斷任務(wù)中取得成功,而不需要學(xué)習(xí)任何臨床相關(guān)的特征,使其在醫(yī)學(xué)上毫無用處。

Shamir和Dhar發(fā)現(xiàn)了其他幾種情況,其中據(jù)報(bào)告成功的AI圖像分類(從細(xì)胞類型到面部識(shí)別)在圖像的空白或無意義部分返回了類似的結(jié)果。這些算法在沒有面孔的情況下更勝于隨機(jī)地識(shí)別面孔,沒有細(xì)胞的情況下更勝于隨機(jī)地識(shí)別細(xì)胞。其中一些論文已被引用數(shù)百次。

image.png

Chest X-ray images of healthy people (left); those with COVID-19 (centre); and those with pneumonia (right).Credit: Healthy and Pneumonia: D. Kermany?et al./Cell?(CC BY 4.0); COVID-19: E. M. Edrada?et al./Trop. Med. Health?(CC BY 4.0).

Shamir表示,“這些例子可能很有趣”——但在生物醫(yī)學(xué)領(lǐng)域,錯(cuò)誤分類可能是生死攸關(guān)的問題?!斑@個(gè)問題非常普遍——比我大多數(shù)同行想要相信的要多得多?!?021年的一項(xiàng)獨(dú)立回顧檢查了62項(xiàng)使用機(jī)器學(xué)習(xí)從胸部X射線或計(jì)算機(jī)斷層掃描中診斷COVID-19的研究,得出結(jié)論說,由于方法論缺陷或圖像數(shù)據(jù)集中的偏見,其中沒有一個(gè)AI模型在臨床上是有用的。[3]

Shamir和Dhar發(fā)現(xiàn)的錯(cuò)誤只是機(jī)器學(xué)習(xí)在研究中產(chǎn)生誤導(dǎo)性聲明的一些方式。普林斯頓大學(xué)新澤西分校的計(jì)算機(jī)科學(xué)家Sayash Kapoor和Arvind Narayanan今年早些時(shí)候報(bào)告說,數(shù)據(jù)泄漏問題(當(dāng)用于訓(xùn)練AI系統(tǒng)的數(shù)據(jù)與用于測試它的數(shù)據(jù)之間沒有足夠的分離時(shí))導(dǎo)致了他們檢查的17個(gè)領(lǐng)域中的再現(xiàn)性問題,影響了數(shù)百篇論文。他們認(rèn)為,對AI的不當(dāng)應(yīng)用正在導(dǎo)致再現(xiàn)性危機(jī)。[4]

機(jī)器學(xué)習(xí)(ML)和其他類型的人工智能是強(qiáng)大的統(tǒng)計(jì)工具,通過挖掘?qū)θ祟愌芯咳藛T通常是看不見的數(shù)據(jù)中的模式,幾乎推動(dòng)了科學(xué)的每個(gè)領(lǐng)域。與此同時(shí),一些研究人員擔(dān)心對AI軟件的無知使用正在導(dǎo)致大量聲稱無法復(fù)制或在實(shí)際應(yīng)用中是錯(cuò)誤或無用的論文的涌現(xiàn)。

盡管還沒有對這個(gè)問題的范圍進(jìn)行系統(tǒng)估計(jì),但研究人員表示,從個(gè)例上看,充斥著錯(cuò)誤的AI論文?!斑@是一個(gè)影響許多開始采用機(jī)器學(xué)習(xí)方法的社區(qū)的普遍問題,”Kapoor說。

佐治亞華盛頓大學(xué)的航空工程師Lorena Barba同意,幾乎沒有哪個(gè)領(lǐng)域能夠幸免于這個(gè)問題?!拔矣行判牡卣f,在物理科學(xué)的科學(xué)機(jī)器學(xué)習(xí)中存在普遍問題,”她說?!岸疫@不是關(guān)于大量質(zhì)量差或影響力低的論文,”她補(bǔ)充說。“我讀過很多發(fā)表在著名期刊和會(huì)議上的文章,與弱基線相比,夸大了論斷,未能報(bào)告完整的計(jì)算成本,完全忽略了工作的限制,或以其他方式未能提供足夠的信息、數(shù)據(jù)或代碼來復(fù)制結(jié)果?!?/p>

“有一種正確的方式來應(yīng)用ML來測試科學(xué)假設(shè),許多科學(xué)家從未真正受到過適當(dāng)?shù)呐嘤?xùn),因?yàn)檫@個(gè)領(lǐng)域仍然相對較新,”芝加哥德保羅大學(xué)的計(jì)算機(jī)方法在衛(wèi)生研究中的專家Casey Bennett表示?!拔铱吹胶芏喑R姷腻e(cuò)誤一遍又一遍地被重復(fù),”他說。對于在健康研究中使用的ML工具,他補(bǔ)充說,“現(xiàn)在就像是荒野一樣。”

AI是如何誤入歧途的

與任何強(qiáng)大的新統(tǒng)計(jì)技術(shù)一樣,AI系統(tǒng)使尋找特定結(jié)果的研究人員很容易欺騙自己?!癆I提供了一個(gè)工具,允許研究人員‘玩弄’數(shù)據(jù)和參數(shù),直到結(jié)果與期望一致,”Shamir說。

“AI的不可思議的靈活性和可調(diào)性,以及在開發(fā)這些模型時(shí)的不嚴(yán)謹(jǐn)性,提供了太多的自由度,”加拿大多倫多大學(xué)的計(jì)算機(jī)科學(xué)家Benjamin Haibe-Kains說,他的實(shí)驗(yàn)室將計(jì)算方法應(yīng)用于癌癥研究。

image.png

根據(jù)Kapoor和Narayanan提出的分類方法,數(shù)據(jù)泄漏似乎特別普遍。ML算法在數(shù)據(jù)中訓(xùn)練,直到它們可以可靠地為每個(gè)輸入產(chǎn)生正確的輸出,例如正確分類圖像。然后,在未見過(測試)數(shù)據(jù)集上評估其性能。正如ML專家所知,必須保持訓(xùn)練集與測試集分開。但一些研究人員顯然不知道如何確保這一點(diǎn)。

問題可能是微妙的:如果從與訓(xùn)練數(shù)據(jù)相同的池中取一個(gè)隨機(jī)子集作為測試數(shù)據(jù),這可能導(dǎo)致泄漏。如果來自同一患者(或同一科學(xué)儀器)的醫(yī)學(xué)數(shù)據(jù)在訓(xùn)練集和測試集之間進(jìn)行拆分,AI可能會(huì)學(xué)習(xí)識(shí)別與該患者或該儀器相關(guān)的特征,而不是特定的醫(yī)學(xué)問題——例如在使用AI分析組織病理學(xué)圖像時(shí)識(shí)別的問題。這就是為什么Shamir說,在圖像的空白背景上進(jìn)行“對照”試驗(yàn)是至關(guān)重要的,這能用于查看算法生成的結(jié)果是否合乎邏輯。[5]

Kapoor和Narayanan還提出了測試集不反映現(xiàn)實(shí)世界數(shù)據(jù)時(shí)的問題。在這種情況下,一種方法可能在其測試數(shù)據(jù)上給出可靠和有效的結(jié)果,但在現(xiàn)實(shí)世界中無法復(fù)制。

“真實(shí)世界比實(shí)驗(yàn)室中的變異要大得多,AI模型通常沒有經(jīng)過測試,以適應(yīng)這種變異,直到我們部署它們,”Haibe-Kains說。

在一個(gè)例子中,谷歌健康團(tuán)隊(duì)在加利福尼亞州帕洛阿爾托的Google Health開發(fā)了一種AI,用于分析視網(wǎng)膜圖像以檢測糖尿病性視網(wǎng)膜病變的跡象,這可能導(dǎo)致失明。當(dāng)Google Health團(tuán)隊(duì)的其他人在泰國的診所中試用它時(shí),由于該系統(tǒng)已經(jīng)在高質(zhì)量掃描上進(jìn)行了培訓(xùn),它拒絕了許多在次優(yōu)條件下拍攝的圖像。高拒絕率導(dǎo)致了與患者的更多隨訪面談——這是一種不必要的工作負(fù)擔(dān)。[6]

努力糾正訓(xùn)練或測試數(shù)據(jù)集可能導(dǎo)致自身的問題。如果數(shù)據(jù)不平衡——即不均勻地采樣真實(shí)世界的分布——研究人員可能會(huì)應(yīng)用重新平衡算法,如合成少數(shù)過采樣技術(shù)(SMOTE),它會(huì)為欠采樣區(qū)域生成合成數(shù)據(jù)。[7]

然而,Bennett表示,“在數(shù)據(jù)嚴(yán)重不平衡的情況下,SMOTE會(huì)導(dǎo)致對性能的過于樂觀估計(jì),因?yàn)槟銓?shí)質(zhì)上是基于對底層數(shù)據(jù)分布的不可檢驗(yàn)的假設(shè)創(chuàng)造了大量的‘假數(shù)據(jù)’”。換句話說,SMOTE實(shí)際上并沒有平衡數(shù)據(jù)集,而是制造了充斥著與原始數(shù)據(jù)固有偏見相同的數(shù)據(jù)集。

即使是專家也很難避免這些問題。例如,2022年,法國數(shù)字科學(xué)和技術(shù)研究院(INRIA)的數(shù)據(jù)科學(xué)家Ga?l Varoquaux及其同事在巴黎發(fā)起了一個(gè)國際挑戰(zhàn),要求團(tuán)隊(duì)開發(fā)能夠從磁共振成像(MRI)獲取的腦結(jié)構(gòu)數(shù)據(jù)準(zhǔn)確診斷自閉癥譜系障礙的算法8。

該挑戰(zhàn)吸引了來自61個(gè)團(tuán)隊(duì)的589份提交,而表現(xiàn)最佳的10個(gè)算法(主要使用ML)似乎在使用MRI數(shù)據(jù)時(shí)比使用基因型進(jìn)行診斷的現(xiàn)有方法表現(xiàn)更好。但這些算法在另一個(gè)數(shù)據(jù)集上的推廣能力較差,該數(shù)據(jù)集被保密,不向團(tuán)隊(duì)提供用于訓(xùn)練和測試模型的公共數(shù)據(jù)。研究人員寫道:“對公共數(shù)據(jù)集的最佳預(yù)測過于美好,無法延伸到未見的私有數(shù)據(jù)集”。本質(zhì)上,這是因?yàn)樵谛?shù)據(jù)集上開發(fā)和測試方法,即使盡力避免數(shù)據(jù)泄漏,最終仍會(huì)過度擬合到這些數(shù)據(jù),Varoquaux表示,即過于專注于與數(shù)據(jù)中的特定模式一致,以至于該方法失去了一般性。[8]

克服問題

今年8月,Kapoor、Narayanan和他們的同事提出了一種解決這個(gè)問題的方法,即制定了一個(gè)基于AI的科學(xué)報(bào)告的標(biāo)準(zhǔn)清單,其中包含32個(gè)問題,涉及數(shù)據(jù)質(zhì)量、建模細(xì)節(jié)和數(shù)據(jù)泄漏風(fēng)險(xiǎn)等因素。他們表示,他們的清單“為ML-based科學(xué)的報(bào)告標(biāo)準(zhǔn)提供了跨學(xué)科的標(biāo)桿”。其他清單已經(jīng)為特定領(lǐng)域制定,如生命科學(xué)和化學(xué)。[9][10][11]

許多人認(rèn)為,使用AI的研究論文應(yīng)該完全公開其方法和數(shù)據(jù)。弗吉尼亞州分析公司Booz Allen Hamilton的數(shù)據(jù)科學(xué)家Edward Raff在2019年進(jìn)行的一項(xiàng)研究發(fā)現(xiàn),255篇使用AI方法的論文中只有63.5%能夠按照報(bào)告的方式進(jìn)行復(fù)制,但后來蒙特利爾麥吉爾大學(xué)的計(jì)算機(jī)科學(xué)家Joelle Pineau等人表示,如果原始作者通過積極提供數(shù)據(jù)和代碼來幫助這些努力,復(fù)制率會(huì)提高到85%??紤]到這一點(diǎn),Pineau和她的同事提出了一份使用AI方法的論文的協(xié)議,規(guī)定提交時(shí)必須包含源代碼,并且必須根據(jù)標(biāo)準(zhǔn)的ML可重復(fù)性清單進(jìn)行評估。[12][13]

但研究人員注意到,在任何計(jì)算科學(xué)中提供足夠詳細(xì)的信息以進(jìn)行完全可重復(fù)性都是困難的,更不用說在AI中了。

而且,清單只能做到這么多。可重復(fù)性并不保證模型提供正確的結(jié)果,而只是保證自洽的結(jié)果,荷蘭埃因霍溫科技大學(xué)的計(jì)算機(jī)科學(xué)家Joaquin Vanschoren警告說。他還指出,“很多真正高影響的AI模型是由大公司創(chuàng)建的,他們很少立即公開他們的代碼?!彼f,有時(shí)人們不愿意發(fā)布自己的代碼,因?yàn)樗麄冋J(rèn)為還沒有準(zhǔn)備好接受公眾的審查。

image.png

盡管一些計(jì)算機(jī)科學(xué)的會(huì)議要求提供代碼才能發(fā)表同行評審的論文,但這并不是普遍的。Vanschoren表示,“最重要的會(huì)議對此更加認(rèn)真,但這是一個(gè)復(fù)雜的問題?!?/p>

問題的部分原因可能是根本沒有足夠的數(shù)據(jù)可以正確測試模型。“如果沒有足夠的公共數(shù)據(jù)集,研究人員無法正確評估其模型,最終會(huì)發(fā)表顯示出很好性能的低質(zhì)量結(jié)果,”亞馬遜AWS Health AI的科學(xué)家Joseph Cohen說,他還是美國非營利機(jī)構(gòu)可重復(fù)研究研究所的主管。“這個(gè)問題在醫(yī)學(xué)研究中非常嚴(yán)重?!?/strong>

對于生成式AI系統(tǒng)(如大型語言模型(LLMs))來說,可能存在的風(fēng)險(xiǎn)更大,這些模型可以使用從其訓(xùn)練數(shù)據(jù)導(dǎo)出的模型生成新的數(shù)據(jù),包括文本和圖像。例如,研究人員可以使用這些算法提高圖像的分辨率。但除非他們非常小心,否則可能會(huì)引入人為痕跡,谷歌位于加利福尼亞州山景城的研究科學(xué)家Viren Jain說,他致力于開發(fā)用于可視化和操作大數(shù)據(jù)集的AI。

“在顯微鏡領(lǐng)域,提高圖像質(zhì)量,如去除噪聲,引起了很多興趣,”他說?!暗也粫?huì)說這些事情是百分之百可靠的,它們可能會(huì)引入人為痕跡?!彼谧约貉芯看竽X組織圖像的工作中看到了這樣的危險(xiǎn)?!叭绻覀儾恍⌒牟扇∵m當(dāng)?shù)牟襟E來驗(yàn)證事物,我們可能很容易做出一些最終無意中導(dǎo)致不正確科學(xué)結(jié)論的事情?!?/p>

Jain還擔(dān)心濫用生成式AI的可能性,作為創(chuàng)建看似真實(shí)的科學(xué)圖像的一種簡便方法?!昂茈y避免我們可能在科學(xué)領(lǐng)域看到更多誠信問題的擔(dān)憂,”他說。

文化轉(zhuǎn)變

一些研究人員認(rèn)為,只有通過改變有關(guān)數(shù)據(jù)呈現(xiàn)和報(bào)告的文化規(guī)范,問題才能真正得到解決。Haibe-Kains對于實(shí)現(xiàn)這樣的變化并不太樂觀。2020年,他和他的同事批評了一項(xiàng)關(guān)于ML檢測乳腺癌的潛力的研究,該研究由Google Health的研究人員組成。Haibe-Kains及其合著者寫道,“由于缺乏足夠記錄的方法和支持該研究的計(jì)算代碼,該研究的科學(xué)價(jià)值受到了實(shí)質(zhì)性的損害”,換句話說,由于沒有足夠的信息可以進(jìn)行復(fù)制,該工作無法檢查。[14][15]

該研究的作者在一份已發(fā)表的回應(yīng)中表示,由于部分?jǐn)?shù)據(jù)來自擁有隱私顧慮的美國醫(yī)院,他們無權(quán)分享全部信息。他們補(bǔ)充說,他們“努力記錄所有相關(guān)的機(jī)器學(xué)習(xí)方法,同時(shí)確保文章對臨床和一般科學(xué)讀者可見”。[16]

更廣泛地說,Varoquaux和IT大學(xué)哥本哈根分校的計(jì)算機(jī)科學(xué)家Veronika Cheplygina認(rèn)為,當(dāng)前的出版激勵(lì)機(jī)制,尤其是產(chǎn)生引人注目標(biāo)題的壓力,對基于人工智能的發(fā)現(xiàn)的可靠性構(gòu)成了威脅。Haibe-Kains補(bǔ)充說,作者并不總是“本著善意的態(tài)度”遵守?cái)?shù)據(jù)透明度準(zhǔn)則,而期刊編輯在這方面通常沒有足夠的反擊。[17]

Haibe-Kains認(rèn)為問題不在于編輯放棄透明度的規(guī)則,而在于編輯和審稿人可能“對分享數(shù)據(jù)、代碼等的真實(shí)和虛構(gòu)障礙了解不足,因此他們往往滿足于非常膚淺、不合理的理由 [不分享此類信息]”。實(shí)際上,作者可能并不了解確保其工作的可靠性和可重復(fù)性需要什么。Bennett表示:“如果你不完全理解自己在做什么,要做到完全透明是很困難的?!?/p>

今年《自然》雜志進(jìn)行的一項(xiàng)調(diào)查詢問了1,600多名研究人員對于AI相關(guān)期刊文章的同行評審是否足夠的看法。在那些使用AI進(jìn)行工作的科學(xué)家中,有四分之一認(rèn)為評論是足夠的,四分之一認(rèn)為不夠,大約有一半表示不知道(見“研究論文中AI評論質(zhì)量”和Nature 621, 672-675; 2023)。

image.png

Source:?Nature?621, 672–675 (2023).

雖然有關(guān)個(gè)別論文存在大量潛在問題,但它們很少得到解決。個(gè)別案例往往陷入關(guān)于細(xì)節(jié)的爭論和反駁。例如,在Kapoor和Narayanan調(diào)查的一些案例研究中,涉及使用ML預(yù)測內(nèi)戰(zhàn)爆發(fā),他們聲稱結(jié)果被數(shù)據(jù)泄露扭曲的一些建議,得到了作者公開反駁(見Nature 608, 250–251; 2022)。而Dhar和Shamir批評的COVID-19胸部X射線識(shí)別研究的作者告訴《自然》雜志,他們不接受這些批評。

適應(yīng)新的工具

并非每個(gè)人都認(rèn)為人工智能危機(jī)正在逼近?!案鶕?jù)我的經(jīng)驗(yàn),我還沒有看到人工智能應(yīng)用導(dǎo)致無法重現(xiàn)結(jié)果增加的情況,”Helsinki Aiforia Technologies的神經(jīng)科學(xué)家Lucas Stetzik說。事實(shí)上,他認(rèn)為,經(jīng)過謹(jǐn)慎應(yīng)用,人工智能技術(shù)可以幫助消除常常滲透到研究人員工作中的認(rèn)知偏見?!拔抑员晃饺斯ぶ悄茴I(lǐng)域,主要是因?yàn)槲覍υS多方法無法重現(xiàn)以及一些不負(fù)責(zé)任的研究人員容易引導(dǎo)或挑揀結(jié)果的情況感到沮喪。”

盡管關(guān)于AI在科學(xué)文獻(xiàn)中使用的許多發(fā)現(xiàn)的有效性或可靠性存在廣泛的擔(dān)憂,但目前尚不清楚基于AI的文獻(xiàn)中的錯(cuò)誤或不可靠的發(fā)現(xiàn)是否已經(jīng)對例如臨床實(shí)踐中的誤診產(chǎn)生真正的危險(xiǎn)?!拔艺J(rèn)為這有可能發(fā)生,我不會(huì)驚訝于發(fā)現(xiàn)它已經(jīng)發(fā)生,但我還沒有看到任何這樣的報(bào)告,”Bennett說。

Cohen也認(rèn)為問題可能會(huì)自行解決,就像其他新科學(xué)方法的初期問題一樣?!拔艺J(rèn)為事情最終會(huì)自然而然地解決,”他說?!鞍l(fā)表質(zhì)量低的論文的作者將受到研究界的負(fù)面評價(jià),不會(huì)得到未來的工作。發(fā)表這些論文的期刊將被視為不值得信賴的,好的作者將不希望在其中發(fā)表論文?!?/p>

加利福尼亞州門洛帕克生物信息公司Enable Medicine的生物工程師Alex Trevino表示,確保以跨學(xué)科團(tuán)隊(duì)的方式進(jìn)行AI研究是使其更可靠的關(guān)鍵因素。例如,了解如何策劃和處理數(shù)據(jù)集的計(jì)算機(jī)科學(xué)家應(yīng)與了解數(shù)據(jù)獲取的實(shí)驗(yàn)復(fù)雜性的生物學(xué)家合作。

Bennett認(rèn)為,在未來十年或二十年,研究人員將更加深入地了解AI可以提供什么以及如何使用它,就像生物學(xué)家花了那么長時(shí)間才更好地了解如何將基因分析與復(fù)雜疾病聯(lián)系起來一樣。Jain表示,至少對于生成式人工智能,當(dāng)使用的模型更加一致時(shí),可重現(xiàn)性可能會(huì)得到改善。“人們越來越傾向于基礎(chǔ)模型:像OpenAI的GPT-3和GPT-4這樣可以執(zhí)行許多任務(wù)的非常通用的模型,”他說。這更有可能產(chǎn)生可重現(xiàn)的結(jié)果,而不是一些在內(nèi)部訓(xùn)練的定制模型?!耙虼耍绻總€(gè)人都在使用相同的系統(tǒng),你可以想象可重現(xiàn)性會(huì)有所提高?!?/p>

Vanschoren對航空航天工業(yè)進(jìn)行了樂觀的類比?!霸谠缙?,這是非常危險(xiǎn)的,經(jīng)過幾十年的工程才使飛機(jī)變得值得信賴。”他認(rèn)為人工智能將以類似的方式發(fā)展:“這個(gè)領(lǐng)域會(huì)變得更加成熟,隨著時(shí)間的推移,我們將了解哪些系統(tǒng)是值得信賴的。”問題在于研究界是否能在此期間解決這些問題。

《自然》624, 22-25 (2023)

doi: https://doi.org/10.1038/d41586-023-03817-6

引用:

Philip Ball is a science writer in London.

1. Khan, A. I., Shah, J. L. & Bhat, M. M. Comput. Methods Prog. Biomed. 196, 105581 (2020).

2. Dhar, S. & Shamir, L. Vis. Inform. 5, 92–101 (2021).

3. Roberts, M et al. Nature Mach. Intell. 3, 199–217 (2021).

4. Kapoor, S. & Narayanan, A. Patterns 4, 100804 (2023).

5. Oner, M. U., Cheng, Y.-C., Lee, H.K. & Sung, W.-K. Preprint at medRxiv https://doi.org/10.1101/2020.04.23.20076406 (2020).

6. Beede, E. et al. in Proc. 2020 CHI Conf. Human Factors Comput. Syst. https://doi.org/10.1145/3313831.3376718 (2020).

7. Chawla, N. V., Bowyer, K. W., Hall, L. O. & Kegelmeyer, W. P. J. Artif. Intell. Res. 16, 321–357 (2002).

8. Traut, N. et al. NeuroImage 255, 119171 (2022).

9. Kapoor, S. et al. Preprint at https://arxiv.org/abs/2308.07832 (2023).

10. Heil, B. J. et al. Nature Methods 18, 1132–1135 (2021).

11. Artrith, N. et al. Nature Chem. 13, 505–508 (2021).

12. Raff, E. Preprint at https://arxiv.org/abs/1909.06674 (2019).?

13. Pineau, J. et al. J. Mach. Learn. Res. 22, 7459–7478 (2021).

14. McKinney, S. M. et al. Nature 577, 89–94 (2020).

15. Haibe-Kains, B. et al. Nature 586, E14–E16 (2020).

16. McKinney, S. M. et al. Nature 586, E17–E18 (2020).

17. Varoquaux, G. & Cheplygina, V.?npj Digit. Med.?5, 48 (2022).


icon_pdf.gif

Is AI leading to a reproducibility crisis in science(AI是否正在導(dǎo)致再現(xiàn)性危機(jī)).pdf

推薦
關(guān)閉
| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |