Abstrak
Tinjauan sistematis dianggap oleh banyak pihak sebagai bukti ilmiah tingkat tertinggi. Akan tetapi, metode yang digunakan dalam tinjauan sistematis untuk menggabungkan informasi dari berbagai penelitian didasarkan pada semua laporan yang jujur. Untuk tinjauan sistematis terhadap penelitian praklinis tentang depresi, kami menemukan bahwa penelitian yang berpotensi curang—penelitian yang menampilkan gambar bermasalah yang menunjukkan kesalahan atau manipulasi besar—umum terjadi dan dapat memengaruhi temuan kami. Prevalensi penelitian yang bermasalah (kami memiliki kekhawatiran dengan 19% dari semua penelitian yang menggunakan gambar) dan ketidakmampuan kami untuk menemukan pola sederhana untuk mengidentifikasinya melemahkan tinjauan sistematis dalam bidang penelitian kami. Kami menduga bahwa ini merupakan gejala dari masalah yang lebih luas yang perlu segera ditangani.
Singkatan
TIBA , penelitian hewan: pelaporan eksperimen in vivo
DOI , pengenal objek digital
GRADE , pemeringkatan rekomendasi penilaian, pengembangan dan evaluasi
Tinjauan sistematis dianggap oleh banyak orang sebagai puncak bukti medis [ [ 1 , 2 ] ], jika dilakukan dengan benar. Tinjauan sistematis studi klinis menginformasikan praktik terbaik sehubungan dengan perawatan pasien; tinjauan sistematis studi praklinis digunakan untuk menjelaskan mekanisme biologis fundamental, tetapi juga untuk menginformasikan keputusan tentang kandidat obat mana yang akan dikembangkan dan uji klinis mana yang mungkin bermanfaat untuk dilakukan [ [ 3 , 4 ] ]. Banyak pedoman dan praktik terbaik telah diterbitkan untuk membantu peneliti dalam menggabungkan dan mensintesis bukti dengan cara sebaik mungkin [ [ 5 ] ]. Namun, tidak ada konsensus luas tentang cara menangani studi yang berpotensi curang [ [ 6 ] ]. Haruskah kita mengecualikan sebuah studi hanya karena kita tidak mempercayainya? Dapatkah kita melakukannya tanpa memperkenalkan unsur bias? Sebagian besar pedoman yang mencoba mengukur keandalan temuan dalam laporan peer-review (misalnya, GRADE [ [ 7 ] ]) berasumsi bahwa penulis bertindak dengan itikad baik. Sebuah studi terjadi, dan dilakukan seperti yang tertulis. Tetapi apa yang kita lakukan bila kita menduga hal ini tidak terjadi?
Bahasa Indonesia: Saat melakukan tinjauan sistematis atas studi praklinis depresi, kami menemukan publikasi yang menampilkan data penelitian menggunakan gambar bermasalah. Banyak dari gambar ini menunjukkan bukti yang menunjukkan fabrikasi atau pemalsuan. Dalam laporan saat ini, kami telah secara sistematis menilai dan mendokumentasikan jenis dan frekuensi masalah yang kami temui dalam proses penyaringan kami. Berdasarkan temuan kami, tampaknya studi penipuan lebih sering terjadi daripada yang disarankan oleh banyak perkiraan sebelumnya [ [ 8 – 11 ] ]. Mereka juga berpotensi mendistorsi kesimpulan tinjauan sistematis kami. Selain itu, metode tradisional untuk menghindari studi berkualitas rendah sangat tidak memadai dalam mengidentifikasi makalah yang bermasalah. Berfokus pada reputasi jurnal yang menerbitkan makalah tersebut, atau melihat apakah temuan tersebut dikutip oleh peneliti lain, tampaknya tidak mengurangi kemungkinan makalah tersebut menampilkan gambar yang bermasalah. Daftar periksa dan protokol untuk mengukur kualitas bukti dalam tinjauan sistematis juga tidak memilih laporan yang bermasalah ini. Jika kita ingin mempertahankan integritas investigasi meta-analitis secara umum, dan tinjauan sistematis secara khusus, kita sangat perlu mengembangkan metode yang lebih baik untuk mengidentifikasi dan menangani laporan yang berpotensi curang dalam jurnal yang ditinjau sejawat.
Tinjauan sistematis kami menyangkut stres kronis yang tidak dapat diprediksi dan penggunaannya dalam pemodelan depresi pada tikus laboratorium [ [ 12 ] ]. Teorinya adalah bahwa tikus yang terpapar kondisi yang terus berubah tetapi selalu membuat stres setiap hari akan mengembangkan sesuatu yang mirip dengan depresi mayor [ [ 13 ] ]. Metode ini telah digunakan dalam ribuan eksperimen [ [ 14 ] ], pada ratusan ribu tikus. Namun, kami tidak yakin sejauh mana itu adalah metode yang baik untuk mempelajari depresi [ [ 15 ] ], jika memang ada. Akibatnya, bidang ini matang untuk investigasi meta-analitis. Kami tertarik untuk mengevaluasi kemanjuran mempelajari efek protokol stres ini menggunakan uji preferensi sukrosa—tes yang mengukur kemampuan untuk merasakan kegembiraan dengan mempelajari bagaimana tikus, ketika diberi kesempatan, akan makan berlebihan pada larutan gula [ [ 16 ] ]. Ada sejumlah pendekatan berbeda dalam model ini sehingga untuk bekerja dengan serangkaian studi yang seragam, kami membatasi investigasi kami lebih lanjut. Kami memilih untuk menggabungkan data hanya dari percobaan yang menerapkan paradigma stres selama minimal 2 minggu dan di mana tikus tidak berpuasa secara berlebihan (< 6 jam) sebelum uji preferensi sukrosa.
Publikasi yang telah melalui peninjauan sejawat bersumber dari basis data jurnal. Setelah langkah penyaringan awal, kami dihadapkan pada tugas untuk menyaring sejumlah besar publikasi guna mengevaluasi apakah publikasi tersebut sesuai dengan cakupan investigasi kami. Pada tahap ini, kami melihat adanya ketidakkonsistenan dan duplikasi pada gambar yang menyajikan data. Karena tidak mengetahui cara menangani publikasi terkait dengan cermat, kami memilih untuk mendokumentasikan masalah ini secara terpisah.
Bahasa Indonesia: Untuk dapat berbicara dengan meyakinkan tentang isu-isu yang kami temukan, kami telah menggunakan sistem klasifikasi yang dikembangkan oleh Dr Elisabeth Bik dan kolaborator [ [ 17 ] ]. Sistem ini membedakan antara tiga tingkatan isu—isu yang dapat dengan mudah muncul secara tidak sengaja dalam mempersiapkan makalah; isu-isu yang dapat muncul secara tidak sengaja, tetapi tidak mudah; dan isu-isu yang berasal dari gambar yang telah sengaja dimanipulasi (Gbr. 1 ). Kami akan menahan diri dari berspekulasi mengapa gambar telah diubah, kecuali untuk mencatat bahwa kami hanya menganalisis gambar yang menyajikan data penelitian—mengubahnya dengan cara apa pun berarti merusak data ini dan, menurut definisinya, dapat merupakan pelanggaran penelitian [ [ 18 , 19 ] ].
Gbr. 1
Buka di penampil gambar
Presentasi PowerPoint
Mengklasifikasikan masalah gambar menggunakan ‘skala Bik’. Dengan menggunakan contoh, kita dapat menentukan tiga tingkat duplikasi gambar yang bermasalah [ [ 17 ] ]. Duplikasi sederhana (Tipe I) terjadi ketika gambar muncul dua kali dalam laporan yang sama, tetapi seolah-olah menggambarkan dua hal yang berbeda. Jika hanya sebagian gambar yang diduplikasi dan disajikan sebagai sesuatu yang lain, kami menganggap ini sebagai duplikasi dengan reposisi (Tipe II). Dalam skenario terakhir, gambar asli sering kali hanya dapat disimpulkan, karena kita mungkin hanya melihat bagian yang diduplikasi. Lebih jauh, kita sering menemukan bahwa gambar-gambar ini telah diputar dan/atau dicerminkan, hampir seolah-olah untuk mengaburkan duplikasi. Ini ditunjukkan di sini, di mana segmen gambar yang digunakan kembali telah diputar dan dicerminkan, masing-masing. Ketika perangkat lunak penyuntingan gambar telah digunakan untuk menghapus atau menambahkan fitur ke gambar, atau untuk menggabungkan elemen dari beberapa gambar, kami menganggap ini sebagai duplikasi dengan perubahan (Tipe III). Meskipun tidak satu pun dari masalah ini seharusnya terjadi dalam laporan, hanya tipe terakhir yang merupakan ekspresi jelas dari penipuan (pemalsuan/pemalsuan). Kami menggunakan gambar yang sederhana dan mencolok untuk tujuan demonstrasi. Perhatikan bahwa duplikasi gambar yang kami bahas di bawah ini jauh lebih sulit diidentifikasi.
Selain menyajikan frekuensi dan jenis masalah, kami menyajikan bagaimana studi dengan gambar bermasalah memengaruhi tinjauan sistematis kami. Kami juga melakukan analisis bibliometrik sederhana untuk menjawab pertanyaan yang sering muncul saat membahas studi yang berpotensi curang.
Bahan dan metode
Penyaringan
Publikasi yang ditinjau sejawat bersumber untuk tinjauan sistematis kami melalui EMBASE, PubMed, dan Web of Science. Untuk detail tentang string pencarian dan langkah penyaringan awal, rujuk ke publikasi asli [ [ 12 ] ]. Yang penting, makalah yang tidak menggambarkan studi eksperimental asli — yaitu, tinjauan, meta-analisis, makalah opini, dan abstrak pertemuan — dikecualikan dalam langkah penyaringan awal. Dari 1035 item yang disertakan dalam penyaringan teks lengkap, kami memilih studi yang menampilkan satu atau lebih foto/mikrograf/pindaian yang menyajikan data penelitian. Kami juga menyertakan laporan dengan plot flow cytometry atau diagram jalur dari eksperimen perilaku karena ada contoh sebelumnya yang telah dipalsukan [ [ 20 , 21 ] ]. Meskipun ini juga berlaku untuk spektrum spektroskopi atau kromatografi dari, misalnya, spektroskopi Raman [ [ 22 ] ], kami mengecualikan ini karena kami tidak yakin dengan kemampuan kami untuk memisahkan gambar yang serupa dari gambar yang identik dalam gambar spektrum beresolusi rendah. Lebih jauh, kami tidak mempertimbangkan contoh gambar yang tidak menggambarkan data asli. Gambar pengaturan eksperimen dan gambar bergaya yang menunjukkan suatu metode, tentu saja, dapat diedit tanpa memengaruhi keandalan laporan terkait.
Pada tahap pertama, semua makalah dengan gambar yang dapat dianalisis ( n = 588) diperiksa secara visual tanpa bantuan apa pun kecuali rotasi dan penyesuaian kontras sesekali. Setelah tahap pertama ini, kami diberi akses beta ke Imagetwin (Imagetwin AI GmbH, Vienna, Austria)—perangkat lunak analisis gambar daring yang dirancang untuk mendeteksi duplikasi. Hal ini memungkinkan kami untuk mendeteksi juga duplikasi antara publikasi, sesuatu yang sebagian besar tidak mungkin dilakukan oleh analis manusia. Akibatnya, kami melakukan tahap kedua, dengan bantuan perangkat lunak pada semua makalah dengan gambar yang dapat dianalisis.
Klasifikasi
Masalah yang kami temukan pada gambar terbitan yang menyajikan data penelitian diklasifikasikan menurut sistem yang dikembangkan oleh Bik et al . [ [ 17 ] ] (rujuk Gambar 1 ). Setiap publikasi yang kami saring dicantumkan sebagai ‘bersih’, tidak mengandung masalah gambar yang dapat kami deteksi, atau sebagai bermasalah. Sejumlah kecil ( n = 22) publikasi yang menurut kami tidak dapat kami nilai dengan adil pada gambarnya (misalnya, yang gambarnya hanya dapat diperoleh pada resolusi sangat rendah) dicantumkan sebagai tidak ada. Pemeringkatan dilakukan pada tingkat publikasi. Jika ditemukan beberapa duplikasi dalam makalah yang sama, kami mengaitkan publikasi tersebut dengan klasifikasi tertinggi yang kami temukan. Kami juga mencatat jenis gambar yang bermasalah pada makalah yang bermasalah.
Dua modifikasi kecil dilakukan pada sistem klasifikasi asli. Kami menemukan sejumlah kecil gambar dengan masalah yang tidak sesuai dengan tiga tingkatan ‘skala Bik’. Akibatnya, kami menambahkan kategori berlabel ‘lainnya’. Dalam kategori ini, gambar sering kali mengandung masalah teknis, yang tidak dapat diperoleh dengan cara yang diuraikan dalam laporan. Contoh tipikal adalah situasi ketika dua set western blot diduga diambil dari membran yang sama, tetapi hal ini jelas tidak memungkinkan. Modifikasi kedua menyangkut duplikasi antar laporan. Sistem klasifikasi awalnya dikembangkan untuk gambar yang dilihat hanya dalam konteks publikasi tempat gambar tersebut ditemukan. Ketika kami menemukan bahwa penulis telah menduplikasi gambar antar publikasi, kami meningkatkannya menjadi duplikasi Tipe II meskipun tidak ada reposisi yang terjadi. Kami yakin ini sesuai dengan semangat sistem klasifikasi asli, karena ini tidak dapat dianggap sebagai duplikasi ‘sederhana’. Lebih banyak kesalahan yang harus terjadi agar hal ini terjadi secara tidak sengaja. Selain itu, ketika duplikasi ditemukan di antara laporan yang tidak memiliki penulis yang sama, kami mencantumkannya sebagai duplikasi Tipe III. Hanya laporan terakhir yang diterbitkan (berdasarkan tahun penerbitan) yang tercantum sebagai laporan bermasalah, mengingat kami tidak memiliki alasan untuk percaya bahwa ada yang salah dengan publikasi asli. Namun, kami juga mengecualikan publikasi asli dari daftar studi ‘bersih’ dalam analisis bibliometrik kami.
Pelaporan
Semua masalah gambar dilaporkan, selama periode 2 tahun (Juni 2021 hingga Juni 2023), pada platform tinjauan sejawat pascapublikasi PubPeer ( www.pubpeer.com ), dengan pengecualian lima makalah, di mana pengenal objek digital (DOI) dan/atau ID PubMed dari makalah tersebut tidak kompatibel dengan PubPeer. Dua makalah ditemukan telah memiliki masalah yang dilaporkan di PubPeer oleh pengguna anonim Hoya camphorifolia dan satu oleh Orthocarpus imbricatus (pengguna PubPeer anonim diberi nama pengguna acak dari basis data taksonomi). Di mana kami melaporkan masalah dengan makalah, Elisabeth Bik dan pengguna anonim (pengguna: Hoya camphorifolia , Mycosphaerella arachidis , Schinia honesta , dan Uromycladium fusisporum ) membuat penemuan tambahan dalam lima kasus. Dalam sejumlah kasus, pengguna anonim Illex illecebrosus memberikan animasi yang menunjukkan beberapa gambar tumpang tindih yang kami cantumkan di saluran YouTube ZeebaTV. Respons yang dikirimkan melalui PubPeer direkam pada bulan September 2024.
Bibliometrik
Di luar metadata yang diperoleh dalam tinjauan sistematis, kami mencatat afiliasi nasional penulis untuk masing-masing dari 1035 publikasi. Perhatikan bahwa beberapa afiliasi nasional dapat dikaitkan dengan satu publikasi di mana para peneliti yang mewakili berbagai negara berkolaborasi.
Dalam analisis bibliometrik, kami membandingkan 112 studi dalam kumpulan data kami yang telah ditandai dengan masalah gambar dengan yang tidak. Secara khusus, daftar 447 publikasi ‘bersih’, tanpa komentar pada gambar, dibuat. Sampel berukuran cocok dari 112 makalah kemudian dipilih secara acak (menggunakan generator angka acak) dan digunakan untuk perbandingan. Jurnal yang menerbitkan 112 makalah ‘bersih’ dan 112 makalah dengan gambar bermasalah dicatat, dan faktor dampak jurnal mereka diperoleh melalui Web of Science (Clarivate). Kami juga memperoleh jumlah kutipan untuk masing-masing item ini (makalah), juga melalui Web of Science. Bibliometrik diperoleh pada bulan Juli 2023. Untuk membandingkan jumlah kutipan untuk makalah yang diterbitkan hingga 14 tahun terpisah, kami menghitung jumlah rata-rata kutipan per tahun (ini kadang-kadang disebut sebagai tingkat kutipan yang diamati [ [ 23 ] ]). Makalah yang diterbitkan dalam jurnal tanpa faktor dampak yang tercantum untuk tahun 2022 dikecualikan dari analisis (alih-alih menggunakan faktor dampak dari tahun sebelumnya, yang terkadang menjadi pilihan). Demikian pula, untuk item (makalah) yang tidak tercantum dalam Web of Science, jumlah kutipan tidak dapat diperoleh. Akibatnya, 195 item (101 bermasalah, 94 ‘bersih’) dibandingkan pada faktor dampak jurnal, dan 205 item (104 bermasalah, 101 ‘bersih’) dibandingkan pada jumlah kutipan. Hanya satu publikasi dalam analisis kami yang tidak pernah dikutip.
Meta-analisis
Sebanyak 132 studi (yang menggambarkan 171 eksperimen yang relevan untuk pertanyaan penelitian kami) memenuhi kriteria pra-terdaftar kami untuk dimasukkan dalam tinjauan sistematis. Dari studi-studi tersebut, 10 ditandai dengan gambar yang bermasalah. Satu studi melaporkan dua eksperimen terpisah, keduanya memberikan bukti pada pertanyaan penelitian utama kami. Akibatnya, 11 eksperimen dalam meta-analisis kami dikaitkan dengan laporan yang berisi gambar yang bermasalah. Subset eksperimen ini dibandingkan dengan 160 eksperimen lain dalam tinjauan sistematis yang tidak dikaitkan dengan gambar yang bermasalah. Ukuran efek individual (dinyatakan sebagai perbedaan rata-rata terstandardisasi—Hedges’ g ) digabungkan dalam model efek acak menggunakan metode DerSimonian dan Laird [ [ 24 ] ] untuk memperkirakan heterogenitas antar-eksperimen. Subkelompok kemudian dibandingkan dalam uji- Q [ [ 25 ] ] yang menilai hipotesis bahwa ukuran efek antara kedua kelompok berbeda secara signifikan. Analisis dilakukan di r studio (Tim RStudio) yang menjalankan r v. 4.2.1 (Tim Inti R) menggunakan paket ‘meta’ [ [ 26 ] ].
Hasil dan Pembahasan
Ringkasan
Dalam investigasi kami, kami memindai 1035 publikasi peer-review, tetapi hanya 588 makalah yang menyajikan data penelitian dalam bentuk gambar (tidak termasuk gambar garis, seperti plot, grafik, infografis, dan skema). Kami menandai 112 makalah dengan gambar bermasalah, yang menunjukkan bahwa satu dari lima makalah dalam bidang penelitian (19%) yang menyajikan data dalam bentuk gambar mengalami masalah ini (Gbr. 2A ). Yang mengkhawatirkan, gambar bermasalah yang kami temukan sangat condong ke tipe II (49 studi) dan III (33 studi), yang menunjukkan bahwa sejumlah besar—kami menduga mayoritas—dari masalah tersebut merupakan bukti manipulasi data primer (Gbr. 2B ). Duplikasi sederhana—Tipe I—yang agak mudah terjadi pada tahap akhir persiapan naskah, sebaliknya, jarang terjadi (13 studi). Selain itu, kami menemukan beberapa masalah yang tidak dapat dimasukkan ke dalam tiga kategori (masalah lain: 17 studi). Kesalahan-kesalahan ini berkisar dari kesalahan-kesalahan yang tidak berbahaya seperti kemungkinan gambar-gambar tertukar tempat, sehingga deskripsinya tidak sesuai, hingga dokumen-dokumen yang gambar-gambarnya memuat sidik jari dari sebuah ‘pabrik kertas’ yang diduga [ [ 27 ] ] (individu-individu yang memalsukan laporan penelitian untuk mendapatkan pembayaran [ [ 28 , 29 ] ]).
Gambar 2
Buka di penampil gambar
Presentasi PowerPoint
(A, B) Rincian 1035 makalah yang disaring untuk tinjauan sistematis studi depresi praklinis. Sedikit lebih dari setengah (57%) makalah menyajikan satu atau lebih jenis data dalam bentuk gambar (tidak termasuk gambar garis seperti plot atau skema). Dari jumlah tersebut, 19% berisi setidaknya satu gambar yang bermasalah. Yang mengkhawatirkan, jenis masalah yang kami identifikasi sangat condong ke arah masalah yang menunjukkan manipulasi yang disengaja dari data penelitian yang digambarkan (Tipe II dan III). Untuk ringkasan jenis masalah, lihat Gambar 1 .
Masalah gambar ditemukan di berbagai representasi data penelitian—mulai dari diagram jalur yang seolah-olah memperlihatkan bagaimana seekor hewan melintasi alat uji perilaku tertentu hingga gel produk PCR yang difoto. Umumnya, duplikasi ditemukan pada gambar western blot (54 penelitian). Masalah dengan mikrograf juga sering terjadi, dengan gambar histologi (28 penelitian), gambar imunohistokimia (18 penelitian), dan gambar imunofluoresensi (13 penelitian) yang jumlahnya sangat banyak. Perlu dicatat juga bahwa beberapa penelitian (11 penelitian) mengandung masalah yang mencakup berbagai jenis gambar.
Meskipun hanya sepertiga (29%; 33 studi) dari studi bermasalah menampilkan perubahan yang jelas (masalah Tipe III), banyak laporan dalam kategori lain yang mencurigakan bagi kami. Dalam banyak kasus, akan sulit untuk membangun narasi yang terdengar masuk akal yang dapat menjelaskan masalah yang kami temukan sebagai hasil dari kecerobohan. Banyaknya duplikasi Tipe I dalam beberapa laporan akan cukup sulit untuk dijelaskan begitu saja sebagai kesalahan yang jujur. Satu laporan menampilkan 14 pasang gambar duplikat (Tipe I). Demikian pula, beberapa duplikasi Tipe II sangat terlibat, dengan penskalaan ulang, rotasi, pencerminan, dan penyesuaian kontras gambar, sehingga sulit untuk menganggapnya sebagai sesuatu selain strategi yang disengaja yang digunakan untuk menyembunyikan perubahan data yang disengaja. Akibatnya, penilaian profesional kami adalah bahwa sebagian besar masalah yang kami temukan merupakan indikasi pelanggaran.
Dampak pada meta-analisis
Dari 1035 makalah yang kami saring, 132 memenuhi semua persyaratan kami untuk dimasukkan dalam tinjauan sistematis kami. Sepuluh di antaranya ditandai dengan masalah gambar; enam di antaranya dengan masalah Tipe II (tiga makalah) atau Tipe III (tiga makalah). Untuk meta-analisis kami, kami tertarik pada bagaimana asupan sukrosa tikus yang terpapar paradigma stres kronis dibandingkan dengan kontrol yang tidak stres. Ini jarang menjadi perbandingan utama dalam makalah yang kami sintesis. Uji preferensi sukrosa sering kali digunakan hanya untuk memverifikasi bahwa model depresi yang disebabkan stres berfungsi, sering kali sebagai bagian dari panel pengujian. Namun, mungkin tidak mengherankan, semua kecuali satu makalah yang ditandai dengan masalah gambar menemukan perbedaan yang signifikan secara statistik antara tikus yang stres dan kontrol. Secara keseluruhan, makalah yang ditandai menunjukkan ukuran efek yang, rata-rata, lebih tinggi daripada makalah yang tidak kami tandai (perbedaan rata-rata: 0,81 standar deviasi; uji Q Cochran digunakan untuk analisis subkelompok: Q 1 = 4,57, P = 0,03), tetapi tidak terlalu banyak sehingga tampak tidak pada tempatnya (Gbr. 3 ). Dalam banyak hal, studi tersebut rata-rata secara diam-diam. Baik daftar periksa kami untuk kualitas pelaporan maupun risiko bias tidak membedakannya dari studi lain. Delapan dari 10 studi yang ditandai dengan masalah gambar dinilai untuk kualitas pelaporannya, menggunakan daftar periksa berdasarkan pedoman ARRIVE [ [ 30 ] ]. Rata-rata, studi-studi ini mendapat skor 5,8 dari 10 (rentang: 3–9), di mana angka yang lebih tinggi menunjukkan kualitas pelaporan yang lebih baik. Rata-rata keseluruhan untuk semua 100 studi yang dinilai untuk kualitas pelaporannya adalah 5,1. Demikian pula, ke-10 studi yang ditandai dengan masalah citra dinilai menggunakan alat umum untuk menilai risiko bias yang berasal dari desain studi [ [ 31 ] ]. Rata-rata, studi tersebut mendapat skor 3,2 dari 11 (rentang: 2–5), yang menunjukkan bahwa ada risiko bias yang tinggi—skor yang lebih tinggi menunjukkan lebih banyak upaya untuk mengurangi sumber bias. Sayangnya, ini hanya gejala untuk bidang penelitian—skor rata-rata untuk semua 132 studi yang termasuk dalam tinjauan adalah 2,9.
Gambar 3
Buka di penampil gambar
Presentasi PowerPoint
Ukuran efek dalam studi yang disertakan dalam tinjauan sistematis. Setiap garis vertikal mewakili interval kepercayaan 95% dari perbedaan rata-rata terstandar yang ditemukan antara kelompok stres dan kelompok kontrol dalam sebuah eksperimen. Semakin besar nilai pada sumbu Y , semakin besar perbedaan antara tikus stres dan tikus kontrol dalam uji preferensi sukrosa (yaitu, semakin sedikit minat tikus stres menunjukkan larutan gula dibandingkan dengan kontrol). Kami telah menyoroti 11 eksperimen dari 10 makalah yang ditandai dengan masalah gambar. Garis horizontal abu-abu mewakili efek rata-rata di semua studi (171 eksperimen diekstraksi dari 130 makalah). Garis horizontal putus-putus adalah rata-rata makalah yang ditandai. Tiga studi menyajikan ukuran efek rata-rata lebih besar dari 10 deviasi standar; akibatnya mereka tidak ditampilkan secara penuh dalam gambar karena mereka akan mengubah skala ilustrasi secara signifikan (mereka ditampilkan dalam plot hutan asli dalam tinjauan sistematis asli [ [ 12 ] ] namun). Tak satu pun dari ketiganya ditandai dengan masalah gambar, meskipun dapat dikatakan bahwa ukuran efek yang dijelaskan dalam makalah tersebut sangat besar.
Pada titik ini, perlu dicatat bahwa kita hanya membahas satu jenis studi yang bermasalah. Tidak ada alasan untuk percaya bahwa laporan yang menyajikan data dalam bentuk gambar lebih rentan menjadi bermasalah. Jika kita mempertimbangkan studi yang curang, misalnya, dinilai bahwa lebih sulit untuk memanipulasi gambar daripada memalsukan tabel, membuat diagram batang, atau menjiplak teks [ [ 32 ] ]. Kami belum melakukan upaya apa pun dalam penyelidikan saat ini untuk memeriksa statistik [ [ 33 ] ] atau angka yang ditabulasi [ [ 34 ] ] untuk konsistensi internal, mencari potongan teks yang dijiplak [ [ 35 ] ], atau menggunakan salah satu dari sejumlah metode lain [ [ 36 ] ] yang diusulkan untuk mendeteksi laporan yang bermasalah. Metode kami bahkan tidak akan dapat menemukan gambar yang dimanipulasi secara kompeten. Pengguna Photoshop yang terampil dapat dengan mudah menipu kami dan perangkat lunak analisis gambar yang kami gunakan. Setinggi angka kami, itu masih merupakan perkiraan yang lebih rendah untuk makalah yang berpotensi curang dalam kumpulan data kami.
Bibliometrik
Kesalahpahaman yang umum adalah bahwa studi palsu hampir secara eksklusif ditemukan dalam apa yang disebut jurnal predator—jurnal yang tidak memiliki tinjauan sejawat dan pemeriksaan kualitas editorial yang tepat [ [ 37 ] ]. Ini telah dideskripsikan sebagai ‘reservoir pelanggaran penulis’ [ [ 38 ] ] oleh Jeffrey Beall (dari Beall’s List yang terkenal). Tetapi apakah laporan kami dengan gambar yang bermasalah lebih mungkin ditemukan di jurnal yang reputasinya buruk? Analisis bibliometrik kami tidak mengungkapkan perbedaan apa pun antara faktor dampak jurnal yang menerbitkan makalah dengan gambar yang bermasalah (di mana kami menduga mayoritas mungkin palsu) dan sampel acak makalah dalam kumpulan data kami di mana kami tidak mendeteksi masalah gambar (Gbr. 4 ). Kami adalah yang pertama mengakui bahwa faktor dampak adalah metrik yang buruk untuk kualitas jurnal (seperti yang telah dilakukan orang lain di masa lalu [ [ 39 , 40 ] ]). Namun, jika penelitian palsu terutama diterbitkan dalam jurnal dengan reputasi buruk, seperti jurnal predator, kami akan menduga akan menemukan perbedaan. Di sini, data kami bertentangan dengan temuan Bik et al ., yang menemukan tren laporan yang berisi gambar bermasalah lebih sering muncul di jurnal dengan faktor dampak yang lebih rendah [ [ 17 ] ]. Hasil yang berbeda mungkin merupakan akibat dari fokus kami pada tingkat publikasi, sedangkan penelitian sebelumnya memilih untuk fokus pada tingkat jurnal.
Gambar 4
Buka di penampil gambar
Presentasi PowerPoint
Analisis bibliometrik sederhana menunjukkan bahwa makalah dengan gambar bermasalah tidak dapat dibedakan dari pilihan acak makalah tanpa masalah gambar menggunakan metrik sederhana. Baik faktor dampak jurnal yang menerbitkan makalah ini (median: 3,3), maupun jumlah kutipan tahunan yang diperolehnya (median: 3,7), tidak dapat digunakan untuk mengidentifikasi studi yang bermasalah dan berpotensi curang.
Kesalahpahaman umum lainnya adalah bahwa peneliti tahu secara naluriah untuk menghindari mengandalkan studi yang curang. Ketika membahas masalah ini dengan kolega, banyak yang mengklaim bahwa mereka tidak akan pernah mengutip atau mengandalkan laporan yang berpotensi curang—mereka akan bersikeras bahwa ‘mereka memiliki hidung untuk hal-hal ini’, atau sesuatu yang seperti itu. Analisis, sekali lagi, tidak mendukung ini (Gbr. 4 ). Rata-rata, studi dalam kumpulan data kami yang menampilkan gambar yang bermasalah dikutip sesering studi pada kumpulan data yang sama tanpa masalah gambar yang jelas. Namun, jika sejumlah besar yang pertama—seperti yang kami yakini—bersifat curang, kami perlu menyadari bahwa tingkat kutipan mereka mungkin telah dimanipulasi. Kutipan dapat meningkat secara artifisial oleh cincin/kartel kutipan [ [ 41 , 42 ] ], melalui kutipan koersif [ [ 43 ] ], atau dengan memanipulasi layanan pengindeksan bibliometrik [ [ 44 ] ]. Metode-metode ini diketahui digunakan, khususnya, oleh pabrik-pabrik kertas untuk meningkatkan dampak yang dirasakan dari makalah-makalah penelitian mereka yang diproduksi untuk pembayaran [ [ 45 – 47 ] ].
Perlu dicatat lebih lanjut bahwa kami tidak dapat menemukan perbedaan dalam tren bibliometrik antara studi yang menampilkan berbagai jenis isu (I, II, III, atau ‘lainnya’). Tidak adanya perbedaan (yang dibuktikan secara statistik), berkenaan dengan faktor dampak jurnal dan kutipan tahunan, juga tetap ada ketika kami, misalnya, membatasi analisis hanya pada makalah dengan isu Tipe III (lihat Gambar S1 dan S2 untuk perincian bibliometrik menurut jenis isu gambar).
Jelas, kita tidak dapat menghindari studi yang bermasalah hanya dengan menghindari publikasi yang jarang dikutip (dengan mengandalkan ‘kebijaksanaan orang banyak’) atau jurnal berdampak rendah secara grosir. Strategi lain untuk menghindari makalah yang berpotensi palsu adalah mengabaikan sepenuhnya publikasi yang berasal dari negara-negara yang dianggap sebagai sarang pabrik kertas. Tiongkok telah terlibat sebagai negara seperti itu pada beberapa kesempatan [ [ 45 , 46 , 48 ] ]. Meskipun kumpulan data kami tidak cukup besar untuk memungkinkan analisis menyeluruh tentang afiliasi penulis, kami dapat membuat beberapa pengamatan. Di luar masalah yang jelas tentang diskriminasi/rasisme langsung [ [ 49 ] ], ada alasan tambahan mengapa mengabaikan publikasi dari, misalnya, Tiongkok merupakan heuristik yang buruk. Dari 1035 makalah yang kami saring, 607 (58,6%) memiliki satu atau lebih penulis dengan afiliasi Tiongkok. Mengabaikan semua publikasi yang keluar dari produsen studi ilmiah terbesar di dunia [ [ 50 ] ] sama sekali tidak masuk akal. Tiongkok memang telah berjuang dengan insentif peneliti yang tidak selaras [ [ 51 ] ] yang mendorong budaya publikasi yang bermasalah di lingkungan penelitian tertentu [ [ 52 ] ]. Ini juga terbukti dalam data kami di mana sebuah studi lebih mungkin memiliki gambar yang bermasalah jika memiliki satu atau lebih penulis dengan afiliasi Tiongkok (rasio risiko: 1,42). Namun, begitu pula studi yang ditulis oleh peneliti dengan afiliasi Denmark. Dari 24 studi yang berisi gambar yang dapat dianalisis dan dengan satu atau lebih penulis Denmark, tujuh ditemukan memiliki gambar yang bermasalah (rasio risiko: 1,98). Penulis laporan saat ini (yang negara afiliasinya adalah Denmark) tidak ingin dinilai berdasarkan laboratorium produktif di sisi lain negara yang menghasilkan sejumlah studi dengan gambar yang bermasalah. Kami yakin bahwa sentimen ini adalah salah satu yang dianut oleh banyak kolega Tiongkok kami.
Respon dan reaksi
Topik tentang studi palsu dan menghadapi prevalensinya tidak mengenakkan dan merepotkan. Menggunakan informasi bibliometrik untuk menilai kebenaran sebuah studi tampak sebagai upaya putus asa untuk menghindari masalah tanpa harus menghadapinya secara langsung. Berpegang pada solusi sederhana yang akan mempertahankan status quo dapat dimengerti sekaligus keliru. Diskusi tentang studi palsu juga umum terjadi dan dialihkan dengan seruan untuk isu yang lebih luas. Praktik penelitian yang dipertanyakan, studi yang kurang bertenaga, dan buta huruf statistik lebih layak mendapat perhatian, seperti yang selalu kami dengar. Meskipun kami tidak sedikit pun tidak setuju dengan kenyataan bahwa ini adalah isu yang mendesak, hal itu tidak mengurangi perlunya konsensus tentang cara mengidentifikasi dan menangani studi palsu. Investigasi kami menemukan masalah citra dalam satu dari lima makalah yang ditinjau sejawat (berisi citra), yang sebagian besar kami yakini, sebagian atau seluruhnya, telah direkayasa. Tidak ada jumlah pengajaran tentang penggunaan uji – t yang tepat yang akan mengatasi hal ini.
Kami menduga bahwa alasan mengapa sebagian besar peneliti setuju dengan pernyataan bahwa penipuan penelitian jarang terjadi, sementara data tampaknya menunjukkan sebaliknya [ [ 9 , 53 ] ], adalah karena mereka belum mengalaminya secara pribadi [ [ 54 ] ]. ‘Jika saya tidak pernah melihat seseorang melakukan penipuan, bagaimana mungkin itu umum?’ Kami percaya bahwa bagian teka-teki yang hilang adalah memahami bahwa penipuan kemungkinan dilakukan oleh sejumlah kecil orang. Dalam penyelidikan kami, kami menemukan bahwa banyak makalah yang ditandai berasal dari laboratorium yang sama, dengan penulis yang berulang. Ini konsisten dengan penyelidikan sebelumnya tentang penipuan penelitian di mana, setelah masalah yang menunjukkan penipuan terungkap dalam sebuah publikasi, sering kali kemudian ditemukan bahwa satu atau lebih penulis adalah pelanggar berulang [ [ 55 , 56 ] ]. Karena penulis yang bersedia memalsukan hasil mereka tidak tunduk pada keinginan kejam peluang tetapi selalu dijamin untuk mendapatkan hasil yang diinginkan dalam eksperimen mereka, mereka bisa sangat produktif. Penulis yang siap membuat hasil mereka tanpa eksperimen apa pun, bisa menjadi lebih produktif. Ini adalah bagaimana sejumlah kecil orang [ [ 10 ] ] dengan moral yang fleksibel dapat mencemari literatur ilmiah secara tidak proporsional. Pabrik kertas, meskipun mereka menyediakan layanan mereka untuk beragam calon peneliti (dan sering kali penulis pertama kali), pada akhirnya juga dijalankan oleh sejumlah kecil orang. Ini adalah sepotong informasi yang menawarkan secercah harapan dalam menghadapi angka yang sangat suram. Kita dapat mengembalikan keandalan dalam bidang penelitian tertentu dengan mengidentifikasi sejumlah kecil pelaku dan menarik kembali pekerjaan mereka. Penarikan massal setelah identifikasi templat khusus pabrik kertas untuk makalah palsu adalah contoh yang sangat baik dari hal ini. Dengan mengidentifikasi elemen daur ulang, hampir 1000 makalah yang diproduksi oleh satu pabrik kertas, yang mengkhususkan diri dalam kristalografi sinar-X pura-pura, dapat diidentifikasi pada tahun 2022 [ [ 57 , 58 ] ]. Hingga saat ini, 471 dari makalah tersebut telah ditarik dan 814 struktur tiga dimensi molekul yang diduga palsu, yang terkait dengan makalah tersebut, telah dihapus dari Cambridge Structural Database [ [ 59 ] ]. Penarikan massal serupa telah terjadi setelah identifikasi pabrik kertas lain (seperti pabrik kertas ‘tadpole’ yang sekarang terkenal [ [ 28 , 60 ] ]) tetapi juga dalam kasus peneliti individu yang terbukti berulang kali memalsukan dan membuat-buat penelitian [ [ 56 , 61 ]]. Namun, jenis peristiwa penarikan massal ini bergantung pada kemauan untuk mengambil tindakan.
Sejak melaporkan 107 studi bermasalah pada platform tinjauan sejawat pascapublikasi PubPeer [lima makalah tidak dapat dilaporkan karena masalah yang berkaitan dengan pengenal objek digital (DOI)], hanya dua publikasi yang telah ditarik. Makalah pertama menampilkan apa yang kami gambarkan dalam catatan kami sebagai ‘penggunaan Photoshop yang meluas di beberapa gambar’ dan makalah tersebut ditandai sebagai sangat bermasalah di PubPeer, sebelum kami punya waktu, oleh pengguna anonim yang menggunakan identitas Hoya camphorifolia . Makalah tersebut diduga sebagai produk dari pabrik kertas yang sangat produktif (disebut sebagai pabrik kertas kontraktor [ [ 27 ] ]). Pencabutan diminta sebagai tanggapan atas kekhawatiran ini oleh Pemimpin Redaksi jurnal, setelah mereka tidak berhasil mencari (yang diduga) penulis untuk penjelasan [ [ 62 ] ]. Prosesnya memakan waktu satu setengah tahun, dengan makalah yang ditandai pada Agustus 2021, hanya untuk ditarik pada Februari 2023. Dalam periode antara tersebut, pada tahun 2022, makalah tersebut dikutip dalam setidaknya tujuh publikasi lainnya (tidak ada pernyataan perhatian yang pernah dikeluarkan oleh jurnal). Makalah kedua yang menggunakan kembali (memutar) gambar imunohistokimia dari makalah lama tanpa penulis yang sama ditandai oleh kami pada Juni 2023. Makalah tersebut ditarik 11 bulan kemudian berdasarkan masalah ini. Para editor sekali lagi tidak berhasil menghubungi penulis [ [ 63 ] ]. Dalam kasus 12 makalah lainnya, errata / corrigenda telah dikeluarkan di mana gambar yang telah kami tunjukkan telah diganti dengan gambar tanpa duplikasi. Ini termasuk delapan kasus di mana gambar asli memiliki masalah substansial (Tipe II dan III). Dalam kebanyakan kasus, tidak ada penjelasan untuk masalah asli yang telah ditawarkan. Beberapa penulis (15 kasus) telah memilih untuk menanggapi masalah tersebut melalui PubPeer. Hanya dalam satu kasus, seorang penulis tidak setuju dengan inti permasalahan, dengan alasan bahwa gambar-gambar tersebut, pada kenyataannya, tidak digandakan. Dalam kasus ini, penulis mengklaim memiliki pindaian beresolusi tinggi dari western blot asli, yang membuktikan bahwa gambar-gambar tersebut hanya sangat mirip tetapi tidak benar-benar digandakan. Pindaian-pindaian ini tidak dibagikan, sehingga kami menganggap permasalahan tersebut masih belum terselesaikan. Dalam lima kasus, penulis mengklaim telah menghubungi jurnal untuk mengoreksi kesalahan yang dimaksud, tetapi tanpa koreksitelah diterbitkan. Klaim tertua dari klaim ini berusia 3 tahun pada saat penulisan (tertanggal kembali ke September 2021). Respons tambahan mencakup janji untuk ‘memulai investigasi’ (Agustus 2021—tidak ada kabar sejak itu), mengulangi eksperimen dan melaporkan kembali dalam 3 bulan (Juli 2023—tidak ada kabar sejak itu) dan hanya mengunggah gambar pindaian asli dari western blot yang bermasalah (September 2021—tidak ada kabar sejak itu). Hanya dalam satu kasus penulis mengeluarkan koreksi [ [ 64 ] ] yang memberikan penjelasan yang transparan, masuk akal, dan kolegial untuk masalah tersebut (duplikasi Tipe I) yang kami ajukan. Kami memuji perilaku model penulis dan bertanya-tanya mengapa ini hanya terjadi sekali dalam 107 kasus. Sebagian besar penulis dan jurnal gagal untuk terlibat dengan masalah yang dilaporkan sama sekali. Studi yang berasal dari kelompok penelitian Denmark dilaporkan ke Dewan Denmark tentang Pelanggaran Penelitian. Para peneliti dibebaskan dari kelima tuduhan dugaan pelanggaran [ [ 65 ] ]. Penyelidikan tersebut melibatkan upaya menghubungi para peneliti dan menanyakan tentang gambar-gambar tersebut, yang menurut mereka tidak digandakan. Pakar yang tidak memihak tidak diajak berkonsultasi, makalah-makalah tersebut tetap tidak dikoreksi, dan putusan tersebut tidak dapat diajukan banding. Selain menghadapi masalah banjirnya studi yang berpotensi curang, kami juga menghadapi masalah keengganan institusional untuk menangani studi yang berpotensi curang dengan tepat.
Kesimpulan
Pemeriksaan kami menunjukkan bahwa laporan yang ditinjau sejawat dengan gambar yang bermasalah adalah hal yang umum dalam bidang studi depresi praklinis. Kami yakin bahwa sebagian besar laporan ini, sebagian atau seluruhnya, telah direkayasa atau dipalsukan. Selain itu, dalam konteks tinjauan sistematis kami, laporan tersebut berfungsi untuk meningkatkan estimasi meta-analitis kami. Kami tidak dapat menemukan pola sederhana yang memungkinkan untuk mendeteksi, dan berpotensi mengecualikan, laporan bermasalah ini di luar penyelidikan gambar mereka dengan saksama. Konsekuensi dari temuan kami mengkhawatirkan. Setiap tinjauan sistematis praklinis dan investigasi meta-analitis yang dilakukan di bidang ini berpotensi disesatkan oleh studi yang curang.
Kita mungkin bertanya pada diri sendiri apakah hasil ini khusus untuk bidang studi depresi praklinis. Tanpa lebih banyak data, kita tidak dapat memberikan jawaban yang pasti, tetapi ada alasan untuk percaya bahwa angka-angka kita dapat diekstrapolasi ke bidang penelitian praklinis lainnya. Pertama, model stres kronis yang tidak dapat diprediksi digunakan secara luas di seluruh subbidang. Ini digunakan untuk menyelidiki mekanisme neurobiologis fundamental [ [ 66 , 67 ] ], untuk mempelajari komorbiditas depresi [ [ 68 , 69 ] ], untuk menguji kandidat obat antidepresan [ [ 14 , 70 ] ], dan dalam lebih banyak konteks. Laporan dengan gambar yang bermasalah tampaknya tidak terisolasi ke salah satu subbidang ini. Masalah tersebut tampaknya memengaruhi neurobiologi praklinis/neurofarmakologi secara luas. Kedua, perkiraan kami untuk makalah yang berpotensi palsu selaras dengan penemuan baru-baru ini. Ada beberapa investigasi yang telah menggunakan pendekatan serupa; Namun, data yang kita ketahui [ [ 17 , 71 – 75 ] ] telah menghasilkan estimasi serupa mengenai prevalensi laporan yang menampilkan gambar bermasalah (meskipun tampaknya kita telah memperoleh salah satu estimasi tertinggi sejauh ini).
Lalu, apa potensi kerusakannya? Berfokus pada sejumlah kecil kasus penipuan yang terkenal dapat memberikan kesan bahwa penelitian palsu digunakan untuk menciptakan temuan yang sensasional—kemajuan besar dalam sel induk manusia yang dikloning [ [ 76 ] ], penemuan superkonduktor baru [ [ 77 ] ], menemukan akar penyebab penyakit Alzheimer [ [ 78 ] ], memanfaatkan kekuatan priming sosial [ [ 79 ] ], dll. Dalam konteks tinjauan sistematis uji coba pada manusia, banyak fokus diberikan pada sejumlah kecil penelitian yang melaporkan efek ekstrem. Bisa dibilang karena alasan yang bagus [ [ 80 , 81 ] ]. Namun, apa yang kami lihat dalam investigasi kami adalah—setidaknya dalam penelitian praklinis—sebagian besar penelitian yang bermasalah (dan di antara mereka, kami berspekulasi, yang palsu) biasa saja. Mereka tidak membuat gelombang; mereka setuju dengan konsensus umum dalam bidang tersebut. Meskipun kami menemukan bahwa laporan dengan gambar yang bermasalah menunjukkan ukuran efek yang lebih tinggi dari rata-rata, itu bukanlah yang tertinggi. Dapat dikatakan bahwa laporan-laporan ini merupakan masalah yang sama besarnya, karena tidak dapat dengan mudah dideteksi. Bahkan jika studi-studi individual tidak menyajikan temuan-temuan hiperbolik, mereka mengaburkan masalah, membuat efek yang sebenarnya lebih sulit untuk diperkirakan dengan akurat. Dalam konteks studi-studi depresi praklinis, kita sudah harus berhadapan dengan bukti-bukti bias publikasi [ [ 12 ] ] dan efek-efek yang dibesar-besarkan [ [ 82 ] ]. Studi-studi palsu yang menyetujui efek-efek yang dibesar-besarkan ini akan membuat temuan-temuan yang salah menjadi sulit, jika tidak mustahil, untuk dibatalkan. Dapat ditunjukkan bahwa sifat sains yang ‘mengoreksi diri sendiri’ adalah—paling banter—sangat lambat [ [ 83 , 84 ] ]. Makalah-makalah yang bermasalah dapat berfungsi untuk menggagalkan proses ini sepenuhnya.
Jalan pintas sederhana untuk menentukan keandalan sebuah laporan tampaknya tidak ada. Kita mungkin tergoda untuk mengandalkan studi yang sering dikutip di masa lalu. Namun, kutipan lebih cenderung mencerminkan apakah hasil studi tersebut sesuai—misalnya, dengan menyesuaikan narasi atau teori tertentu—daripada menjadi metrik kualitas metodologis, ketelitian teoretis, atau kebenaran secara keseluruhan. Kita mungkin menaruh harapan pada integritas jurnal-jurnal yang terhormat. Namun, sekali lagi, kita mungkin akan disesatkan. Sementara jurnal dengan faktor dampak yang lebih tinggi tampaknya cenderung tidak menerbitkan studi dengan gambar yang bermasalah [ [ 17 ] ], investigasi kami menunjukkan bahwa diterbitkan dalam jurnal dengan dampak yang lebih tinggi bukanlah jaminan integritas sebuah makalah. Kehadiran elemen-elemen yang dapat mencegah penerbitan makalah palsu dalam jurnal—editor dengan integritas, peninjau sejawat yang kompeten, dan spesialis integritas penelitian yang proaktif dan memiliki sumber daya yang baik—tidak dibuat transparan bagi kita—para pembaca—dalam bentuk metrik sederhana. Pada akhirnya, setiap studi harus dinilai berdasarkan manfaatnya sendiri.
Saat ini, Cochrane berpendapat dalam pedoman mereka bahwa studi yang ditarik harus dikecualikan dari tinjauan sistematis [ [ 85 ] ]. Kami berpendapat bahwa ini tidak cukup. Penarikan jurnal terjadi dengan kecepatan yang sangat lambat, dan protes penulis terkadang cukup untuk mencegahnya sama sekali [ [ 86 – 88 ] ]. Sementara editor dan spesialis integritas penelitian dengan penerbit dan universitas dapat menggunakan alat yang komprehensif (seperti daftar periksa REAPPRAISED [ [ 89 ] ], dan mungkin alat INSPECT-SR yang sedang dikembangkan [ [ 90 , 91 ] ]) untuk menginterogasi makalah yang berpotensi bermasalah, peneliti individu yang terlibat dalam sintesis bukti tidak memiliki sumber daya. Komunitas ilmiah tidak mampu bertindak selambat industri yang menerbitkan laporan kami. Kemampuan kami untuk secara kolaboratif menemukan penyebab yang mendasari penyakit dan pengobatan yang mujarab untuknya di bidang kedokteran praklinis dirusak oleh bukti yang dipalsukan dan dibuat-buat. Kami berpendapat bahwa laporan apa pun yang menampilkan duplikasi gambar yang tidak pantas—apa pun jenis duplikasinya—harus dikecualikan dari sintesis bukti baik dalam meta-analisis maupun tinjauan sistematis. Mungkin tampak tidak disarankan dan berlebihan untuk mengecualikan studi penting dari tinjauan sistematis hanya karena kesalahan terkait gambarnya. Namun, kita harus ingat bahwa mudah untuk mengoreksi publikasi ketika duplikasi berasal dari kesalahan yang jujur jika penulis dapat memberikan laporan yang transparan tentang apa yang telah terjadi, bagaimana hal ini memengaruhi hasil, dan memberikan laporan yang diperbaiki. Jika kita ingin mempertahankan status tinjauan sistematis sebagai puncak bukti penelitian, langkah drastis harus diambil untuk memerangi masuknya studi yang berpotensi curang. Menempatkan tanggung jawab kepada penulis untuk mengoreksi laporan mereka jika akan dijadikan bagian dari basis bukti bidang penelitian tampaknya bukan pendekatan yang tidak masuk akal bagi kami. Untuk waktu yang lama, kita telah bekerja keras dengan asumsi bahwa laporan yang tidak jujur hampir tidak ada. Kebenaran yang tidak menguntungkan adalah bahwa ini bukanlah posisi yang dapat kita pertahankan.