2011年6月30日星期四

[小红猪]真理在缩水－－现代科学研究方法并不尽善尽美？（下）

譯者：紅色甲殼蟲

校對：橘子

小紅花等級：4朵

原文：點擊這裡

到底怎麼回事呢？

澳大利亞西澳大學的生物學家利西蒙斯（ Leigh Simmons）提出了他自己的解釋。當他跟我討論他曾經對波動性不對稱理論的狂熱時，他說：“我曾經對波動性不對稱感到非常興奮。在早期研究中，波動性不對稱的效果顯得特別顯著。” 當時他決定自己也做幾項研究，來看看天牛的對稱性。“然而不幸的是，我的研究沒有發現波動性不對稱效應，“西蒙斯說，”但最糟糕的是，我的研究結果是“無意義的”，這是很難發表的。因為大多數科學雜誌只想要確定的結果。能確定地證偽一個理論是挺轟動的，如果不能證偽，至少要能確定地支持一個理論。對於西蒙斯來說，竄紅並漸漸過氣的波動性不對稱理論是科學發展模式的一個典型例子：作為一個曾經的學術明星，它既指導又限制了科學研究：當這個學術超新星理論被提出來的時候，論文的同行評議者們總是對陽性結果的作證性論文更寬容。風水輪流轉，曾經的明星理論面臨著身敗名裂的危機，證其為偽的論文開始受歡迎。

與西蒙斯的解釋相似，詹尼恩斯認為遞減效應受了“發表偏見”影響。或者說，科學家和學術論文雜誌編委會更喜歡佐證性的陽性結果而不是“無意義的結果”。1959年，統計學家西奧多斯特林（ Theodore Sterling）確定了“發表偏見”的影響。斯特林發現97％的心理學論文都是有顯著統計學意義的。顯著的統計學意義的解讀是：研究數據是偶然獲得的概率小於5％。這個測試科學研究是否具有”統計學意義”的方法是由英國數學家羅納德費希爾（ Ronald Fisher）在1922年創立的。費希爾選定了5％作為“統計意義”的閾值。也有人認為5％的選擇不過是讓筆算更容易些而已。斯特林認為，97％的心理學論文都在證明假設而不是證偽，說明要麼是心理學發展走狗屎運要麼是學者們只發表陽性結果（譯者，顯然後者的可能性更大）。最近幾年，醫藥界研究人員認為“發表偏見”極大地影響了臨床研究。因為利益驅動的製藥公司不願意發表他們不喜歡的結果：即那些證明藥物效力低或者無效的臨床研究結果。即使那些利益紛爭較少的學科---比如心理學和生態學---也逐漸受到“發表偏見”效應的負面影響。（別忘了，他們也是一群追逐文章數量的悲催團體）

雖然幾乎可以確定“發表偏見”推動了遞減效應的發展，但它並不能解釋一切。比如，某些項目的早期研究結果是陽性的，但並它們從來沒被發表過。顯然這些數據不會受“發表偏見”影響。還有，斯庫勒的悲劇也不能用“發表偏見”解釋。曾經研究波動性不對稱的阿爾伯塔大學生物學家理查德帕爾默（ Richard Palmer）懷疑：有人選擇性匯報數據，帕爾默的主要證據來自一種統計學工具：應用漏斗圖統計分析法。一般而言，某一領域會集中許多研究項目，理論上，這些項目的研究結果是可以按圖索驥的：樣本量大的研究結果集中在一個數值附近；而樣本量較小的研究結果應該是隨機分佈的，因為它們更容易受到抽樣誤差影響。如果用一個點代表一個研究項目的結果，並做出一張二維圖，這些點的分佈有點像一個漏斗。

利用“應用漏斗圖”作圖分析可以直觀地發現“選擇性報告”的影響。帕爾默收集了所有的波動性不對稱研究，並作“應用漏斗圖”分析。他發現小樣本量的研究數值分佈並不隨機，而是向陽性結果的方向劇烈傾斜。帕爾默在其他領域也發現了類似的問題。他說：“當我意識到“選擇性報告”在學術界其實很普遍的時候，我的確很沮喪，做為一個研究學者，你知道總會有一些非隨機因素或多或少地影響研究過程，但你卻不知道這些影響有多大。” 帕爾默最近的一篇綜述文章總結了“選擇報告”效應在他研究領域的影響：“我們不能逃避這個困境：一些，甚至很多被奉為圭臬的“理論”，其生物學意義其實不過是被過分誇大了；最糟則可能僅僅是重複的主觀偏見累計而成的錯覺。

帕爾默總結到，“選擇性報告”效應並不是科學方法的錯誤，而是學者們在努力解釋數據時犯的一種微妙的過失，或者說，是無心的錯覺。斯蒂分傑伊古爾德則把這個過程類比為用鞋拔子穿鞋。西蒙斯說“科學測量過程確實很難。比如波動性不對稱理論的主要內容是觀察動物身體左右兩部分間的微小區別，比如一片尾羽毛上毫米大小的差異。進一步說，很多研究者知道他觀察的雄性個體基因是好的----因為它經常成功交配----所以他們就假定這個y染色體動物的身體是對稱的。所以，波動性不對稱理論的研究很容易受主觀偏見影響。這麼說並不是誠心挑刺，它是人類的自然本性的表現”

這裡有一個典型的“選擇性報告”的案例：即在不同國家進行的針灸實驗。大多數亞洲國家中，針灸的應用和接受度是相當廣泛的。而西方國家中，使用針灸還存在爭議。這點深深影響了針灸臨床實驗。1966到1995年間，中國，台灣，日本等地一共進行了47項針灸研究，而且每一個研究都證明針灸是完全有效的。同一時期，美國，瑞典，英國等西方國家舉行了94項針灸臨床實驗，只有56％的研究得到陽性結果，即針灸作為醫療手段是有效果的。按照帕爾默的假設，針灸臨床實驗結果的分歧佐證了一個推測：科學家總想證明他們喜歡的假設，並且選擇性地忽視掉不喜歡的假設。所以說，我們的信念是盲從的

斯坦福大學的流行病學家約翰 ·艾奧尼迪斯（John Ioannidis）認為，選擇性報告等主觀傾向極大地影響了生物醫學研究。他說“這些解釋了遞減效應廣泛發生的原因。其實如果初始的研究給了一個準確的結論就夠了，但是現實往往事與願違。而現在，由於被前期論文結果誤導，我們浪費了很多財力在醫療和追蹤研究上。” 2005年，美國醫學學會期刊上發表了艾奧尼迪斯的一篇文章。這篇文章總結了三大主流醫學雜誌中49篇被引用次數最多的臨床研究文章。其中45％的文章匯報了陽性結果：說明這些項目研究的治療方法是有效的。而且這些研究都是隨機對照實驗--醫學研究的葵花寶典---這些研究結果往往會深刻地影響臨床治療，並讓某些治療方法迅速推廣。比如更年期婦女的激素替代療法，日常服用低劑量阿司匹林以預防心臟病和中風。但是，艾奧尼迪斯得到的數據卻有些令人不安：49篇文章中，34％的研究需要重複實驗驗證，還有41％的研究要麼被後來的研究否定要麼效應量下降。

那些流行的研究課題現狀更糟。比如，最近很流行的一個課題是：男女兩性因基因差異導致的疾病風險差異研究。被研究的基因包括增加精神病風險的突變基因和控制高血壓的基因。流行病學家艾奧尼迪斯和他的同事研究了432個課題，發現大多數研究都有嚴重缺陷。當他調查實驗的重複性的時候，他發現問題更嚴重：432份研究中，只有1個研究被認為是可重複的，艾奧尼迪斯說：“這並不說明所有的研究都是不對的，但因為這些研究做得那麼差，我還是保留意見。”

根據艾奧尼迪斯的說法，主要的原因是很多學者在追求“具有統計學顯著意義”的數據，或者說僅僅是為了那些通過統計學顯著性檢驗的數據找科學解釋而已，即那些通過羅納德費希爾（ Ronald Fisher）設立的95％置信區間檢驗的（就是那個5％的底線的另一種說法）。艾奧尼迪斯說：“科學家急切地希望數據能通過統計學顯著性檢驗，所以他們開始用自己的數據做文章，搜腸刮肚地試圖找到一些看似有道理的科學解釋。” 最近幾年，艾奧尼迪斯開始越來越嚴苛地批判這種風氣。他被引用的最多的一篇文章的標題有些挑釁味道：《為什麼大多數發表的論文都是假的》。

“選擇性報告”其實源於人類的基礎認知缺陷：因為我們喜歡被證明正確而不喜歡被證明錯誤。艾奧尼迪斯說：“證明一個假設為真的感覺真的是太好了——特別是當你的職業發展和個人經濟條件都與這個新發現有關的時候。這就是為什麼，一個假設被系統地證明為偽，你還是能看到一些不到黃河不死心的頑固學究引用早期研究文章的顯著性陽性結果，因為他們想相信這個假設是對的。” 比如，現在仍有很多人執著於激素替代療法或者那些維生素功能的研究。

所以斯庫勒認為，發表文章之前學者必須更嚴格地收集數據。他說，“我們為追蹤過去那些不完善的研究和設計缺陷的科研項目浪費了太多時間。我們對重複性驗證的糾纏不休，正干擾我們解決真正的問題。” 斯庫勒解釋說，很少有人嘗試去重複研究那些已發表的論文，因為數量太大了。（《自然》雜誌說，迄今為止，三分之一的論文從來沒有被引用過，更別說被其他重複性驗證了）。斯庫勒說，“ 我學到的教訓是：研究中必須一直很小心。所以，每一個研究者應該提前說明他們的實驗設計，比如：將用多少被試，他們的測試項目是什麼，有效論證數據應該由什麼組成。這樣，我們的實驗研究才會更透明。”

斯庫勒的下一篇論文將建議建立一個開放數據庫。這個數據庫要求科研人員們概述實驗設計並記錄所有的數據。斯庫勒說，“我認為建立了這個數據庫，會提高科學研究工作的門檻，也會讓我們更好地判斷實驗質量，這個平台能最終幫我們解決遞減效應造成的問題”。

這些建議可能會減輕“發表偏見”和“選擇性報告”的影響，但這些並不能完全消除遞減效應。因為科學研究其實更多地被一些人力不可控制的力量影響：比如，不能做到100％純粹的隨機取樣研究。目前關於研究中隨機和偶然事件的負面影響的研究並不多，現存的相關研究也並沒有解決問題。

1990年代，俄勒岡衛生科技大學的生物學家約翰克拉布（ John Crabbe）通過實驗證明，未知隨機因素的確可以顛覆重複性驗證的可靠度。約翰克拉布在三個不同的實驗室——分別位於美國紐約州的奧爾巴尼，俄勒岡洲的波特蘭，加拿大亞伯達省埃德蒙頓市——做了同一系列的實驗研究老鼠行為。實驗啟動之前，克拉布嘗試把所有他能想到的變量都調整成一模一樣的。比如，老鼠是一個品系的近親，同一天從同一個供貨商出發，它們在一樣的環境中長大；老鼠住的盒子底層鋪的鋸末是同一個牌子；螢光燈的照明量是一樣的；每一窩老鼠的數量是一樣的；飼料的量和品種也是一樣的；接觸老鼠時戴的手套是同一個牌子；測試的設備也一樣，測試研究的時間都是在早上的同一時間。

這個實驗的預期就是每個實驗室的獨立實驗能得到相同的結果，克拉布說：“如果真的有一種實驗設計能通過所有的（可信度）檢驗，那必然將是這次，但事與願違。”按照實驗設計，克拉布給被試老鼠注射了可卡因。老鼠嗑藥後會很興奮，活動量會增加，研究人員測量老鼠活動的距離來衡量活動量，即興奮程度。實驗的結果是：在波特蘭嗑藥的老鼠比平時多活動了600釐米，而它們在奧爾巴尼的親戚則多運動了701釐米，但是在加拿大埃德蒙頓市嗑藥的老鼠則比正常狀態多活動了5000釐米（沒錯，三個零）。而後續的老鼠焦慮行為實驗，也出現了相似的問題。而且這些出入並不能用已知的理論解釋：在波特蘭實驗室中表現得最焦慮的老鼠是一個品系，而在奧爾巴尼確是另一種。

克拉布的實驗很不厚道地指明了一點：很多名聲一時的數據不過無意義的背景噪音。埃德蒙頓市“藥來瘋”老鼠的過分活躍並不能證明什麼：這組數據不過是一個無意義的離群數據；一個被未知變量所影響的副產物。問題是，這個數據很有可能發表在有聲望的雜誌上，因為這個結果又驚異又具有“顯著的統計學意義”。可以想像，這個數據發表後，很多跟屁蟲會出現，然後申請經費，進行後續研究什麼的。這可能導致科學上的錯誤，指不定多少年才會被人發現。

所以說，所謂“遞減效應”不過是錯覺的遞減。卡爾波普爵士（Sir Karl Popper）認為一個確定的實驗就可以證偽一條理論，比如伽利略用一個下午就推翻了亞里士多德力學，可現實中的情形卻更為複雜。更糟糕的是，很多被多次證偽的假設依然被視為正確的：語言屏蔽效應也許遭遇了遞減效應，但它的影響力並沒有“被遞減”。除了本文開頭討論的第二代抗精神病類藥物，遞減效應也影響了物理學研究：1969到2001年，物理學家發現中子衰減時的弱耦合比率已經降低了10個標準偏差；萬有引力似乎不再“萬有”：物理學家曾在美國內華達的沙漠鑽深洞研究萬有引力，得到的實驗數據與理論值有2.5%的偏差。但是，第二代抗精神病藥物依然廣泛地用於治療，中子模型也沒有變。萬有引力理論依然是原來的樣子。

這些不正常的結果都展現了經驗主義變化多端的一面。儘管一些科學假設最終走向效應量下降或者自我矛盾的死胡同，它們還是被寫進了教科書，並左右當今的醫療準則。為什麼？因為這些觀念看起來是“正確的”。因為它們“有道理”。因為拋棄這些我們的代價會很大。這才是遞減效應非常棘手的原因。不是因為遞減效應揭露出科研中的人類天性犯下的錯誤：比如數據被調整，主觀偏見影響客觀結果（科學家也是人，他們犯這種錯誤並不奇怪）；也不是因為遞減效應打破了我們誤信的“真理”的光輝。（這種想法可以上溯至科學哲學家托馬斯庫恩（Thomas Kuhn）對科學概念演化的思考）。遞減效應之所以棘手也因為它提醒了學者：想證明一個理論是有多難。我們喜歡假裝認為我們的實驗證明了真理，事實證明這不過是我們的一廂情願。真理並不一定會被證明，被證明為真的假設也並不一定是真理。分析實驗數據時，我們還是得做出選擇：到底該相信什麼。

沒有留言:

發佈留言

訂閱：發佈留言 (Atom)

科學、醫學、電腦、經濟、時事、歷史及宗哲相關新聞文章轉貼站

網頁

2011年6月30日星期四

[小红猪]真理在缩水－－现代科学研究方法并不尽善尽美？（下）

到底怎麼回事呢？

沒有留言:

發佈留言