編輯導語:數(shù)據(jù)統(tǒng)計分析是各行業(yè)的常見業(yè)務,此時如果能提升數(shù)據(jù)分析的效率,將可以為業(yè)務人員降低操作成本,比如在數(shù)據(jù)導出時,我們是否能實現(xiàn)自定義導出,快速整理目標字段?本篇文章里,作者結合醫(yī)療場景,對數(shù)據(jù)自定義導出一事做了解讀,一起來看一下。
一、背景
醫(yī)學科研是醫(yī)學進步的動力。通過科學的方法對醫(yī)學數(shù)據(jù)進行整理分析,進而得出醫(yī)學中的診療規(guī)律,并應用于相同病癥的患者,進而提高患者的治愈率。
患者的診療數(shù)據(jù)存儲于醫(yī)院的信息系統(tǒng)中。由于醫(yī)院信息系統(tǒng)并未提供醫(yī)學科研相關的分析工具,所以需要使用專業(yè)的分析軟件對數(shù)據(jù)進行統(tǒng)計分析。
首先,通過搜索功能找到符合要求的患者記錄。然后,設法將科研相關的字段導出。
如果人工將數(shù)據(jù)導出,那么操作過程將會變成如下過程:從患者列表逐個進入患者詳情,從患者詳情中找到目標數(shù)據(jù)。
如果科研的數(shù)據(jù)涉及到多種業(yè)務,那么在同一條患者記錄內(nèi)部,就需要跨多張表單查找目標數(shù)據(jù)。并手動復制粘貼到系統(tǒng)外的Excel表格中。
整個數(shù)據(jù)導出過程中涉及多次打開系統(tǒng)、關閉系統(tǒng),打開表單、關閉表單,在表單內(nèi)查找目標字段,耗費了大量的時間成本,還存在數(shù)據(jù)粘貼在錯誤位置的可能。
如何能夠快速將目標字段整理出來?就是我們今天討論的主題——數(shù)據(jù)自定義導出。
二、數(shù)據(jù)自定義導出
數(shù)據(jù)自定義導出,指的是從變量池中根據(jù)需求選中符合要求的目標變量,以某種格式的文件一次性從系統(tǒng)中全部導出。
例如,系統(tǒng)提供600 個變量可用于數(shù)據(jù)導出。在做胃部分切除術相關的研究時,從中選擇了30個字段導出為CSV文件。
其中, “600 個變量”就是“變量池”,指的是系統(tǒng)中允許被導出的所有字段。
- “30 個字段”就是“目標變量”,指的是本次需要導出的變量。
- “CSV 文件”就是“某種格式的文件”,指的是以數(shù)據(jù)導出后的使用目的為導向,生成相應格式的文件。
- “從 600 個變量里根據(jù)需求選擇了 30 個變量”,即“自定義”,指的是用戶可以根據(jù)需要從變量池中選擇任何變量,并且變量數(shù)量不受限制。
首先,將不同業(yè)務內(nèi)、不同表單內(nèi)的導出頻率高的字段組合在一起形成變量池。省去查找目標字段時的,表單切換和表單閱讀的時間。
然后,將在數(shù)據(jù)導出時,對數(shù)據(jù)格式進行處理,使其滿足目標軟件的要求,然后將導出后的數(shù)據(jù)直接導入到目標軟件中。縮短了數(shù)據(jù)格式進一步加工的時間。
通過這兩步,大大提高數(shù)據(jù)導出的效率。
1. 變量池
醫(yī)療業(yè)務復雜,一個人無法處理所有的業(yè)務,所以需要將業(yè)務拆分成不同的部分,由不同的專業(yè)人員負責不同的業(yè)務范圍,只有這樣才能讓系統(tǒng)正常運行。
例如,張技師和王技師分別負責實驗室檢驗部分和影像檢查部分的業(yè)務。如果張技師去負責影像檢查部分的業(yè)務,由于對影像業(yè)務的完全不熟悉,該段時間內(nèi)的影像檢查部分的業(yè)務將停滯。與之相關的業(yè)務都將收到影響。
醫(yī)院信息系統(tǒng)中與患者診療相關的系統(tǒng)包括門急診電子病歷系統(tǒng)、住院電子病歷系統(tǒng)、實驗室檢驗系統(tǒng)、影像學檢查系統(tǒng)、手術麻醉系統(tǒng)等系統(tǒng)。
住院電子病歷系統(tǒng)中包括住院醫(yī)生工作站、住院護士工作站、病案管理工作站等,存儲了患者的長臨醫(yī)囑、用藥信息、日常病程記錄、既往病史、家族史等信息。
不同的模塊、不同的表單存放不同的患者信息。查找需要導出的字段時,需要翻閱不同的系統(tǒng),在系統(tǒng)內(nèi)部切換不同的表單,在表單中找到需要導出的字段。整個過程耗費大量時間,嚴重影響字段查找效率。
例如,導出患者胃部分切除術手術及手術前后的相關信息,則需要前往手麻系統(tǒng)、電子病歷系統(tǒng)、檢查系統(tǒng)、檢驗系統(tǒng)等。在某個子系統(tǒng)中,仍然需要找到患者,并且進入患者詳情找到對應表單內(nèi)容。整個過程耗費大量時間。
有沒有一種可能將可能用于導出的字段放在一起,不需要切換系統(tǒng)、表單逐個查找。
變量池就是將不同業(yè)務系統(tǒng)、不同表單中可能會用于導出的字段名稱放在一起。
變量池具備字段數(shù)量多、字段多值性的特點。
1)字段數(shù)量多
字段數(shù)量多,指的是可以用于導出的字段數(shù)量比較大。
出現(xiàn)這種情況的原因是,不同科室在做數(shù)據(jù)分析時關注的重點不同,需要導出的字段不完全一致。為了滿足這么多的導出需求,就需要把可能涉及到的字段全部放在變量池中。
一個分析方向可能會導出二三十個變量,需要支持幾十個可能的分析方向。對字段進行去重以后,變量池內(nèi)的字段數(shù)量同樣也會達到幾百個。
變量池內(nèi)字段較多時,通過人眼從中找到某一個字段,耗時較長。
可以按照字段所屬業(yè)務系統(tǒng)、所在業(yè)務表單對字段進行分組。直接選中目標字段所在表單,縮小字段查找范圍,提高字段查找效率。
也可以通過搜索功能,通過輸入目標變量的字段名,直接定位到目標變量所在位置,提高字段查找的效率。
例如,為了支持肝臟介入科的數(shù)據(jù)分析工作,將可能用到的字段進行整理,共計整理出 300 個字段(下圖字段僅做示例)。
將字段按照所在表單進行劃分人口學、現(xiàn)病史、檢驗、手術,可以通過點擊左側的表單列表,將字段的范圍縮小到幾十個變量。也可以在搜索框內(nèi)輸入字段名,直接定位到該字段的位置。
2)字段的多值性
字段的多值性,指的是同一個患者的同一個字段會有多個結果。
例如,張三的血常規(guī)中的白細胞計數(shù)字段有 11 個結果。
產(chǎn)生字段多值的原因是,患者癥狀在變化。為了讓記錄不斷變化的病情,需要做多次檢驗檢查,并據(jù)此調(diào)整治療方案,最終產(chǎn)生了多個值。
例如,患者張三隨著放療的進行,身體狀況在不斷變化。通過檢驗檢查等手段來測量身體的各項指標。放療 2 個月,共做了 7 次檢驗。使得檢驗部分的字段產(chǎn)生了 多次結果。
而研究時往往關注患者在某個狀態(tài)下的指標情況,即從眾多結果中找到某一個特定的結果。
例如,研究胃部分切除術的情況時,需要了解術后第一次白細胞計數(shù)的結果。此時就需要精準的找到患者的該次白細胞計數(shù)的值。
所以就需要給具有多值性的字段增加一個限定條件。
常見的限定條件有:
- 針對數(shù)值型字段有全部、最大值、最小值、最早一次、最近一次、平均值。
- 針對文本型、選項型日期型字段有全部、最早一次、最晚一次。
上述說的限定條件都有一個默認前提,“在所有的時間范圍內(nèi)”,即在患者的整個就醫(yī)時間范圍內(nèi),但是實際研究中,我們可能需要的是患者在某個特定時間內(nèi)某個狀態(tài)的結果。
例如,需要患者在“最近一次胃部分切除術后的第一次白細胞計數(shù)結果”。其中,特定時間值得是“最近一次胃部分切除術后的所有時間”。
此時需要先找到該患者的最近一次,胃部分切除術的時間點,最后以該時間為基準時間點。然后去所有的血常規(guī)檢查中查找白細胞計數(shù)。根據(jù)血常規(guī)的檢查時間,定位到具體的某一次結果。
這種限定類型稱之為“事件-時間”型,即先通過某一個具體的事件,以該事件發(fā)生的時間點作為基準,在該基準前 / 后某段時間范圍內(nèi),目標字段的特定值。常見的事件有“放療、化療、手術、用藥、臨床診斷、病理診斷等”。
2. 特定的數(shù)據(jù)格式
科研的需求一直存在,為了滿足科研需求,專業(yè)統(tǒng)計分析軟件應運而生,并逐步發(fā)展。常用的軟件有spss、SAS、R等。其中SPSS從1984年開始發(fā)展,到2009年已經(jīng)將數(shù)據(jù)管理、數(shù)據(jù)分析做到非常完善的地步。
而2009年,中國首次將醫(yī)療衛(wèi)生信息化定性為支撐改革的支柱,在國家級層面提出發(fā)展信息化的要求。此后醫(yī)院信息化軟件迅速發(fā)展,前期以業(yè)務信息化為主。2014年才開始重點轉(zhuǎn)移到健康數(shù)據(jù)上。
如果此時醫(yī)院信息系統(tǒng)再集成或者開發(fā)統(tǒng)計分析軟件,需要投入大量的金錢和精力,而且醫(yī)生的接受度如何都是未知數(shù)。醫(yī)院自行開發(fā)或采購的意義都變得不大。
造成了現(xiàn)在的情況,醫(yī)院現(xiàn)有的軟件系統(tǒng)中醫(yī)學統(tǒng)計分析部分缺失,統(tǒng)計分析工作需要在專業(yè)統(tǒng)計分析軟件中完成的。所以當醫(yī)生想要做醫(yī)學統(tǒng)計分析時,就需要將數(shù)據(jù)從在醫(yī)院信息系統(tǒng)中導出。
數(shù)據(jù)導出后,需要手動對數(shù)據(jù)格式處理,才可以滿足目標軟件的需要,浪費醫(yī)生的時間。
怎么才能讓數(shù)據(jù)導出后,不需要額外的數(shù)據(jù)處理,直接被目標軟件所使用,從而減少醫(yī)生時間的浪費。
在數(shù)據(jù)導出時,由系統(tǒng)完成數(shù)據(jù)格式處理的工作,數(shù)據(jù)被導出后可以直接導入分析軟件,從而節(jié)約數(shù)據(jù)處理的時間。
在數(shù)據(jù)導出時,根據(jù)目標軟件的需要,生成特定數(shù)據(jù)格式的文件。數(shù)據(jù)文件被導出后可以直接導入分析軟件,從而節(jié)約數(shù)據(jù)處理的時間。
特定的數(shù)據(jù)格式,指的是醫(yī)療信息系統(tǒng)往統(tǒng)計分析軟件傳輸數(shù)據(jù)時,按照統(tǒng)計分析軟件對數(shù)據(jù)格式的要求生成數(shù)據(jù)。
以將數(shù)據(jù)導入spss分析為例。
spss對導入數(shù)據(jù)有以下要求:
- 文件格式為Excel或csv。
- 同一個案的數(shù)據(jù)要單獨占一行。
- 每一個測量指標只占一列。
- 測量指標的結果為數(shù)值型。
如果導入的數(shù)據(jù)不符合要求,則數(shù)據(jù)導入失敗,需要手動對數(shù)據(jù)進行調(diào)整,然后再重新導入。
為了保證數(shù)據(jù)能夠直接導入spss中。導出的數(shù)據(jù)需要滿足:
- 文件格式為Excel或csv。
- Excel中同一個案的數(shù)據(jù)要在一行,每一個測量指標占一列。
- 確保數(shù)值型字段的數(shù)據(jù)類型為數(shù)字,而不是文本。
- 將枚舉型的值替換成數(shù)字。
系統(tǒng)將處理好格式的數(shù)據(jù),以Excel文件的形式傳遞給前端頁面。用戶將文件下載下來以后,直接導入spss做分析工作。
三、總結
由于醫(yī)療信息化和專業(yè)統(tǒng)計軟件的發(fā)展速度不均衡,造成了醫(yī)院信息系統(tǒng)與統(tǒng)計分析軟件互不相通。所以醫(yī)學數(shù)據(jù)統(tǒng)計分析時,需要先數(shù)據(jù)導出,再導入分析軟件。
2014年,中國提出“46312”計劃,開展“健康中國云服務計劃”,國內(nèi)的醫(yī)療大數(shù)據(jù)產(chǎn)品迅速崛起。臨床大數(shù)據(jù)公司紛紛成立,醫(yī)院開始建設臨床數(shù)據(jù)中心。醫(yī)院信息化從業(yè)務信息化發(fā)展到臨床數(shù)據(jù)精細化。
各大數(shù)據(jù)平臺不僅開始增加傳統(tǒng)的統(tǒng)計分析工具,也增加了基于深度學習、機器學習的的新的分析方法。這使得我們可以在大數(shù)據(jù)平臺中完成統(tǒng)計分析工作。不過易用性、使用習慣仍需要不斷打磨。
相信不遠的將來,再做醫(yī)學數(shù)據(jù)統(tǒng)計分析時,可以在院內(nèi)大數(shù)據(jù)平臺中,無縫完成數(shù)據(jù)分析工作,不再需要將數(shù)據(jù)導出。
PS:與之前完成的數(shù)據(jù)的高級搜索剛好組成一體,通過高級檢索搜索到目標患者,然后將需要的字段導出。
本文由 @山南 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Pexels,基于 CC0 協(xié)議
版權聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 舉報,一經(jīng)查實,本站將立刻刪除。