一般而言,量化投資可粗略分為六個環節:收集數據、數據清洗、特征提取、模型開發、組合優化、交易執行。數據收集和處理是量化投資中必不可少的環節,理解金融數據的復雜性及數據處理的重要性,對認識量化投資具有重要意義。
Q45:如何理解金融數據的復雜性,它有哪些主要特點?
(一)低信噪比
金融數據中噪音比例高,提取有效信號的難度較大,模型如果調整不夠得當,就容易學習“噪音”。由于這一特性,量化投資在模型開發和調校時尤其強調避免過擬合,處理金融數據時格外注重邏輯。以A股為例,不同股票具有不同漲跌停規則,此外新股上市以及復牌等行為都需要特殊處理,故而需要在邏輯的基礎上對信息進行合理的挖掘、過濾、組合。
(二)時序單調性
證券交易數據等時間序列有時序性(時間不可倒流),且金融市場時刻存在博弈,規律具有時變特性。量化投資方法論的目的是用歷史數據預測未來,所以一定要避免未來信息的引入,并合理評估歷史回測。
Q46:金融數據可以如何分類?
(一)按照數據格式分:
(1)標準化數據
常見的是截面、時間序列等數值類型數據,如交易所原始數據、原始行情及各類衍生出的價格、交易量、K線圖等。普通投資者在炒股軟件上看的分時圖、K線圖等數據也都衍生于交易所的原始數據,這些較為干凈的數據被稱為“標準化數據”。
(2)非標準化數據
以文本數據為主,包括財經新聞、財經論壇問答、賣方分析師投資報告、第三方機構提供的特殊數據等。這些數據里低相關非重大信息占比高,相比標準化數據會更復雜一些,所以被稱為“非標準化數據”。為應用于量化策略開發,必須先對其進行數據清洗等結構化處理。
(二)按照數據來源分:
(1)價量數據
價量數據包括一切能從市場交易行為中提取的信息,不局限于股票及其他資產的價格,以及衍生的各項技術類指標。包括日間量價數據(日K)、日內量價數據(分時數據)、逐筆數據(股票的每筆成交和掛單數據)。其中日內量價數據的體量是日間量價數據的幾百到幾千倍,逐筆數據的體量可以是日間量價數據的萬倍以上。
(2)基本面數據
既包括宏觀基本面、產業鏈上下游發展、行業發展趨勢等,也包括上市公司的財務報表如資產負債表、利潤表、現金流量表等。主觀投資在獲取及處理基本面數據上擁有明顯的相對優勢,通過深度調研還可獲取非公開非結構化信息。
(3)事件驅動數據
通過預測市場對特定事件的反應不足或過度反應,判斷股票價格變化以獲取超額回報。在金融領域,“事件”通常指“可能在短期導致投資者預期發生變化、對公司的基本面或其股票價格產生重大影響的情況”,比如股票回購和股東增持等。
(4)另類數據
另類數據是個相對的概念——當某種另類數據逐漸被市場上大部分參與者所接納和使用時,就不再“另類”。目前來看,另類數據包括所有投資研究中使用的非傳統來源的新型數據,如ESG數據、社交媒體評論、衛星圖像、移動設備數據、應用程序使用情況、互聯網搜索記錄和消費者交易數據等。
一般而言,數據點及結構化數據越多,越有利于量化投資進行建模。目前國內主流量化私募的模型中價量因子占比較高,同時持續對基本面因子深入研究。隨著量化行業的持續發展,未來各類因子都會提供非常重要的貢獻。
Q47:國內對另類數據的研究和運用情況如何?
另類數據研究在海外已擁有較為成熟的應用。另類投資管理協會(AIMA)與金融科技公司SS&C合作發布的報告顯示,目前全球活躍的另類數據供應商超過400家,而1990年時只有20家。根據AIMA與美國銀行的聯合調查,目前約有一半的資管機構已在使用另類數據,且這一數量還在不斷增長。
但在國內,由于金融市場發展階段的差異性,具體表現為獲取難度偏大(高價值數據獲取難、易獲取數據質量低)、成本相對較高,非結構化數據的處理技術還不夠成熟等原因,目前另類數據領域仍屬藍海。除了與多家數據第三方保持聯動外,不少主流私募也在以較快的速度不斷搜集、積累和持續探索另類數據,以尋找多元化、差異化的Alpha來源。
Q48:數據清洗和處理的一般步驟有哪些?
數據數量和質量將直接影響最終投資組合表現,其中數據的數量則是制約機器學習模型訓練和預測準確度的關鍵因素。數據清洗和預處理的步驟一般包括:缺失值處理、 重復值處理、數據去極值、 數據中性化(指消除數據中的某些因素對投資策略的影響,從而使策略更具普適性和可靠性。常見的中性化包括市值中性化、行業中性化、風格中性化等)、 數據標準化(如日期可能需要被轉換為特定的格式)等。
(CIS)
校對:劉榕枝