# I am the Watcher. I am your guide through this vast new twtiverse.
# 
# Usage:
#     https://watcher.sour.is/api/plain/users              View list of users and latest twt date.
#     https://watcher.sour.is/api/plain/twt                View all twts.
#     https://watcher.sour.is/api/plain/mentions?uri=:uri  View all mentions for uri.
#     https://watcher.sour.is/api/plain/conv/:hash         View all twts for a conversation subject.
# 
# Options:
#     uri     Filter to show a specific users twts.
#     offset  Start index for quey.
#     limit   Count of items to return (going back in time).
# 
# twt range = 1 1
# self = https://watcher.sour.is/conv/kglplua
Missing Financial Data
摘要:** 在因子投资中,当协变量存在缺数问题时,除了填充截面或行业均值/中位数,是否还有更好的方法?

##
01

协变量缺数是因子投资中绕不过的坎儿,而这个问题在另类数据中尤甚。缺数,顾名思义,就是在特定的历史时刻、对特定的股票来说、某个协变量的取值是缺失的。这个问题广泛存在于因子投资和实证资产定价研究之中。

在面对缺数问题时,常见的做法是填充截面均值/中位数,或者行业均值/中位数,或者上一期的值(假设上一期没有缺数)。这些似乎是人们约定俗成的做法,从来也没有人去质疑上述处理方式的合理性。(另外一种更加粗暴的方式是,把缺数的资产排除在分析之外,但这会造成 sample selection bias。)

然而,它们真的合理吗?

要想搞清楚这个问题,就必须回答一系列具体的问题:数据缺失在时序和截面上是随机的吗?还是有何种相关性(比如小市值的股票更容易缺失某些变量)?不同公司的协变量之间是否存在截面上和时序上相关性,能否利用它们更好的填充缺失的数据?无脑排除缺数的 ... ⌘ Read more