初学计量时整理的一些stata命令(之二)

文/拔毛哥

本号曾发布过这么一篇推文

【集腋成裘】初学计量时整理的一些stata命令

当时的初衷是利用QQ空间日志,记录stata操作中遇到的困难及解决之道。一晃又过去很久,翻开QQ,发现《集腋成裘》又积了不少。今天权且再发布一篇“之二”吧。

39.分组统计

bys 农村:tab 变量

40.数据乱码处理

clear

unicode analyze CLDS2016individual_(STATA)_171106.dta

unicode encoding set gb18030

unicode translate "CLDS2016individual_(STATA)_171106.dta", transutf8

unicode translate "CLDS2016individual_(STATA)_171106.dta"

unicode translate "CLDS2016individual_(STATA)_171106.dta", invalid(ignore)
41.改变变量名第一种方法:编辑器里改动第二种方法: rename 原名称 现名称

42,提取字符(split命令)

日期:2017/1/12

split(日期), parse(/)
提取年月日
43,字符型转化为数值型destring 日, replace
对本身只有数值的原变量才有效
44,表格输出——asdoc
具体方法见:https://zhuanlan.zhihu.com/p/47910987
45,office for mac崩溃丢失文件

第一步:打开finder

第二步:按command+shift+g,打开文件夹路径输入框

第三步:输入路径:~/Library/Containers/com.microsoft.Word/Data/Library/Preferences/AutoRecovery/前往word自动恢复文件夹。

第四步:找到之前丢失的文档了,但是点击后发现打不开,提醒文件格式与文件扩展名不符。不要急,将后缀改成.doc。

第五步:打开文档,按照自己的心意继续编辑或者另存为.docx
46,stata命令界面找不见了

window-review
47,excel数据首行美观显示

ctrl+T(mac下为command)
48,单元格快速复制快捷键

ctrl+D(mac下为command)
49,excel数据复制粘贴导入stata editor编辑器,经常会出现乱入的引号标点形成特殊乱码。

解决方案是,在stata编辑器中赋值具体数据值或文字,然后粘贴入excel再重新导入。

50,首列标签冻结:excel表格的数据往往有几十行,往下翻页时,位于前几行的数据标签名称就会消失,

非常不方便读取。

解决方案:可以在“布局-窗口”中选择冻结首列窗口。

51,stata数据中,发现一个id对应两个时间的情况,如何快速锁定对应数据?

tab id year 或 tab year id 找“2”。
52,第51条,可以使用更简单的stata duplicates命令

duplicates report year id——检查重复

duplicates examples year id——显示具体的重复虽然有强制处理命令——duplicates drop id year, force
但如果重复值很少可以先手动检查、修正
53,导入数据设定为面板——xtset id year

54,word for mac如何去除“回车键”?——“视图-段落标记”

54,字符型变量的转化

stata——data——create or change data——other variable-transformation commands——encode value labels from string variables
encode 类别, generate(类别)
55,截尾与缩尾

缩尾——winsor2 wage, replace cuts(1 99)

截尾——winsor2 wage, replace cuts(1 99) trim
56,分组xtile 性别比三组 = 性别比, nq(3)
57,中心化处理center
58,英文文献引注时只引姓。这是基本规范。

59,更改字体后间距发生变化——取消自动右缩。

60,利用cmp命令估计IV-oprobit出现“convergence not achieved”问题如何解决?

使用“difficult”命令,指示ml在失败区域使用其他算法,具体命令——cmp (y=x1 x2 x3)(x1=z1 x2 x3) , ind($cmp_oprobit $cmp_cont) diff nolr
61,IV-oprobit回归结果中的atanhrho如何解读?

辅助估计参数atanhrho显著异于零 (P值都为0) , 表明联立方程模型中两个方程之间存在显著的相关性, 采取条件混合过程进行联立估计比分别单独估计更为有效, 也说明解释变量为内生变量。《出口强度、产品价值链与企业信息化水平——学习效应还是规模经济效应?》《农户正规信贷需求的利率弹性及其异质性分析》
62.取消word回车符:“视图”——“段落标记”

63. ivoprobit模型遭遇“ equation appears ill-conditioned”问题如何解决?

逗号后加入nrtolerance(#) 或 nonrtol 【nrtolerance(1e-5) 】
64. 边际效应导出

estpost margins, dydx(身高) at(身高=(150(1)190))

outreg2 using myfile, replace ctitle(margins1) word dec(3)

65. 多分类变量与连续变量的交互作用简易——reg y x1##c.x2 X1为多分类变量
66. 被解释变量或中介变量为虚拟变量怎么办?

binary_mediation, ldecomp命令
67. ologit模型,平行线假设 brant命令来自spost9包


68.
计算vif值

reg y x

estat vif

69.excel数据显示不全自动换行
70. 快速选定大范围单元格command+A
71. excel快速选定指定列shift+command+下
72,excel数据导入stata,不能使用千位分隔符,否则数据类型为非数值型,string也无能为力,force损失信息


73. stata
计算中位数sum variable,d
return list
74. excel将单元格内某值替换为其他,如果直接使用“替换”功能会导致其他单元格内包含的值全部被替换,所以在替换中应注意点击“单元格匹配”。


75. logout, save(5643678) word replace:tabstat 变量1
变量2, s(N mean p50)

76.stata不等于怎么表示?!=
等于号前面加上“!”

77.参照组设定
ib#. use # as base, #=value of variable
ib(##). use the #th ordered value as base (**)
ib(first). use smallest value as base (the default)
ib(last). use largest value as base
ib(freq). use most frequent value as base
ibn. no base level

78.单侧缩尾winsor wage, gen(wage_wh) p(0.01) highonly

79. Mann-Whitney U
检验是与独立样本t检验相对应的方法,当正态分布、方差齐性等不能达到t检验的要求时,可以使用该检验。


80.
零-均值规范化(z-score标准化) 零-均值规范化也称标准差标准化,经过处理的数据的均值为0,标准差为1

81.工具变量外生性不满足plausexog uci y c1 c2 (x=z), gmin(XXX) gmax(XXX) grid(2) level(.95) vce(robust)
82.计算同县周边社区解释变量均值充当工具变量

egen 乡镇总=sum(X), by(乡镇)

gen 周边均值= 乡镇总 - 社区总
bys s43: gen NN=_N
gen 周边社区人数=NN-N
gen 周边社区信任均值= 周边社区信任 / 周边社区人数
83.PSM
psmatch2 Y C,out( 总体 ) neighbor(1) caliper(.01) ate logit common ties
bootstrap r(att) r(atu) r(ate),reps(100): psmatch2 Y C,out( 总体 ) neighbor(1) caliper(.01) ate logit common ties
84. plausexog检验图输出

81后加 graph(变量) 注意:不用加逗号
85.比较两个分布是否存在显著差异——Kolmogorov-Smirnov检验(K-S检验)

stata命令—— ksmirnov
86.从中间页插入行号

布局-行号-行编号选项-应用于-插入点之后