【stata】基础指令——学习教程全记录

发布网友 发布时间:2025-01-12 21:59

我来回答

1个回答

热心网友 时间:2天前

本文旨在记录和总结使用Stata时的基础指令,内容将持续更新。

在处理数据集时,首先需要全面了解其基本情况。

使用describe命令可以查看数据集的概览,包括样本数量、变量数量、大小以及各标量的简要介绍。

如果只对特定变量感兴趣,可以使用describe varlist命令查看。

通过describe,short可以快速查看数据集的总体概况。

使用count命令可获取数据行的数量。

当需要检查某个变量是否存在缺失值时,可以使用count if missing()进行条件查询。

判断变量是否唯一标识数据,即检查主属性,可以使用isid()命令。

若需获取重复值数据量与唯一值数据量的对比信息,可先安装unique命令,然后使用该命令。

codebook指令适合初次接触数据集时查看信息,它会展示变量的类型、标签、范围、单位、特异值、缺失值以及统计量等,从而对变量有一个初步认识。

具体调用codebook [varlist][if][in][,options]时,参数varlist用于指定变量名单,if用于逻辑判断,in用于指定观测值范围。

例如,in 10/100表示第10至第100个观测值,in 10表示第10个观测值,in 10/l表示从第10个到最后一观测值,in f/10则表示从第一个到第10个观测值。

自定义选项可以通过options参数进行调整,具体详情可以通过help codebook命令查看。

使用summarize[varlist] [if] [weight] [,options]可以输出变量的摘要统计信息,如平均值、标准偏差、最小值、最大值。

在summarize、sum、summ命令之间切换时,需参照帮助文档进行。

直方图histogram则用于展示变量的分布情况,可通过histogram varname [if] [in] [weight] [,[continuous_opts| discrete_opts] options]调用,其中varname指明变量。

绘制直方图时,可以设置宽度、开始值、直方组数等参数。例如:连续变量和离散变量的直方图分别如图所示。

在histogram命令后添加density plots可以拟合数据分布,具体实现方式请参照实例。

箱线图graph box/hbox则能直观识别数据批中的异常值,通过四分位数和四分位距判断异常值,适用于识别数据的偏态和尾重,并比较不同批次数据的形状。

异常值的定义为低于Q1-1.5IQR或高于Q3+1.5IQR的值,其中IQR为上四分位数与下四分位数之差。

小提琴图vioplot则展示了数据分布及其概率密度,但需先使用ssc install vioplot命令进行安装。

具体调用vioplot varlist [if] [in] [weight] [,option]时,同样需参照帮助文档进行参数设置。

本文总结了在使用Stata处理数据集时的基础指令及其用途,内容将持续更新,以期提供更全面的指导。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com