Assigment 5 - ML

docx

School

St. John's University *

*We aren’t endorsed by this school

Course

602

Subject

Statistics

Date

Jan 9, 2024

Type

docx

Pages

Uploaded by lore150

Boston The following objects are masked from ‘package:ISLR’: Auto, Credit > library(MASS) > library(car) Error in library(car) : there is no package called ‘car’ > library(boot) > library(class) > # import data and clean > capstr <- na.omit(capstr) > dim(capstr) [1] 5634 14 > names(capstr) [1] "gvkey" "year" "conm" [4] "spquality" "industry" "leverage" [7] "logassets" "rdta" "cashta" [10] "divta" "taxes" "capexta" [13] "roa" "leverageincrease" > #inspect your data > mean(capstr$leverage) [1] 0.3427896 > median(capstr$leverage) [1] 0.3278918 > sd(capstr$leverage) [1] 0.2064969 > #histograms of variables of interest > hist(capstr$leverage) > hist(capstr$logassets) > #linear regression of leverage > lm.fit1 <- lm(leverage~logassets, data=capstr) > summary(lm.fit1) Call: lm(formula = leverage ~ logassets, data = capstr) Residuals: Min 1Q Median 3Q Max -0.36522 -0.14258 -0.01556 0.11545 1.50374 Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) 0.250999 0.019425 12.922 < 2e-16 *** logassets 0.010638 0.002228 4.773 1.86e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.2061 on 5632 degrees of freedom Multiple R-squared: 0.004029, Adjusted R-squared: 0.003853 F-statistic: 22.79 on 1 and 5632 DF, p-value: 1.857e-06 > plot(lm.fit1) Hit <Return> to see next plot: #training test split Hit <Return> to see next plot: train<-(capstr$year<2018) Hit <Return> to see next plot: test <- capstr[!train,] Hit <Return> to see next plot: lm.fit3 <- lm(leverage~logassets, data=capstr, subset=train) > mean((test$leverage-predict(lm.fit3, test))^2) [1] 0.06209251 > #multiple regression > lm.fit5 <- lm(leverage~logassets+capexta+rdta+taxes+spquality+divta+cashta, data=capstr, subset=train) > summary(lm.fit5) Call: lm(formula = leverage ~ logassets + capexta + rdta + taxes + spquality + divta + cashta, data = capstr, subset = train) Residuals: Min 1Q Median 3Q Max -0.49552 -0.11788 -0.01290 0.09373 1.30077 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.215996 0.034405 6.278 4.08e-10 *** logassets 0.009444 0.003231 2.923 0.003496 ** capexta -0.478974 0.130314 -3.676 0.000243 *** rdta -0.872677 0.097419 -8.958 < 2e-16 *** taxes -1.175891 0.591416 -1.988 0.046900 * spqualityA- 0.046032 0.021141 2.177 0.029550 * spqualityA+ -0.004828 0.028730 -0.168 0.866567 spqualityB 0.095494 0.018510 5.159 2.69e-07 *** spqualityB- 0.093547 0.018623 5.023 5.47e-07 *** spqualityB+ 0.110354 0.018303 6.029 1.91e-09 *** spqualityC 0.194454 0.019839 9.801 < 2e-16 ***

spqualityD 0.384456 0.037757 10.182 < 2e-16 *** divta 0.880130 0.171596 5.129 3.15e-07 *** cashta -0.268161 0.034545 -7.763 1.24e-14 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.1842 on 2324 degrees of freedom (4662 observations deleted due to missingness) Multiple R-squared: 0.1952, Adjusted R-squared: 0.1907 F-statistic: 43.35 on 13 and 2324 DF, p-value: < 2.2e-16 > mean((test$leverage-predict(lm.fit5, test))^2) Error in eval(predvars, data, env) : object 'capexta' not found > vif(lm.fit5) Error in vif(lm.fit5) : could not find function "vif" > #Add year and industry effects > lm.fit6 <- lm(leverage~logassets+capexta+rdta+taxes+spquality+divta+cashta+factor(industry), data=capstr,subset=train) > summary(lm.fit6) Call: lm(formula = leverage ~ logassets + capexta + rdta + taxes + spquality + divta + cashta + factor(industry), data = capstr, subset = train) Residuals: Min 1Q Median 3Q Max -0.44866 -0.11462 -0.01504 0.09621 1.33151 Coefficients: Estimate Std. Error t value (Intercept) 0.2845002 0.0393679 7.227 logassets 0.0088708 0.0032623 2.719 capexta -0.2056597 0.1439220 -1.429 rdta -0.6576442 0.1036640 -6.344 taxes -0.4173570 0.5933910 -0.703 spqualityA- 0.0365232 0.0208753 1.750 spqualityA+ -0.0006213 0.0282817 -0.022 spqualityB 0.0792077 0.0184534 4.292 spqualityB- 0.0699337 0.0187556 3.729 spqualityB+ 0.0978148 0.0181447 5.391 spqualityC 0.1736531 0.0199029 8.725 spqualityD 0.3608247 0.0373088 9.671

Your preview ends here