HW5

pdf

School

University of California, Los Angeles *

*We aren’t endorsed by this school

Course

101C

Subject

Computer Science

Date

Jan 9, 2024

Type

pdf

Pages

Uploaded by ShashvatPatel1234

Homework 4 Neftali Lemus (805105856) 11/3/2021 setwd ( "C:/Users/domin/Desktop/Stats 101C" ) college <- read.csv ( "College Fall 2021.csv" ) dim (college) ## [1] 2000 20 names (college) ## [1] "X" "School.Name" "Private" "Apps" "Accept" ## [6] "Enroll" "Top10perc" "Top25perc" "F.Undergrad" "P.Undergrad" ## [11] "Outstate" "Room.Board" "Books" "Personal" "PhD" ## [16] "Terminal" "S.F.Ratio" "perc.alumni" "Grad.Rate" "Expend" table ( is.na (college)) # Data has no missing values, we can proceed with no issues ## ## FALSE ## 40000 college <-college[, - c ( 1 , 2 , 3 )] #Remove troublesome columns dim (college) ## [1] 2000 17 Question 1 #Split Data into 70% training, 30% testing set.seed ( 1128 ) c.training.i <- sample ( 1 : 2000 , 1400 , replace = F) college.train <- college[c.training.i,] college.test <- college[ - c.training.i,] dim (college.train) ## [1] 1400 17 1

dim (college.test) ## [1] 600 17 a) m1 <- lm (Expend ~ ., data = college.train) pred.train <- predict (m1, newdata= college.train) #Calculating MSE Training MSE.train <- mean ((college.train $ Expend - pred.train) ^ 2 ) MSE.train ## [1] 8423397 #Calculating MSE Test pred.test <- predict (m1, newdata= college.test) MSE.test <- mean ((college.test $ Expend - pred.test) ^ 2 ) MSE.test ## [1] 9658396 b) #Ridge Regression str (college) ## ’data.frame’: 2000 obs. of 17 variables: ## $ Apps : int 1758 14463 838 1127 735 504 280 1373 1455 2379 ... ## $ Accept : int 1485 6166 651 884 423 482 143 1373 1064 2133 ... ## $ Enroll : int 419 1757 159 308 366 185 79 724 452 1292 ... ## $ Top10perc : int 27 60 11 30 20 10 5 6 1 8 ... ## $ Top25perc : int 58 94 25 64 48 36 27 21 16 25 ... ## $ F.Undergrad: int 2041 8544 654 1310 2448 550 327 2754 2632 4283 ... ## $ P.Undergrad: int 174 671 162 766 707 84 110 474 617 2973 ... ## $ Outstate : int 12040 6550 8640 11718 9210 9130 5590 2700 6806 4973 ... ## $ Room.Board : int 4100 4598 3700 7398 3782 3322 2900 2660 2550 3192 ... ## $ Books : int 600 700 400 450 700 450 650 540 350 500 ... ## $ Personal : int 1100 1000 1915 1800 1000 1450 1952 1660 766 1425 ... ## $ PhD : int 92 83 62 73 49 46 53 60 75 56 ... ## $ Terminal : int 96 100 62 87 51 51 63 68 75 65 ... ## $ S.F.Ratio : num 13.2 18 12.2 16.4 39.8 12.6 15.1 20.3 15.1 22 ... ## $ perc.alumni: int 17 15 13 33 15 25 4 29 10 21 ... ## $ Grad.Rate : int 72 80 48 76 34 54 90 52 24 38 ... ## $ Expend : int 9060 8055 7634 8871 6562 8686 4839 4550 6972 4078 ... i= seq ( 10 , - 2 , length= 100 ) lambda.v= 10 ^ i length (lambda.v) 2

## [1] 100 #No missing Values, No factors, Predictors in Matrix, Response in Vector (Data Prep) X <- model.matrix (Expend ~ .,college) Y <- college $ Expend #Fit Ridge Regression Model library (glmnet) ## Loading required package: Matrix ## Loaded glmnet 4.1-2 c.model.ridge <- glmnet (X,Y, alpha = 0 , lambda = lambda.v) # Alpha = 0 gives ridge plot (c.model.ridge) # 16 coefficients survived 0 100 200 300 400 500 -300 -200 -100 0 100 L1 Norm Coefficients 16 16 16 16 16 16 #Find the optimal lambda value via cross validation set.seed ( 1128 ) cv.out.ridge <- cv.glmnet (X,Y, alpha= 0 ) bestlam.cv.ridge <- cv.out.ridge $ lambda.min bestlam.cv.ridge ## [1] 355.5073 3

Your preview ends here