attachment:DataFrame.py of Cookbook/DataFrame - SciPy wiki dump (original) (raw)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 46 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 125 126 127 128 129 130 131 133 134 135 137 138 140 141 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 171 172 174 175 176 177 178 180 181 182 183 184 186 187 189 190 191 192 193 195 196 197 198 199 200 201 202 203 205 206 207 208 209 210 211 212 213 214 215 217 218 219 220 221 222 223 224 227 228 229 230 231 232 233 235 236 237 238 239 240 241 242 245 246 247 248 249 250 251 253 254 255 256 257 258 259 260 261 262 263 265 266 267 268 269 270 271 272 273 274 275 277 278 279 280 281 282 283 284 285 286 287 289 290 291 292 293 294 295 296 297 298 299 301 302 303 304 305 306 307 308 309 310 311 313 314 315 316 317 318 319 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 359 360 361 362 363 364 366 367 368 370 372 373 375 376 377 378 379 380 381 382 383 384 385 386 387 388 389 391 392 394 395 396 398 399 400 401 403 404 406 407 408 409 410 411 412 413 414 415 416 417 418 419 420 421 422 423 424 426 427 428 429 431 432 433 434 435 436 437 439 440 441 443 444 445 446 447 450 453 454 455 456 457 458 459 460 461 462 465 466 467 468 469 470 471 472 473 474 475 476 477 478 479 480 481 482 483 484 485 486 487 489 31 import math 32 import sets 33 from scipy import * 34 import Numeric 35 import cStringIO as StringIO 36 import csv 37 class access2000(csv.Dialect): 38 """A dialect to properly interpret Microsoft Access2000 CSV exports for international languages. 39 """ 40 delimiter = ';' 41 quotechar = '"' 42 doublequote = True 43 quoting = csv.QUOTE_NONNUMERIC 44 lineterminator = '\n' 45 skipinitialspace = True 47 class DataFrame: def init(self, value_dict=None, fields_order=None ): if value_dict is None: value_dict = {} self.value_dict = value_dict num_rows = 0 for column in self.value_dict.values(): try: num_rows = max(num_rows,len(column)) except: pass for key in self.value_dict.keys(): if self.value_dict[key] is None: self.value_dict[key] = (None,)*num_rows for field in self.value_dict: if len(self.value_dict[field]) != num_rows: raise ValueError("field %s has wrong number of rows"%str(field)) self.num_rows = num_rows if fields_order is None: self.fields_order = self.value_dict.keys() else: for key in fields_order: assert self.value_dict.has_key(key) self.fields_order = fields_order def copy_empty(self): vd = {} for k in self.value_dict.keys(): vd[k] = None return DataFrame(vd,self.fields_order) def add(self,other): nd = {} for k in other.fields_order: if k not in self.fields_order: raise NotImplementedError("no fix yet for when not all fields are in both frames") for k in self.fields_order: nd[k] = list(self.value_dict[k]) + list(other.value_dict[k]) res = DataFrame(nd,self.fields_order) return res def insert_row(self, value_dict, new_fields_ok=False): if not new_fields_ok: for v in value_dict: assert(v in self.fields_order) for v in self.fields_order: assert(v in value_dict) try: self.value_dict[v].append( value_dict[v] ) except AttributeError: tmp = list(self.value_dict[v]) tmp.append( value_dict[v] ) self.value_dict[v] = tmp self.num_rows += 1 else: all_fields = list(sets.Set(self.fields_order).union(value_dict.keys())) all_fields.sort() all_fields.reverse() for v in all_fields: if v in value_dict: if v not in self.value_dict: self.value_dict[v] = [None]*self.num_rows try: self.value_dict[v].append(value_dict[v]) except AttributeError: tmp = list(self.value_dict[v]) tmp.append( value_dict[v] ) self.value_dict[v] = tmp else: try: self.value_dict[v].append(None) except AttributeError: tmp = list(self.value_dict[v]) tmp.append( None ) self.value_dict[v] = tmp self.fields_order = all_fields self.num_rows += 1 124 def insert_column(self, field_name, values, position='last'): assert len(values) == self.num_rows if position == 'last': self.fields_order.append(field_name) else: self.fields_order.insert(position,field_name) self.value_dict[field_name] = values 132 def drop_column(self, field_name): self.fields_order.remove(field_name) del self.value_dict[field_name] 136 def drop_all_columns_except(self, *field_names): save_names = list(field_names) 139 for field_name in self.fields_order[:]: if field_name not in save_names: self.drop_column( field_name ) 142 def str(self): def cc(s,width=10,just='center'): if len(s) > width: s = s[:width] if just=='center': return s.center(width) elif just=='left': return s.ljust(width) elif just=='right': return s.rjust(width) buf = StringIO.StringIO() print >> buf, cc('',width=5,just='right'), for field in self.fields_order: print >> buf, cc( field), print >> buf for row in range(self.num_rows): print >> buf, cc(str(row),width=5,just='right'), for field in self.fields_order: v = self.value_dict[field][row] if v is not None: v_str = str(v) else: v_str = '' print >> buf, cc( v_str ), print >> buf buf.seek(0) return buf.read() 170 def get_row_dict(self,row_idx): return self[row_idx] 173 def getitem(self, i): result = {} for field in self.fields_order: result[field] = self.value_dict[field][i] return result 179 def getitems(self, idxs): result = [] for i in idxs: result.append( self[i] ) return result 185 def len(self): return self.num_rows 188 def __get_row(self,row_idx): result = [] for field in self.fields_order: result.append( self.value_dict[field][row_idx] ) return result 194 def __get_rows(self,row_idxs): if len(row_idxs) == 0: return rows = [self.__get_row(row_idx) for row_idx in row_idxs] by_col = zip(*rows) result = {} for i,field in enumerate(self.fields_order): result[field] = by_col[i] return result 204 def where_field_cmp(self, field, bool_func_of_value): col = self.value_dict[field] indices = [] for i in range(len(col)): if bool_func_of_value(col[i]): indices.append(i) results = self.__get_rows(indices) if results is not None: return DataFrame(results,fields_order=self.fields_order) else: return None 216 def where_field_equal(self, field, value, eps=None): col = self.value_dict[field] indices = [] if eps is None: for i in range(len(col)): if col[i] == value: indices.append(i) else: 225
226 a = asarray(col) abs_diff = abs(a-value) indices = nonzero( less( abs_diff, eps ) ) results = self.__get_rows(indices) if results is not None: return DataFrame(results,fields_order=self.fields_order) else: return None 234 def where_field_not_equal(self, field, value, eps=None): col = self.value_dict[field] indices = [] if eps is None: for i in range(len(col)): if col[i] != value: indices.append(i) else: 243
244 a = numpy.asarray(col) abs_diff = abs(a-value) indices = numpy.nonzero( numpy.greater_equal( abs_diff, eps ) ) results = self.__get_rows(indices) if results is not None: return DataFrame(results,fields_order=self.fields_order) else: return None 252 def where_field_less(self, field, value): col = self.value_dict[field] indices = [] for i in range(len(col)): if col[i] < value: indices.append(i) results = self.__get_rows(indices) if results is not None: return DataFrame(results,fields_order=self.fields_order) else: return None 264 def where_field_lessequal(self, field, value): col = self.value_dict[field] indices = [] for i in range(len(col)): if col[i] <= value: indices.append(i) results = self.__get_rows(indices) if results is not None: return DataFrame(results,fields_order=self.fields_order) else: return None 276 def where_field_greater(self, field, value): col = self.value_dict[field] indices = [] for i in range(len(col)): if col[i] > value: indices.append(i) results = self.__get_rows(indices) if results is not None: return DataFrame(results,fields_order=self.fields_order) else: return None 288 def where_field_greaterequal(self, field, value): col = self.value_dict[field] indices = [] for i in range(len(col)): if col[i] >= value: indices.append(i) results = self.__get_rows(indices) if results is not None: return DataFrame(results,fields_order=self.fields_order) else: return None 300 def where_field_in(self, field, values): col = self.value_dict[field] indices = [] for i in range(len(col)): if col[i] in values: indices.append(i) results = self.__get_rows(indices) if results is not None: return DataFrame(results,fields_order=self.fields_order) else: return None 312 def enumerate_on(self, field, cmp_func=None): values = self.get_unique_values(field) result_frames = [] values.sort(cmp_func) for value in values: result_frames.append( (value, self.where_field_equal(field,value))) return iter(result_frames) 320 def enumerate_crude_bins(self, field, eps=None, eps_domain='linear'): if eps is None: return self.enumerate_on(field) if eps_domain == 'linear': def filt(x): return x elif eps_domain == 'log10': def filt(x): return numpy.log10(x) else: raise NotImplementedError vs = self.get_unique_values(field) vs.sort() bins = {} current_starter_v = None for cv in vs: if current_starter_v is not None and abs(filt(cv)-filt(current_starter_v))<eps: bins[current_starter_v].append(cv) else: bins.setdefault(cv,[]).append(cv) current_starter_v = cv results = [] keys = bins.keys() keys.sort() for close_v in keys: running_sum = 0 running_n = 0 accum = self.copy_empty() for v in bins[close_v]: add_frame = self.where_field_equal(field,v) n = add_frame.num_rows running_sum += (v*n) running_n += n accum = accum + add_frame avg_value = running_sum/float(running_n) results.append(( avg_value, accum )) return iter(results) 358 def enumerate_crude_2_dims(self, field1, field2, eps1=None, eps2=None, eps1_domain='linear', eps2_domain='linear'): axis1_vs = {} for v,vf in self.enumerate_crude_bins(field1,eps=eps1,eps_domain=eps1_domain): axis1_vs[v] = vf.get_unique_values(field1) 365 axis2_vs = {} for v,vf in self.enumerate_crude_bins(field2,eps=eps2,eps_domain=eps2_domain): axis2_vs[v] = vf.get_unique_values(field2) 369 results = [] 371 v1s = axis1_vs.keys() v1s.sort() 374 v2s = axis2_vs.keys() v2s.sort() for v1 in v1s: for v2 in v2s: this_result = self.copy_empty() for v1r in axis1_vs[v1]: for v2r in axis2_vs[v2]: tmp1 = self.where_field_equal(field1,v1r) if tmp1 is not None: tmp2 = tmp1.where_field_equal(field2,v2r) if tmp2 is not None: this_result = this_result + tmp2 if this_result.num_rows > 0: results.append((v1,v2,this_result)) return iter(results) 390 def mean(self, field): return mean(self.value_dict[field]) 393 def mean_and_std(self, field): values = self.value_dict[field] return mean(values), std(values) 397 def mean_and_sem(self, field): values = self.value_dict[field] n = len(values) return mean(values), std(values)/float(numpy.sqrt(n)) 402 def get_fields(self): return self.fields_order[:] 405 def sort_by(self,field,ascending=True): orig = self.value_dict[field] sorted = list(orig[:]) sorted.sort() if not ascending: sorted.reverse() my_copy = list(orig[:]) new_order = [] for i in range(len(sorted)): sorted_value = sorted[i] index = my_copy.index( sorted_value ) new_order.append( index ) my_copy[index] = int for field in self.fields_order: orig_list = self.value_dict[field] new_list = [] for i in new_order: new_list.append( orig_list[i] ) self.value_dict[field] = new_list 425 def sorted(self,field,ascending=True): result = DataFrame(self.value_dict, self.fields_order) result.sort_by(field,ascending=ascending) return result 430 def get_unique_values(self, field): unique_values = list(sets.Set(self.get_all_values(field))) try: unique_values.sort() except: pass return unique_values 438 def get_all_values(self, field): values = [ v for v in self.value_dict[field] ] return values 442 def write_csv(self,filename,dialect='excel'): writer = csv.writer(open(filename,'w'),dialect=dialect) writer.writerow( self.fields_order ) for i in range(self.num_rows): writer.writerow( self.__get_row(i) ) 448 449 def read_csv(file,header=True,dialect='excel'): if not hasattr(file,'readlines'): 451
452 reader = csv.reader(open(file,"r"),dialect=dialect) else: reader = csv.reader(file,dialect=dialect) split_lines = [ row for row in reader ] if header: fields = split_lines.pop(0) else: num_fields = len(split_lines[0]) num_chars = int(math.ceil(math.log10(num_fields))) name_string = "column%0"+str(num_chars)+"d" fields = [ name_string%(i+1) for i in range(len(split_lines[0])) ] 463
464 for i in range(len(split_lines)): split_line = split_lines[i] for j in range(len(split_line)): value = split_line[j] if value == '': converted_value = None else: try: converted_value = int(value) except ValueError: try: converted_value = float(value) except: converted_value = value split_line[j] = converted_value split_lines[i] = split_line columns = zip(*split_lines) results = {} for i in range(len(fields)): field = fields[i] try: results[field] = list(columns[i]) except IndexError: results[field] = None 488 return DataFrame( results, fields_order=fields )

To refer to attachments on a page, use attachment:filename, as shown below in the list of files. Do NOT use the URL of the

link, since this is subject to change and can break easily.