import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import IsolationForest
from lsst.rsp import get_tap_service

from lsst.daf.butler import Butler
import lsst.geom as geom

from astropy.visualization import LinearStretch, ImageNormalize
import warnings
warnings.simplefilter("ignore", category=UserWarning)

from astropy.stats import sigma_clipped_stats

plt.style.use('tableau-colorblind10')

plot_filter_labels = ['u', 'g', 'r', 'i', 'z', 'y']
plot_filter_colors = {'u': '#56b4e9', 'g': '#008060', 'r': '#ff4000',
                      'i': '#850000', 'z': '#6600cc', 'y': '#000000'}
plot_filter_symbols = {'u': 'o', 'g': '^', 'r': 'v',
                       'i': 's', 'z': '*', 'y': 'p'}

service = get_tap_service("tap")
assert service is not None

ndiasources_min = 10

ndata_thresh = 8

results = service.search("SELECT TOP 1000000 "
                         "ra, decl, diaObjectId, nDiaSources, rPSFluxNdata, "
                         "rPSFluxSigma, rPSFluxLinearSlope, rPSFluxMean "
                         "FROM dp02_dc2_catalogs.DiaObject "
                         "WHERE nDiaSources > "+str(ndiasources_min)+" "
                         "AND rTOTFluxMean < 1e5 " + " "
                         "AND rPSFluxMax < 1e5 " + " "
                         "AND rPSFluxMin > -1e5 " + " "
                         "AND rPSFluxNdata > "+str(ndata_thresh)+" ")
DiaObjs = results.to_table()
df = DiaObjs.to_pandas()
del results

sample = df[[
    'rPSFluxMean',
    'rPSFluxLinearSlope',
    'rPSFluxSigma',
    ]].values

rng = np.random.RandomState(42)

ifo = IsolationForest(max_samples=1000,
                      random_state=rng, n_jobs=1)
ifo.fit(sample)
idx = np.argsort(ifo.score_samples(sample))[:20]

# np.sort(ifo.score_samples(x))[:20]

plt.title('Histogram of Isolation Forest Scores')
plt.hist(ifo.score_samples(sample), bins=50)
plt.yscale('log')
plt.show()

# [df['diaObjectId'][i] for i in idx]

fig, ax = plt.subplots(1, 2, figsize=(12, 5), sharey=False, sharex=False)

params = [
    ('rPSFluxMean', 'rPSFluxLinearSlope'),
    ('rPSFluxMean', 'rPSFluxSigma'),
]

for j, (px, py) in enumerate(params):
    ax[j].plot(df[px], df[py], 'o', ms=1, color='grey', alpha=0.1)
    ax[j].set_xlabel(px)
    ax[j].set_ylabel(py)
    for i in idx:
        ax[j].plot(df[px][i], df[py][i], '*', ms=12, color='red', mec='black')

plt.tight_layout()
plt.show()

fig, ax = plt.subplots(5, 4, figsize=(10, 10), sharey=False, sharex=False)

n = 0
filters = ['r']

for i in range(5):
    for j in range(4):
        results = service.search("SELECT ra, decl, diaObjectId, diaSourceId, "
                                 "filterName, midPointTai, psFlux "
                                 "FROM dp02_dc2_catalogs.DiaSource "
                                 "WHERE diaObjectId = "+str(df['diaObjectId'][idx[n]]))
        results = results.to_table()

        for f, filt in enumerate(filters):
            fx = np.where(results['filterName'] == filt)[0]
            ax[i, j].plot(results['midPointTai'][fx], results['psFlux'][fx],
                              plot_filter_symbols[filt], ms=10, mew=0, alpha=0.5,
                              color=plot_filter_colors[filt])

        ax[i, j].set_title(df['diaObjectId'][idx[n]])

        if i == 4:
            ax[i, j].xaxis.set_label_text('MJD (days)')
        if j == 0:
            ax[i, j].yaxis.set_label_text('psFlux(nJy)')

        n += 1
        del results

plt.tight_layout()
plt.show()

butler = Butler('dp02', collections='2.2i/runs/DP0.2')

def cutout_im(butler, ra, dec, datasettype, visit, detector, cutoutsidelength=51, **kwargs):

    """
    Produce a cutout from a calexp at the given ra, dec position.

    Adapted from cutout_coadd which was adapted from a DC2 tutorial
    notebook by Michael Wood-Vasey.

    """

    dataid = {'visit': visit, 'detector': detector}    
    radec = geom.SpherePoint(ra, dec, geom.degrees)
    cutoutsize = geom.ExtentI(cutoutsidelength, cutoutsidelength)
    wcs = butler.get('%s.wcs' % datasettype, **dataid)
    xy = geom.PointI(wcs.skyToPixel(radec))
    bbox = geom.BoxI(xy - cutoutsize // 2, cutoutsize)
    parameters = {'bbox': bbox}
    cutout_image = butler.get(datasettype, parameters=parameters, **dataid)

    return cutout_image

diff = 'goodSeeingDiff_differenceExp'
difftemp = 'goodSeeingDiff_templateExp'
calexp = 'calexp'

anom_ind = 0
DiaObjID = df['diaObjectId'][idx[anom_ind]]

results = service.search("SELECT ra, decl, diaObjectId, diaSourceId, psFlux, "
                         "psFluxErr, filterName, midPointTai, SNR, ccdVisitId, "
                         "apFlux_flag, centroid_flag, forced_PsfFlux_flag, "
                         "pixelFlags, isDipole, "
                         "scisql_nanojanskyToAbMag(psFlux) AS psAbMag "
                         "FROM dp02_dc2_catalogs.DiaSource "
                         "WHERE diaObjectId = "+str(DiaObjID))
diasrc = results.to_table()

diasrc.sort('midPointTai')
del results

ind_mm = {}
filt_cond = diasrc['filterName'] == 'r'
ind_mm['ind_max'] = np.where(diasrc[filt_cond]['psFlux'] ==
                             np.max(diasrc[filt_cond]['psFlux']))[0][0]
ind_mm['ind_min'] = np.where(diasrc[filt_cond]['psFlux'] ==
                             np.min(diasrc[filt_cond]['psFlux']))[0][0]

plt.figure(figsize=(6, 4))

filters = ['r']
mjds = diasrc[anom_ind]['midPointTai']

results = service.search("SELECT ra, decl, diaObjectId, diaSourceId, "
                                 "filterName, midPointTai, psFlux "
                                 "FROM dp02_dc2_catalogs.DiaSource "
                                 "WHERE diaObjectId = "+str(df['diaObjectId'][idx[anom_ind]]))
results = results.to_table()

for f, filt in enumerate(filters):
    fx = np.where(results['filterName'] == filt)[0]
    plt.plot(results['midPointTai'][fx], results['psFlux'][fx],
    plot_filter_symbols[filt], ms=10, mew=0, alpha=0.5, color=plot_filter_colors[filt])

del(results)

for im_ind in ind_mm:
    plt.axvline(x=diasrc[filt_cond][ind_mm[im_ind]]['midPointTai'], ls='--', color='black')
    
    
plt.title(df['diaObjectId'][idx[anom_ind]])
plt.xlabel('MJD (days)')
plt.ylabel('psFlux (nJy)')

plt.tight_layout()
plt.show()

for im_ind in ind_mm: 
    ind = np.where(diasrc['filterName'] == 'r')[0][ind_mm[im_ind]]
    cutoutsize = 101

    ra = diasrc[ind]['ra']
    dec = diasrc[ind]['decl']
    ccdvisitid = diasrc[ind]['ccdVisitId']
    mag = diasrc[ind]['psAbMag']
    flux = diasrc[ind]['psFlux']

    print('Displaying calexp, difference template, and difference image for diaSource', 
          diasrc[ind]['diaSourceId'], 'from DiaObjectID', DiaObjID)

    visit = str(ccdvisitid)[:-3]
    detector = str(ccdvisitid)[-3:]
    visit = int(visit)
    detector = int(detector)

    mjd = diasrc[ind]['midPointTai']
    filt = diasrc[ind]['filterName']

    print('Visit =', visit, ', Detector = ', detector)

    cutout_diff = cutout_im(butler, ra, dec, diff, visit, detector, cutoutsidelength=cutoutsize)
    cutout_ref = cutout_im(butler, ra, dec, difftemp, visit, detector, cutoutsidelength=cutoutsize)
    cutout_calexp = cutout_im(butler, ra, dec, calexp, visit, detector, cutoutsidelength=cutoutsize)

    fig, axs = plt.subplots(nrows=1, ncols=3, figsize=(16, 6))
    triplet = [cutout_calexp, cutout_ref, cutout_diff]
    titles = ['calexp', 'reference template', 'difference image']
    for i, ax in enumerate(axs.flatten()):
        plt.sca(ax)
        ax.set_xticklabels([])
        ax.set_yticklabels([])
        ax.set_xticks([])
        ax.set_yticks([])
        plt.title('%s' % titles[i], fontsize=18)
        im_arr = triplet[i].image.array
        _, im_arr_med, im_arr_std = sigma_clipped_stats(im_arr)

        minstd = -2
        maxstd = 8
        circle = plt.Circle((cutoutsize/2, cutoutsize/2), 0.5, color='r')
        ax.add_patch(circle)
        norm = ImageNormalize(im_arr-im_arr_med, vmin=minstd * im_arr_std,
                              vmax=maxstd * im_arr_std, stretch=LinearStretch())
        plt.imshow(im_arr, origin='lower', norm=norm, cmap='gray')
        plt.colorbar(fraction=0.046, pad=0.04)

    plt.suptitle('MJD %.2f, Band = %s, psFlux =%.2f nJy, Cutout Size = %.2f arcsec'
                 '\n Flags: apFlux_flag = %s, centroid_flag = %s,'
                 '\n forced_PsfFlux_flag = %s, pixelFlags = %s, isDipole = %s ' 
                 % (mjd, filt, flux, 0.199918 * cutoutsize, diasrc[ind]['apFlux_flag'],
                    diasrc[ind]['centroid_flag'], diasrc[ind]['forced_PsfFlux_flag'],
                    diasrc[ind]['pixelFlags'], diasrc[ind]['isDipole']),
                 y=1.01, fontsize=22)
    plt.show()

Displaying calexp, difference template, and difference image for diaSource 490552385341489231 from DiaObjectID 1737386701560479833
Visit = 913725 , Detector =  21

Displaying calexp, difference template, and difference image for diaSource 506429844884553804 from DiaObjectID 1737386701560479833
Visit = 943299 , Detector =  94

ra = df['ra'][idx[anom_ind]]
dec = df['decl'][idx[anom_ind]]

results = service.search("SELECT ts.ra, ts.dec, ts.host_galaxy, "
                         "ts.is_pointsource, ts.is_variable, ts.truth_type "
                         "FROM dp02_dc2_catalogs.TruthSummary AS ts "
                         "WHERE CONTAINS(POINT('ICRS', ts.ra, ts.dec), "
                         "CIRCLE('ICRS'," + str(ra) + ", "
                         + str(dec) + ", 0.00014)) = 1 ", maxrec=100000)
SrcTruth = results.to_table()
SrcTruth

DiaObject Anomaly Detection in DP0.2¶

1. Introduction¶

1.1. Package imports¶

2. Search for Anomalous DiaObjects using IsolationForest¶

2.1. Create the Rubin TAP Service client and Obtain DiaObject Sample¶

2.2. Run IsolationForest Algorithm¶

2.3. Vizualising the Identified Anomalies¶

2.4. Display the Cutout Images of Anomalous Sources¶

Sec. 2.5 Identifying the Anomalous DiaObject in the TruthSummary Table¶

3. Exercises for the learner¶

ra	dec	host_galaxy	is_pointsource	is_variable	truth_type
deg	deg
float64	float64	int64	int32	int32	int64
63.6675783	-34.3384596	60	1	1	3