Suite

Problèmes longitudinaux avec les données NetCDF

Problèmes longitudinaux avec les données NetCDF


Je cherche des conseils sur le travail avec des ensembles de données mondiales où le GCS a une plage positive (0 degrés à 360 degrés). Les données avec lesquelles je travaille sont des données océanographiques NetCDF et ont des valeurs de coordonnées positives comme mentionné. Lorsqu'il est affiché dans un GCS WGS84 normal dans ArcGIS 10 d'ESRI, il est décalé par rapport aux autres données qui existent dans la plage de -180 à 180. Si je le reprojette, des écarts se produisent autour du premier méridien (principalement en raison de ses origines, parfois aussi loin à 25 degrés W). Ma pensée est de créer un système de projection/coordonnées personnalisé qui a les valeurs positives et j'espère que d'autres ensembles de données du monde se reprojettent très bien à la volée. Quelqu'un voit-il des problèmes avec cela ou a-t-il d'autres solutions? J'espère que cela a du sens. J'apprécie toute aide à l'avance.

** Mise à jour ** Ceci est une capture d'écran d'un ensemble de données de pays avec un graticule en haut pour montrer le CRS normal de GCS. Le simple fait d'importer les données NetCDF telles quelles les apporte, mais les valeurs ne commencent pas avant 20,5 degrés à l'est du méridien principal.

GCS normal http://grafa.co/rnd/img/GCS_Normal.png"> Sorte de GCS reprojeté http://grafa.co/rnd/img/GCS_Other.png"> Sorte de GCS reprojeté http://grafa. co/rnd/img/reprojected.png">


OK, je pense que le problème principal ici est qu'ESRI utilise le centre de la grille pour calculer la position, et quand j'ai écrit les données, j'utilise la valeur en bas à gauche de la cellule pour calculer les données. J'ai résolu ce problème en créant mon fichier netCDF avec une origine de grille X du centre de la première cellule, puis en calculant chaque cellule en l'utilisant comme point de départ. Envoyez-moi une note, dans le chat, si vous souhaitez en discuter davantage, car cela fonctionne maintenant.


Si besoin, vous pouvez facilement convertir vos rasters en -180 180 avec GDAL

http://eloribeiro.wordpress.com/2009/07/08/coverter-imagens-0%c2%ba-360%c2%ba-a-180-180%c2%ba-com-gdal/

(en portugais, vous devrez utiliser Google Translate)


C'est un bug connu maintenant, car nous avons rencontré le même problème. Avec un peu de toing and fromming, qui a fini par me faire envoyer des détails de panopole, pour afficher les données netCDF sans la ligne manquante.

Fait intéressant, cela ne se limite pas uniquement au netCDF. Si vous créez des points, en utilisant les grilles à l'intérieur du netCDF, puis agrégez les points pour construire des polygones, il ne construira pas non plus un polygone sur le méridien principal, ce seront des polygones séparés.

Le bogue est NIM070286 : NetCDF Raster Layer n'affiche pas les données situées le long du méridien principal

J'ai demandé un correctif à ESRI Inc. Je garderai cela comme question favorite et je le mettrai à jour une fois que j'en aurai entendu parler un peu plus. Je suis bientôt en vacances, j'espère que cela arrivera dans les 10 prochains jours.


Intégrer les technologies de données et d'analyse au sein des principales infrastructures de recherche environnementale : défis et approches

Procédure uniforme pour préparer l'analyse des données environnementales.

Feuille de route pour l'harmonisation des technologies connexes entre les infrastructures de recherche.

Un effort de standardisation important est requis pour permettre la réutilisation interdisciplinaire des données.

Les bibliothèques de logiciels spécialisés peuvent combler les lacunes de la normalisation.

L'utilisation de normes Web communes peut catalyser les progrès.


Charlotte Wolter

Charlotte Wolter a été journaliste technologique pendant 25 ans, se concentrant sur les évolutions mondiales des technologies de la communication de 1985 à 2010. Elle est maintenant profondément impliquée dans les SIG open source et open source, en particulier OpenStreetMap, son projet Missing Maps et Maptime. Elle fournit également des services techniques bénévoles à plusieurs organisations à but non lucratif, dont la conférence annuelle des archéologues du sud-ouest, la conférence Pecos, à laquelle elle participe depuis 30 ans. Elle prévoit de présenter aux membres du TEDxUCLA Mapathon le pouvoir dont ils disposent pour changer le monde depuis leurs ordinateurs portables grâce à la cartographie humanitaire.


Ce sont des spécifications que l'utilisateur fournit pour contrôler models2wux .

Paramètre.noms

Un vecteur de caractères de paramètres à traiter selon la convention de métadonnées NetCDF Climate and Forecast (CF) (http://cfconventions.org/),
par exemple. paramètre.names = c("air_temperature", "precipitation_amount") .

Période.de.référence

Un caractère spécifiant la période de référence du changement climatique définie par "de-à" ("AAAA-AAAA"),
par exemple. référence.période = "1961-1990" .

Scénario.période

Un caractère spécifiant la période future du changement climatique définie par "de-à" ("AAAA-AAAA"),
par exemple. scénario.période = "2021-2050" .

Agrégation.temporelle

Une liste nommée contenant les m différents niveaux d'agrégation statistique où les éléments de liste unique sont nommés séquentiellement par stat.level.1, stat.level.2, stat.level.3, . , niveau.stat.m. Chaque stat.level est à nouveau une liste contenant trois éléments : period, statistic et time.series.

Une liste nommée contenant la période d'agrégation temporelle. Le premier niveau d'agrégation (stat.level.1) fait référence au numéro du mois de l'année. Tous les niveaux d'agrégation suivants font référence aux noms de liste du niveau de statistiques précédent (c'est-à-dire la structure imbriquée). Par exemple, dans stat.level.1, les saisons sont définies via
période=liste(DJF=c(12,1,2), MAM=c(3,4,5), JJA=c(6,7,8), SON=c(9,10,11)) .
Les demi-années d'hiver et d'été peuvent alors être définies dans stat.level.2 en se référant aux noms de liste indiqués dans stat.level.1 :
period=list(hiver=c(SON,DJF), été=c(MAM,JJA))

Une chaîne indiquant la statistique utilisée pour agréger les données. La statistique peut être toute statistique connue de R (par exemple, moyenne, somme, quantile).

VRAI ou FAUX indiquant si les séries chronologiques ou les valeurs moyennes climatologiques de la période de référence et future et les signaux de changement climatique correspondants sont calculés.

Sous-régions

Liste nommée contenant des informations sur les régions géographiques. Vous pouvez spécifier les limites en passant

une région rectangulaire à la main

un fichier de formes avec des sous-régions d'intérêt

un fichier NetCDF contenant des sous-régions

Toutes les valeurs de coordonnées de longitude sont forcées dans la plage de -180 à 180 degrés. Si vous souhaitez définir une sous-région contenant le méridien (180,-180), vous devez forcer les valeurs de longitude dans la plage de 0 à 360 degrés, comme cela pourrait être le cas pour le domaine australasien. Cela peut être fait avec le wrap.to -tag (actuellement défini uniquement pour les fichiers de formes).

Un vecteur de la forme c(lon.ouest, lon.est, lat.north, lat.south).
par exemple. Monde = c(-180, 180, 90, -90)

Une liste nommée contenant le répertoire du nom de répertoire des fichiers de formes et le nom des fichiers nom de fichier (sans extension de fichier). Facultatif : si aucun fichier de projection n'est disponible, vous pouvez définir une balise de projection sur
par exemple. projection = "+proj=longlat +ellps=WGS84" .

S'il y a plus de régions définies dans le shapefile, on peut donner des noms spécifiques à la balise subregionnames, par exemple subregionnames = c("South_America", "Central_America") . Cependant, ces régions multiples forment parfois un ensemble. Ensuite, la balise category.variable fusionne les sous-régions avec la même catégorie en une seule sous-région et category.label donne les étiquettes correspondantes. category.label doit être un vecteur nommé, les noms étant les valeurs de catégorie de category.variable et leurs valeurs étant les étiquettes. En omettant le vecteur category.label lors de l'utilisation de category.variable , WUX essaie d'obtenir les noms de category.variable . Notez que la balise subregionnames et la catégorie.label ne doivent pas être utilisées ensemble.

Si vous souhaitez encapsuler vos longitudes dans la grille 0-360 degrés, marquez le vecteur nommé wrap.to = c("my.subregion" = "360") . Exemple:
CORDEX = list(dirname = "/tmp/shapefiles/cordex", filename = "cordex_regions", subregionnames = c("South_America", "Central_America", "North_America", "EU.ENS", "Africa", "West_Asia" , "East_Asia","Central_Asia", "Australasie", "Antarctique", "Arctique", "Mediterranean_domain"), wrap.to = c('Australasie' = "360")) .

Une liste nommée contenant des informations sur le fichier NetCDF définissant la sous-région par une valeur constante (par exemple, tous les pixels signalés par 1 définissent une sous-région). Les noms de la liste doivent être :

fichier subreg. Nom du fichier de sous-régions NetCDF.
sous-reg.dir Chemin d'accès au fichier de sous-régions NetCDF.
grid.file Nom du fichier NetCDF avec les coordonnées de longitude et de latitude du fichier de sous-régions.
grille.dir Répertoire de grid.file .
nom.masque Nom de la variable dans le fichier subreg.file définissant la région.
masque.valeur Valeur de mask.name définissant la région. Si plusieurs régions sont définies, utilisez un vecteur de valeurs pour en analyser un ensemble.

Zone.fraction

En traitant des données maillées, les sous-régions n'arrivent presque jamais à être découpées exactement comme votre sous-région est spécifiée. Si le centroïde d'un seul pixel de données se trouve dans la sous-région, ce point de données sera pris en compte dans l'analyse, sinon le point de données sera considéré comme se trouvant à l'extérieur de la sous-région et défini NA. C'est le comportement par défaut de WUX ( area.fraction = FALSE ). Cependant, pour de très petites sous-régions et/ou une résolution de données très cours, il peut arriver que vous n'obteniez que très peu de points de données, voire aucun.

Cependant, si vous souhaitez prendre chaque pixel de données qui "touche" simplement votre sous-région, utilisez area.fraction . Le centroïde du pixel ne doit pas nécessairement être à l'intérieur de la sous-région pour être pris en compte dans l'analyse. Avec area.fraction = TRUE, WUX fait une moyenne spatiale pondérée de tous ces pixels. Le poids est le rapport entre la zone de pixels située dans la sous-région et la zone de pixels entière. Ainsi, si un quart d'un point de données se trouve dans la sous-région (mais que son centroïde par exemple ne l'est pas), la valeur du pixel des données sera prise en compte et pondérée de 0,25 lors de la moyenne spatiale. Les pixels entièrement couverts dans la sous-région ont un poids 1 . area.fraction est utile si vous avez affaire à de très petites sous-régions et/ou à une faible résolution de données, ce qui ne donne que quelques pixels.

Pondération.spatiale

Lors du calcul de la moyenne des données sur leur composante spatiale, la moyenne arithmétique simple peut entraîner des estimations de surface fortement biaisées. La raison en est la projection géographique des données. Le globe a 360 degrés de long et 180 degrés de latitude. La distance réelle (km) entre latitudes reste la même sur l'ensemble du globe, alors que les distances entre longitudes dépendent de la latitude considérée. Un degré de longitude près de l'équateur représente beaucoup plus de distance (km) qu'un degré en Norvège car les longitudes convergent aux pôles.

Ce fait doit être pris en compte en particulier lorsqu'il s'agit de données globales (par exemple, les GCM). Les données GCM sont généralement (dans WUX jusqu'à présent à 100%) stockées sur une grille rectangulaire lon-lat. Par conséquent, les pôles semblent surproportionnellement grands en superficie. La pratique courante est la pondération en cosinus des latides, ce qui entraîne des poids plus petits près des pôles et des poids plus grands à l'équateur. Voir http://www.grassaf.org/general-documents/gsr/gsr_10.pdf pour plus de détails.

spatial.weighting = TRUE active la pondération en cosinus des latitudes, tandis que l'omission ou la définition de FALSE entraîne une moyenne arithmétique non pondérée (par défaut). Cette option n'est valable que pour les données d'une grille régulière.

Il peut arriver que des tranches de temps de données NetCDF soient manquantes et que l'utilisateur n'en sache rien. La raison de ces artefacts peut être de courtes séries temporelles (par exemple, certains modèles ne projettent que jusqu'en 2035, donc une analyse jusqu'en 2050 serait biaisée) ou simplement des valeurs manquantes en raison de fichiers NetCDF corrompus ou manquants.

Si na.rm = TRUE est défini dans l'entrée utilisateur, les valeurs manquantes sont remplies avec NA, mais les statistiques temporelles sont calculées à l'aide de l'indicateur na.rm = TRUE. na.rm = FALSE conserve les valeurs NA et conduit ainsi à des statistiques NA.

Plot.subregions

Une liste contenant des informations sur le tracé de diagnostic des points de grille dans les sous-régions. png sont générés montrant les points de grille dans une sous-région. La taille des cercles dessinés correspond au facteur de pondération de area.fraction . La liste contient trois éléments : save.subregion.plots , xlim et ylim .

Un caractère contenant uniquement le chemin de sortie car les noms de fichiers sont automatiquement générés via les noms de modèle et de sous-région. Par exemple save.subregion.plots = "/tmp/" enregistrera les tracés dans le répertoire /tmp/ . Si save.subregion.plots n'est pas spécifié, aucun tracé ne sera dessiné !

Un vecteur contenant les limites longitudinales des parcelles. Par exemple xlim=c(10,50) dessine le tracé de 10 à 50 degrés Est. Si xlim n'est pas spécifié, les limites seront automatiquement générées.

Un vecteur contenant les limites longitudinales des parcelles. Par exemple xlim=c(10,50) dessine le tracé de 10 à 50 degrés Nord. Si ylim n'est pas spécifié, les limites seront automatiquement générées.

Facteur pour la taille des points par rapport à la valeur par défaut.

Enregistrer.sous.les.données

Un caractère contenant à la fois le chemin de sortie et le nom du fichier. Par exemple save.as.data = "/tmp/cmip3" enregistrera les fichiers dans le répertoire /tmp/ sous le nom cmip3.csv (data frame contenant les climatologies modèles), cmip3_diff.csv (data frame contenant les différences des climatologies, c'est à dire les signaux de changement climatique) et cmip3.Rdata (un fichier binaire R qui peut être chargé dans la prochaine session R contenant les variables wux.data et wux.data.diff des trames de données analogues aux fichiers csv).

Modèles.climatiques

Un vecteur de caractères contenant les noms des modèles à traiter. Les noms doivent être identiques aux acronymes uniques dans la liste modelinput. Lisez la section suivante si vous souhaitez ajouter un modèle dans le fichier modelinput.


Abstrait

Pour faciliter la mise en œuvre plus large des plateformes de modélisation des écosystèmes et, ainsi, aider à faire progresser la gestion écosystémique des pêches (EBFM) dans le monde entier, des outils fournissant une grande quantité d'intrants aux modèles écosystémiques sont nécessaires. Nous avons développé une application Web fournissant aux modèles d'écosystème OSMOSE des valeurs pour les paramètres trophiques, de croissance et de reproduction dérivées des données de deux systèmes d'information mondiaux (FishBase et SeaLifeBase). Notre application Web guide l'utilisateur à travers des requêtes simples pour extraire des informations des archives de données FishBase et SeaLifeBase, et fournit tous les fichiers de configuration nécessaires à l'exécution d'un modèle OSMOSE. Ici, nous présentons notre application Web et la démontrons pour l'écosystème du West Florida Shelf. Notre architecture logicielle peut servir de base à la conception d'autres applications Web avancées utilisant les données FishBase et SeaLifeBase à l'appui de l'EBFM.


Problèmes longitudinaux avec les données NetCDF - Systèmes d'information géographique

Objectif : Calculer et générer une zone source turbulente maillée en 2D suivant le modèle de zone source analytique de Kormann et Meixner (2000). Visualisez les empreintes dans Google Earth sous forme de fichiers .kml.

Dans le cas d'un paysage avec une répartition homogène des sources (ou puits) en surface, la fonction d'empreinte maillée φ (x,y) montre la fraction de flux turbulent vertical provenant d'une cellule (m^-2) représentant une surface. Plus généralement, les mailles montrent le flux vertical à la surface par unité de source ponctuelle (à la tour), en inversant le temps.

Si la distribution géographique réelle des sources (et des puits) dans la zone de source est connue, alors le flux total mesuré à la tour est la somme du produit de la fonction d'empreinte φ (x,y) et le flux de la maille F (x,y) sur toutes les cellules comme illustré ici (voir aussi Christen et al. 2011 pour un exemple) :

Ce code calcule les champs quadrillés de la fonction d'empreinte φ (x,y) et les écrit dans des fichiers netCDF documentés qui peuvent être ouverts dans la plupart des langages de programmation de haut niveau. La grille dans le fichier est alignée sur le nord géographique et a un domaine défini par l'utilisateur.

Des zones sources individuelles pour un pas de temps peuvent être fusionnées en une zone source cumulative pour créer une climatologie de zone source. Dans une zone source cumulative, pour chaque x et y, l'individu φ (x,y) de chaque pas de temps sont additionnés et divisés par le nombre de pas de temps.

Voici des exemples de zones sources cumulées pour notre tour de flux Vancouver Sunset :

Création de grilles d'empreinte à partir de la ligne de commande

Vous devez soit avoir installé la machine virtuelle IDL gratuite, soit la version de développement complète d'IDL. Les étapes suivantes ont été testées sous UNIX / Mac.

Création et grille d'empreinte individuelle pour un cas à partir de la ligne de commande

Ensuite, vous pouvez appeler IDL en mode d'exécution (sans avoir besoin d'une licence) à partir de la ligne de commande avec les arguments requis suivants :

Les arguments passés via "-args" sont les suivants exactement dans cet ordre et séparés par un espace

  • [Path_to_fpr_write_ncdf.sav] est le chemin d'accès complet au fichier compilé Path-to-fpr_write_ncdf.sav
  • [Path_to_output_file] est le chemin complet du fichier netCDF à écrire
  • [z0] est la longueur de rugosité (en m)
  • [zm] est la hauteur du système de flux au-dessus du sol (en m). Sur une grande rugosité, vous devez entrer la hauteur de mesure effective (z-d), où z est la hauteur au-dessus du sol (en m) et d est la hauteur de déplacement du plan zéro (en m).
  • [u] est la composante longitudinale de la vitesse du vent (im m/s)
  • [wd] direction du vent (de geogr. N)
  • [sig_v] est l'écart type de la vitesse latérale du vent (im m/s)
  • [L_input] est la longueur d'Obukhov (en m)

Il existe des commandes facultatives supplémentaires comme suit

  • [XD] Distance maximale sur laquelle la grille du modèle (en m) doit s'étendre en amont du capteur (par défaut 1000 m)
  • [YD] Distance maximale à laquelle la grille du modèle (en m) doit s'étendre latéralement par rapport à l'axe central (par défaut 500 m).
  • [OD] : La taille totale du domaine en m pour la sortie du fichier netCDF, où le système de flux sera au centre (c'est-à-dire que la taille du domaine sera domain_output x domain_output)
  • [grille] résolution des cellules de la grille en m (par défaut 5 m)
  • [dateheure] : double. date et heure de l'empreinte comme date julian. Ceci est écrit dans le fichier netCDF à des fins de documentation.
  • texte [site]. nom du site/système. Ceci est écrit dans le fichier netCDF à des fins de documentation.
  • texte [fuseau horaire]. fuseau horaire des informations de temps. Ceci est écrit dans le fichier netCDF à des fins de documentation.
  • [fournisseur] texte. fournisseur de données ou exploitant du site. Ceci est écrit dans le fichier netCDF à des fins de documentation.

Voici un exemple développé

Assurez-vous qu'il n'y a pas d'espace dans le nom de la station ou le chemin du fichier.

Agrégation de plusieurs grilles d'empreinte individuelles dans un fichier cumulatif à partir de la ligne de commande

Sur la ligne de commande, écrivez simplement

Cela ouvrira l'interface utilisateur pour sélectionner plusieurs fichiers d'entrée (à partir d'une liste de fichiers) et déterminer le nom et l'emplacement du fichier de sortie.

Tout programme capable de gérer les netCDF devrait être capable de lire les fichiers de sortie.

Pour les lire en IDL, vous pouvez utiliser mon code ncdf2struct.pro facile à manipuler ou mes fonctions natives.

Pour Matlab, voir fonctions natives : ouvrez netcdf dans matlab :

Les fichiers de zone source ont les champs suivants dans le netCDF :

Vous pouvez écrire un fichier batch ou utiliser des scripts pour appeler la même ligne avec différents arguments pour traiter de grands ensembles de données et modifier automatiquement les noms de fichiers de la sortie.

Si vous ne pouvez pas exécuter IDL à partir de la ligne de commande, il est possible que la commande IDL ne soit pas définie. Dans ce cas, vous devez d'abord configurer manuellement votre commande IDL en tapant dans le terminal :

Ensuite, déconnectez-vous et reconnectez-vous à votre compte.

Ce code compilé calcule la zone de source de flux (« empreinte ») pour un pas de temps donné dans une version maillée pour un domaine donné, fait ensuite pivoter la sortie en vent moyen et écrit un raster référencé géographiquement dans un fichier netCDF. Il peut être appelé à partir de la ligne de commande comme indiqué ci-dessus.

Ce code agrège un fichier de zone de source de flux cumulé (« empreinte ») en faisant la moyenne de plusieurs fichiers d'empreinte individuelle sur plusieurs pas de temps. Les fichiers individuels doivent avoir été générés au format netCDF par fpr_write_ncdf.sav et avoir tous les mêmes dimensions. En choisissant sélectivement les fichiers, on peut créer des empreintes cumulatives pour des cas spécifiques (par exemple, la nuit, le jour).

(code source de "fpr_write_ncdf.sav" compilé)

Cette routine calcule la zone de source de flux (« empreinte ») pour un pas de temps donné dans une version maillée, fait ensuite pivoter la sortie en vent moyen et écrit un raster référencé géographiquement dans un fichier netCDF. Ce code appelle le sous-programme fpr_kormann_and_meixner.pro décrit ci-dessous pour effectuer des calculs.

  • nom de fichier : chaîne. chemin. nom de fichier du fichier netCDF dans lequel l'empreinte sera écrite.
  • z_0_input : flottant. rugosité longueur z0 de la surface (en m)
  • z_m_input : flottant. hauteur de mesure effective du système de flux (en m) c'est-à-dire zm = (z-d)
  • u_input : flottant. composante de la vitesse du vent longitudinale mesurée (im m/s)
  • wd_input : flottant. directions du vent en degrés à partir du nord géographique.
  • sig_v_input : flottant. écart type mesuré de la vitesse latérale du vent (im m/s)
  • L_input : flottant. longueur d'Oboukhov mesurée (en m)
  • juliantime : double. heure de l'empreinte comme date julian
  • domain_output : flottant. la taille du domaine en m pour le fichier ncdf, où le système de flux sera au centre (c'est-à-dire que la taille du domaine sera domain_output x domain_output)
  • x_max_input : flottant. distance maximale à laquelle la grille du modèle doit s'étendre en amont du capteur (par défaut 1000 m)
  • y_max_input : flottant. distance maximale à laquelle la grille du modèle doit s'étendre latéralement par rapport à l'axe central (par défaut 500 m). Le domaine total dans la direction y est 2 x y_max_input (par défaut 1000 m)
  • d_input : flottant. résultat des mailles en m (par défaut 5 m)
  • site : chaîne. nom du site/système
  • fuseau horaire : chaîne. fuseau horaire des informations de temps.
  • provider : fournisseur de données ou opérateur de site.

Cette routine calcule la zone de source de flux (« empreinte ») pour un pas de temps donné dans une version maillée en fonction des entrées suivantes :

  • z_0_input : flottant. rugosité longueur z0 de la surface (en m)
  • z_m_input : flottant. hauteur de mesure effective du système de flux (en m) c'est-à-dire zm = (z-d)
  • u_input : flottant. composante de la vitesse du vent longitudinale mesurée (im m/s)
  • sig_v_input : flottant. écart type mesuré de la vitesse latérale du vent (im m/s)
  • L_input : flottant. longueur d'Oboukhov mesurée (en m)
  • x_max_input : flottant. distance maximale à laquelle la grille du modèle doit s'étendre en amont du capteur (par défaut 1000 m)
  • y_max_input : flottant. distance maximale à laquelle la grille du modèle doit s'étendre latéralement par rapport à l'axe central (par défaut 500 m). Le domaine total dans la direction y est 2 x y_max_input (par défaut 1000 m)
  • d_input : flottant. résultat des mailles en m (par défaut 5 m)

La résolution numérique utilisée pour trouver les exposants des lois de puissance pour les profils de diffusivité du vent et des tourbillons (Eq. 39 & 40 dans Kormann & Meixner) ne fonctionne que pour une plage typique de paramètres d'entrée. Il est possible qu'aucune solution ne soit trouvée pour un cas.

La grille est alignée dans la direction moyenne du vent.

La sortie comprend dans une structure :

(code source de "fpr_write_ncdf.sav" compilé)

Ce code agrège un fichier de zone de source de flux cumulé (« empreinte ») en faisant la moyenne de plusieurs fichiers d'empreinte individuelle sur plusieurs pas de temps. Les fichiers individuels doivent avoir été générés au format netCDF par #fpr_write_ncdf# et avoir tous exactement les mêmes dimensions. En choisissant sélectivement les fichiers, on peut créer des empreintes cumulatives pour des cas spécifiques (par exemple, la nuit, le jour).

ncfiles : stringarray. Il s'agit d'un paramètre facultatif qui fournit un tableau de chaînes de chemins à tous les fichiers d'empreintes individuelles qui doivent être agrégés. S'il n'est pas fourni, une boîte de dialogue de fichier invitera l'utilisateur à sélectionner plusieurs fichiers d'empreinte.

outfile. chaîne (chemin). Il s'agit du chemin d'accès au fichier dans lequel le fichier cumulatif (à créer) sera écrit. S'il n'est pas fourni, une boîte de dialogue de fichier invitera l'utilisateur à choisir le nom et l'emplacement de la sortie d'empreinte cumulée.

"la description". chaîne de caractères. Il s'agit d'une description facultative définie par l'utilisation qui permet de placer une description dans la sortie netCDF, par ex. « cas nocturnes ».

Il y a deux options : Visualiser l'empreinte sous forme de carte thermique comme ci-dessus, ou alternativement sous forme de distribution de probabilité cumulative comme ici :

La version compilée peut être appelée comme suit :

Pour le code source, voir la documentation d'en-tête.

Les fichiers Legends sont téléchargés sous les noms legend_contour.kml et legend_heatmap.kml et sont liés aux fichiers empreinte_contour_legend_small.gif et empreinte_legend_small.gif

Kormann, R et Franz X Meixner. 2001. « Un modèle d'empreinte analytique pour la stratification non neutre ». Météorologie de la couche limite 99 (2) : 207-24.

Christen, A, Coops NC, Crawford BC, Kellett R, Liss KN, Olchovski I, Tooke TR, van der Laan M, Voogt JA. 2011. 'Validation des émissions modélisées de dioxyde de carbone d'un quartier urbain avec des mesures directes de covariance de Foucault.' Environnement atmosphérique 45 (33). 6057-69. http://dx.doi.org/10.1016/j.atmosenv.2011.07.040


Introduction

Internet abrite des milliers de centres de données scientifiques ou de référentiels (SDR) aux États-Unis, et on pense qu'un nombre beaucoup plus important sont gérés derrière des pare-feu dans des environnements propriétaires. Jusqu'à récemment, ces sites étaient principalement développés par des entreprises financées par le gouvernement ou dans des domaines spécifiques par des groupes d'utilisateurs auto-sélectionnés et très motivés. On sait peu de choses sur l'univers des SDR et encore moins sur leur durée de vie et leur succès, et même sur la définition appropriée du succès pour un SDR.

Cet article est axé sur l'acquisition d'une première compréhension de l'état des SDR tel qu'il est vu via le Web. Bien que la collaboration scientifique ait toujours impliqué des collectes de données et que le partage de collections numériques ait eu lieu avant l'existence du Web, la prolifération des SDR basés sur le Web signale un changement important dans la façon dont les chercheurs utilisent ces collections numériques. Aujourd'hui, n'importe qui peut créer, contribuer des données, récupérer des données ou annoter des données existantes dans un SDR. Le rapport du National Science Board (NSB) (2005, p. 5) note ce changement fondamental et conclut dans son résumé : « Les collections de données numériques de longue durée sont de puissants catalyseurs de progrès et de démocratisation de l'entreprise de recherche et d'éducation. Cet accès facile et pratique aux SDR offre d'énormes opportunités, similaires à la façon dont la publication Web a décollé aux premiers jours du Web - d'une puissance enivrante et dans laquelle il est facile de se perdre sans l'avantage d'un cadre.

La croissance des SDR arrive juste à temps, alors que la quantité de données et de données de plus en plus « nées numériques » générées par les scientifiques explose. Le « Big Data » (Nature, 2008) est un phénomène du 21e siècle. Avec la disponibilité récente de la collecte de données en temps réel et d'énormes progrès en termes de puissance de calcul et de capacité de stockage, notre capacité à collecter de grandes quantités de données est en plein essor. Ces derniers mois, les discussions dans tous les domaines scientifiques se sont concentrées sur la manière de gérer ces données et de maximiser leur utilisation potentielle tout en minimisant le fardeau de leur maintenance (NSB, 2005 Interagency Working Group on Digital Data [IWGDD], 2009 ). Des efforts comme le projet du génome humain démontrent une nouvelle capacité à collaborer à l'échelle mondiale, mais ces collaborations restent encore assez ancrées dans les domaines scientifiques. Comme le font remarquer Borgman, Wallis et Enyedy ( 2007 ), de nombreux scientifiques ont commencé à adopter le principe du partage des données, mais le processus d'échange de données brutes est encore en train de mûrir.

Les SDR émergents s'appuient sur des idées récentes telles que les collaborations (Wulf, 1989), les shariums (Marchionini, 1998) et la cyberinfrastructure (David, 2004). Ils utilisent des outils pratiques de domaines connexes, y compris les référentiels institutionnels (Eprints, DSpace et Fedora), les bibliothèques numériques et les mondes de l'édition, et l'infrastructure électronique (I Rule Oriented Data Systems ou iRODS et gCube Rajasekar, Moore, Wan et Schroeder, 2009 Aschenbrenner et al., 2008 ). Tentant de gérer des quantités de plus en plus importantes d'informations à partir de types de données disparates, allant des scanners moléculaires aux réseaux de télescopes, les référentiels de données scientifiques ont été décrits comme des opportunités uniques pour la collaboration scientifique. L'importance et l'importance à long terme des DTS ont également attiré l'attention des sociétés commerciales. Ceci est démontré dans des annonces comme celle de Google (Madrigal, 2008), selon laquelle il créera un référentiel de données scientifiques sur le Web en tant que service basé sur le « cloud ». L'intention de Google est d'inclure également la capture de ce que l'on appelle des « données sombres » ou des données qui n'ont peut-être jamais été affinées et/ou publiées. Certes, des rapports récents du NSB et de l'IWGDD suggèrent que les SDR sont un élément essentiel de la nouvelle science et une priorité nationale.

Étant donné que les SDR basés sur le Web sont sur le point de jouer un rôle crucial et que les clés de la durabilité et du succès des SDR restent insaisissables, il est important de les identifier et de les caractériser. Cet article tente de le faire en examinant la description des SDR présentées sur leurs pages Web et en analysant les caractéristiques qui en résultent. Il est particulièrement intéressant d'identifier les groupements de DTS qui ont des caractéristiques similaires. Un cadre résultant déduit de ces données pourrait aider à décrire les différences entre les SDR et aider à élucider les éléments clés de la durabilité et du succès. La présence Web d'un SDR est le « visage » avec lequel le scientifique interagit dans le monde d'aujourd'hui. Ce visage est le principal mécanisme utilisé par le scientifique pour comprendre les objectifs du SDR, pour apprendre à interagir avec lui, et pour soumettre et récupérer des données. Idéalement, pour développer une image complète des SDR, il faudrait comprendre chaque domaine, les scientifiques et leurs comportements informationnels, ainsi que les problèmes organisationnels et le contexte des SDR. Il n'est pas pratique de le faire en profondeur dans tous les domaines. L'approche de cette étude consiste donc à examiner de manière exploratoire 100 SDR Web de plusieurs domaines pour commencer à les comprendre et à rechercher des caractéristiques communes.

Prendre un inventaire d'un important échantillon de commodité (100) de DTS existants

Identifiez les principaux les caractéristiques des DTS

Examiner points communs à travers les DTS

Chercher les tendances au fil du temps en ce qui concerne les DTS

Recherchez les caractéristiques des SDR qui peuvent être en corrélation avec le Succès (Maron, 2008 ) des DTS


Problèmes longitudinaux avec les données NetCDF - Systèmes d'information géographique

Collection d'exemples d'applications SWB version 2.0 fonctionnelles

Ce référentiel contient trois exemples de travail à utiliser avec le code SWB version 2.0. Le premier exemple démontre une application de la méthode de rétention d'humidité du sol FAO-56 en deux étapes et simule les effets de l'irrigation sur les quantités nettes d'infiltration pour les Central Sands, Wisconsin. La deuxième application est un cas de test synthétique visant à démontrer le fonctionnement de la routine de routage de flux. Enfin, la troisième application met en évidence plusieurs ajouts au code SWB d'origine pour permettre la simulation de l'infiltration de filets pour l'île de Maui, à Hawaï.

Chaque exemple de répertoire contient toutes les données météorologiques quotidiennes requises, les entrées du système d'information géographique (SIG), les tables de recherche et les fichiers de contrôle nécessaires pour s'exécuter sur le système local d'un utilisateur. De plus, chaque répertoire d'application contient un dossier "jupyter" qui contient un certain nombre de blocs-notes Jupyter (voir http://jupyter.org/ pour plus d'informations sur Jupyter.) Les blocs-notes Jupyter sont conçus pour fournir des exemples montrant les options de fichier de contrôle, la recherche manipulation de table et traitement de fichier NetCDF.

Les exemples d'applications de ce référentiel ont été sélectionnés pour démontrer les fonctionnalités et l'utilisation du code SWB version 2.0. Ces applications, ainsi que les ensembles de données d'entrée, de recherche et de paramètres ne ne pas représentent les versions officielles de tout travail de projet USGS connexe. Les paramètres du modèle doivent toujours être choisis de manière réfléchie en fonction des conditions locales du site.


Les références

G. Crowley, C.L. Hackert, Quantification de la variabilité du champ électrique à haute latitude. Géophys. Rés. Lett. 28, 2783 (2001)

G. Crowley, A. Reynolds, J.P. Thayer, J. Lei, L.J. Paxton, A.B. Christensen, Y. Zhang, R.R. Meier, D.J. Strickland, Periodic modulations in thermospheric composition by solar wind high speed streams. Géophys. Rés. Lett. 35, L21106 (2008). doi:10.1029/2008GL035745

G. Crowley, D.J. Knipp, K.A. Drake, J. Lei, E. Sutton, H. Lühr, Thermospheric density enhancements in the dayside cusp region during strong BY conditions. Géophys. Rés. Lett. 37, L07110 (2010). doi:10.1029/2009GL042143

D.P. Drob, J.T. Emmert, J.W. Meriwether, J.J. Makela, E. Doornbos, M. Conde, G. Hernandez, J. Noto, K.A. Zawdie, S.E. McDonald, J.D. Huba, J.H. Klenzing, An update to the horizontal wind Model (HWM): the quiet time thermosphere. Earth Space Sci. (2015). doi:10.1002/2014EA000089

J. Goldstein, B.R. Sandel, W.T. Forrester, M.F. Thomsen, M.R. Hairston, Global plasmasphere evolution 22–23 April 2001. J. Geophys. Rés. 110, A12218 (2005). doi:10.1029/2005JA011282

A.E. Hedin et al., Revised global model of thermosphere winds using satellite and ground-based observations. J. Géophys. Rés. 96, 7657 (1991)

J.D. Huba, G. Joyce, Global modeling of equatorial plasma bubbles. Géophys. Rés. Lett. 37, L17104 (2010). doi:10.1029/2010GL044281

J.D. Huba, S. Sazykin, Storm-time ionosphere and plasmasphere structuring: SAMI3-RCM simulation of the March 31, 2001 geomagnetic storm. Géophys. Rés. Lett. 41, 8208 (2014). doi:10.1002/2014GL062100

J.D. Huba, G. Joyce, J.A. Fedder, Sami2 is another model of the ionosphere (SAMI2): a new low-latitude ionosphere model. J. Géophys. Rés. 105, 23,035 (2000)

J. Krall, J.D. Huba, R.E. Denton, G. Crowley, T.-W. Wu, The effect of the thermosphere on quiet time plasmasphere morphology. J. Géophys. Rés. 119, 5032 (2014). doi:10.1002/2014JA019850

J.M. Picone, A.E. Hedin, D.P. Drob, A.C. Aikin, NRLMSISE-00 empirical model of the atmosphere: statistical comparisons and scientific issues. J. Géophys. Rés. 107, SIA15 (2002). doi:10.1029/2002JA009430

L. Qian, A.G. Burns, B.A. Emery, B. Foster, G. Lu, A. Maute, A.D. Richmond, R.G. Roble, S.C. Solomon, W. Wang, The NCAR TIEGCM, in Modeling the Ionosphere-Thermosphere System, éd. by e.J. Huba, R. Schunk, G. Khazanov (Wiley, Chichester, 2014). doi:10.1002/9781118704417.ch7

A.D. Richmond, Ionospheric electrodynamics using magnetic apex coordinates. J. Geomagn. Geoelectr. 47, 191 (1995)

A.D. Richmond, A. Maute, Ionospheric electrodynamics modeling, in Modeling the Ionosphere-Thermosphere System, éd. by e.J. Huba, R. Schunk, G. Khazanov (Wiley, Chichester, 2014). doi:10.1002/9781118704417.ch6

A.D. Richmond, E.C. Ridley, R.G. Roble, A thermosphere/ionosphere general circulation model with coupled electrodynamics. Géophys. Rés. Lett. 19, 601 (1992)

R.G. Roble, E.C. Ridley, A thermosphere ionosphere mesosphere electrodynamics general circulation model (TIMEGCM): equinox solar cycle minimum simulations (30-500 km). Géophys. Rés. Lett. 21, 417 (1994)

R.G. Roble, E.C. Ridley, A.D. Richmond, R.E. Dickinson, A coupled thermosphere/ionosphere general circulation model. Géophys. Rés. Lett. 15, 1325 (1988)

A. Rodger, The mid-latitude trough—revisited, in Midlatitude Ionospheric Dynamics and Disturbances, éd. by e.P.M. Kintner, A.J. Coster, T. Fuller-Rowell, A.J. Mannucci, M. Mendillo, R. Heelis (Am. Geophys. Union, Washington, 2008). doi:10.1029/181GM04

F.D. Wilder, G. Crowley, B.J. Anderson, A.D. Richmond, Intense dayside Joule heating during the April 5, 2010 geomagnetic storm recovery phase observed by AMIE and AMPERE. J. Géophys. Rés. 117, A05207 (2012). doi:10.1029/2011JA017262


4. DISCUSSION AND RECOMMENDATIONS

In this study, we reported a geographically stratified 3-stage (geographic unit, household, and participants) GIS/GPS-assisted sampling method. This method is developed by integrating various reported GIS/GPS-assisted sampling methods ( Chang et al. 2009 Wampler et al. 2013 Escamilla et al. 2014 Haenssgen 2015 Pearson et al. 2015), particularly the methods with a stratified cluster sampling approach ( Cochran 1977 Groves et al. 2009). Innovations include methods to determine residential area and methods for sample weight calculation. Our method enhances existing approaches to drawing probability samples for local, national, cross-national, and global survey studies (Heeringa et al. 2010a Heeringa et al. 2012).

4.1. Strengths of Our Method

Our method is based on sound theories for population and geographic sampling, and has minimal data requirements. Conventional stratified sampling strategies can be used in optimizing geounit allocation to deal with large variations in population density and to increase field-work efficiency ( Cochran 1977). The size of geounits can be determined through pilot testing to ensure adequate household/participant coverage, while taking work efficiency into account ( Chen et al. 2015). The random route method ( Bauer 2016) can be used to ensure an equal probability household sample. Data collected using our method can be analyzed with design-based survey methods ( Kish 1965 Cochran 1977 Lohr 1999 Groves et al. 2009 Heeringa et al. 2010b Valliant et al. 2013b). These methods are available in many software packages, including SUDAAN, SAS, STATA (survey module), SPSS, and “survey” package in R.

Many of the sampling tasks of our method can be implemented on computer with open-source software R and free Google imagery data. A more detailed discussion of the application of our methods is provided in Appendix 3 of the online supplementary material . In addition to general survey studies, the increased efficiency may make our method an option to draw probability samples for studying sudden outbreaks of a disease, such as SARS, Ebola, and Zika.

4.2 Recommendation for Application

GIS/GPS-assisted sampling methods are becoming increasingly available. If a target study population is located in sparsely populated and less developed rural areas, methods with satellite images to identify households for random sampling are a better choice. Typical examples include methods reported by Haenssgen ( Haenssgen 2015), Wampler ( Wampler et al. 2013), and Escamilla and colleagues ( Escamilla et al. 2014). However, if a researcher wants to conduct studies in highly developed urban settings with more complicated residential arrangements, our method would be a better choice than many other methods to ensure probability samples (Landry et al. 2005 Galway et al. 2012 Kondo et al. 2014). To ensure successful application of our method in drawing a probability sample to represent a study population, researchers must pay additional attention to the following three aspects.

The first aspect is related to variations in population density. The fundamental mechanism of our method is to link geographic area with varying population density to households using numerous small geounits for further sampling. Therefore, one natural approach to deal with varying population density is application of the classic stratified sampling strategy to optimize geounit allocation ( Cochran 1977), as have been commonly used in this and other studies ( Galway et al. 2012 Chen et al. 2015). Our method also offers other possibilities to deal with varying population density issues. For example, instead of using a fixed geounit size and sampling grid, with our method researchers can determine the geounit size disproportionate to population density after randomly selecting the pre-determined number of geounits to be selected. Although determination of population density could remain be a challenge resource-limited areas, we may be able to deal with it with satellite imagery that is widely available.

The second aspect is the determination of area size of a geounit. Larger sizes have greater probability of covering an adequate number of households for sampling. However, if a large-sized geounit is randomly selected in a highly populous area, it will prevent researchers from completing the sampling due to high costs of time and money (Landry et al. 2005). We recommend that researchers conduct adequate pilot studies to determine geounit size, considering variations in population density, time, and resources available for sampling.

The third aspect is household selection within a sampled geounit. Although each selected geounit is not large in area size with a relatively fewer number of households, household arrangement can still be complex. In this study, we used the random route approach ( Bauer 2016), by randomly selecting one household as starting point and then following natural order to select other households until the pre-determined number of households was reached. However, our method may lead to biased estimates of parameters that are related to physical distance. This can happen even with carefully planned and well-tested instructions ( Bauer 2016). If conditions permit, an ideal approach would be to list all households in a sampled geounit first and then randomly select the pre-determined number of household for further sampling.

4.3 Limitations and Further Research

In this study, we only demonstrate our method in sampling rural migrants in urban China. A full assessment of the value of our approach requires its application to different populations in diverse geographic and residential settings. Like any multistage sampling method, it is a challenge to ensure an equal probability sample of households. The random route provides a good option, but attention must be paid to instructions to the data collectors and random selection of the starting household ( Bauer 2016). Data on the size of a geographic unit is often not directly available, and can be obtained only through repeated pilot tests. Given large variations in household and population density in urban settings, large variations in estimated sample weights are anticipated. Such variations may reduce the precision of sample estimates.