#!/bin/bash
#このスクリプトでは、学名を和名に変換するデータベースを生成する。inputするファイルは鹿児島大学の日本産魚類全種リストを用いる(https://www.museum.kagoshima-u.ac.jp/staff/motomura/jaf.html)
#USAGE: bash create_scientificname2japanesename.sh [input.url]
#データベースのダウンロード
wget -O ../db/specieslist.xlsx $1
#xlsx2csvのインストール
pip install --user xlsx2csv
#xlsxをcsvに変換し、学名と和名だけを抽出。
#学名に関して、属名と種小名の2単語のみを抽出したDBの作成
xlsx2csv ../db/specieslist.xlsx |awk -F"," '{if($4!="和名なし")print $4"\t"$5}'|awk -F"\t" '{gsub("\"","",$2);split($2,array," ");print $1"\t"array[1]" "array[2];}' > ../db/scientificname2japanesename_2words.csv3
#学名に関して、3単語以上の場合においても全てを抽出したDBの作成
xlsx2csv ../db/specieslist.xlsx |awk -F"," '{if($4!="和名なし")print $4"\t"$5}'|awk -F"\t" '{gsub("\"","",$2);print $2;}' > ../db/scientificname2japanesename_complete.csv3
#欠落している種を手動で追加
cat ../db/scientificname2japanesename_2words.csv3 ../db/additional_species_2words.csv > ../db/scientificname2japanesename_2words.csv2
cat ../db/scientificname2japanesename_complete.csv3 ../db/additional_species_complete.csv > ../db/scientificname2japanesename_complete.csv2
#中間ファイルを削除
rm ../db/scientificname2japanesename_2words.csv3 ../db/scientificname2japanesename_complete.csv3