ファイルの仕様については特に深く考えず json で良いと思う (階層構造を表現できていればどんな形式でもいい) json を XHR で読みに行って動的に生成するフロントエンド側は15分くらいあれば書けるので、問題はバックエンド