早くも苦戦
まず企業のIRのpdfからPLとBSのみを取り出す段階を作ろうと思っているのですが、大変です。
まずデータセットを用意しなくてはならないです。
あとPDFと画像ファイルの取り扱い?使い分けが難しいですね。学習させるにはPNGとかにしなくてはならないですし、でも入力は企業のIRの決算短信などのURLを入れるだけにしたい。そこの処理をもっと勉強しなくては。pdfを読み込んで、それを全ページPNGとかに変換し、それをBS、PLのみ選別し、そこからCloudVisionAPIで文字を取得するところまでは頑張りたいですね。そこから表データにするところはまた方法を考えなくてはならないですが。
実働としてはDeelをセットアップするところまでやりました。DeelというのはChainerでできることをもっとお手軽にしようというソフトです。
今日はここまでです。明日はPDFとPNGについて知識を深めようと思います。