Subscribed unsubscribe Subscribe Subscribe

だらだら書く日記

Qiitaのレベルに満たないので逃げてきました。

早くも苦戦

まず企業のIRのpdfからPLとBSのみを取り出す段階を作ろうと思っているのですが、大変です。

まずデータセットを用意しなくてはならないです。

あとPDFと画像ファイルの取り扱い?使い分けが難しいですね。学習させるにはPNGとかにしなくてはならないですし、でも入力は企業のIRの決算短信などのURLを入れるだけにしたい。そこの処理をもっと勉強しなくては。pdfを読み込んで、それを全ページPNGとかに変換し、それをBS、PLのみ選別し、そこからCloudVisionAPIで文字を取得するところまでは頑張りたいですね。そこから表データにするところはまた方法を考えなくてはならないですが。

 

実働としてはDeelをセットアップするところまでやりました。DeelというのはChainerでできることをもっとお手軽にしようというソフトです。

 

今日はここまでです。明日はPDFとPNGについて知識を深めようと思います。

Remove all ads