Web系企業に入社して4ヶ月,思うこと
気づいたら1ヶ月記事書いてませんでした.
放置してる間になぜか前の記事がホッテントリに入ってました.な,何を言ってるk(ry
本題.
就活という名の血を血で洗う厳しい競争の末,なんとか希望だったWeb系企業に入社して4ヶ月が経ちました.
現在,夏休みを頂いてゆるゆる暮らしております.
実際に企業に入ってみて,外から見ているだけではわからないような,いいこと悪いこといろいろあったのですが,備忘録も兼ねて文章に残しておこうかと思います. なるべく,自分の学生時代に漠然と考えていた「かいしゃ」のイメージとの比較で書けたらいいなと思っています. なお,実名については一切出す気はありませんので,もし読んでいて何かを察したとしても心の中にとめておいてください…
よかったこと
お金がもらえる
当たり前のことですが非常に大事です.
金銭を得られるということは,生活にある種の自由度が与えられるということであり,例えば,学生時代には行けそうもなかった,6,000円/人の居酒屋とかに行けたりするわけです. これは,その人のメンタリティや,その人が関わるコミュニティの変化にもつながってきます.
また,与えられる金銭が,その人にかかる「責任」への対価であるということも重要です. 遅刻一つ例にとっても,学生時代にはせいぜい怒られて済む問題ですが,企業だとその分確実に給料から引かれ,ヘタをするとクビになる可能性すらあります.よく言われることではあるのでしょうが,自分のやっていることに責任を持つということが,社会人になるということの大きな意味なのかなとは感じました.
コードが書ける
企業を選ぶ時点で,「Excelと戯れるだけでコードを書かない」タイプの企業ではないと思っていましたが,わりとコーディングの機会も多そうで,その点は満足しています.
現在はOJTという形で,PHPとSymfonyを使った小規模開発案件を1つ任されています. やはり,自分が書いたプログラムが世間様にさらされ,サービスとして使われるというのは感慨深いものがありますね.
ちなみに,コーディングスキルそのものについては,研修も含め,誰も教えてくれませんでした. 一応,入社試験にプログラミングの試験が含まれているので,新卒にもある程度のスキルは担保されているのだと思いますが,そういう意味では即戦力を求められているのかなと感じました.*1
向上心の高い人が多い
エンジニアとして最も大切なことは,「今より良い方向へ改善する」という気持ちだと思います. その点,先輩社員の方々は,ただ今のシステムに詳しいだけでなく,常に「次はこれをどうしていったらいいか」を考えられる人たちだと感じました. また,業界柄か,転職によるステップアップを考えている方も多そうでした.
ギャップを感じたこと
コードを書くだけが仕事ではない
これは,企業/部署によって大きく違うと思うので,あまり強く主張できないかもしれないのですが.
自分もITサービスをかじったことがあるのである程度はわかっているつもりなのですが,趣味のコーディングとは異なり,企業でのシステムは「開発してハイ終わり」というわけにはいきません. 作ったものを運用し,適宜改善していくことではじめて,継続的に価値を生み続けられるものになるのです.
私が実際に業務に入ってすぐに感じたのは,「あ,このシステムの仕様全部把握するの無理だ…」ということでした. 企業の規模が大きくなるにつれ,システムの規模も大きくなり,かつ複雑化していきます. 企業としてビジネスを回していく以上,可用性の極めて高いシステム作りをしていく必要があり,そのために,「そのシステムについてはなんでも来いの専門家」というのが絶対に必要になってきます. その「システムの専門家」は,技術的にシステムに詳しいことはもちろん,他部署からのシステムについての質問や改善の要望にも答えないといけませんし,トラブルが発生した時には対処する必要があります.*2 また,退職,休暇など,その「システムの専門家」が会社からいなくなる可能性もあるので,*3他の人を教育する必要もあります. 加えて,システムの全体像に関するドキュメント,仕様書などを書く必要があります. これも,システムが改修されるとすぐに古くなったり,散逸してしまうので,適宜更新していかないといけません. こういった「地味な」運用業務を行うことも,エンジニアとして重要なのだと感じたのは,企業に入って得られた気づきなのかなと思っています.
使える技術の制限
前項で述べたように,ビジネスを回すことを中心にシステムを運用することを考えると,(イケてそうだけど)「信頼できない」技術に手を出すのが怖くなるのも仕方ないのかな,とは思います. それに加え,特に大企業になると,開発に携わる人の技術力・システムへの熟練度もピンキリになってしまいます.*4 そこで,開発ノウハウやライブラリが蓄積されている技術を使うことで,起こる問題を減らすということが行われています.
救いなのは,多くのエンジニアが「それはよくないことだ」と捉えて,常に新技術を使える可能性を模索し続けていることです. 初めは社内ツールなど,比較的影響の少ない所から始めてノウハウを蓄えていき,徐々に本番環境にも適用していくという形が一般的なのかなと思いました.
コミュ力は大事
結局,この記事はこれが書きたかっただけなのかもしれません.
「Web系の技術職なんてコードを書くだけの仕事なのになぜコミュ力が必要なのか」,私もコミュ力を要求する面接を受けながらそう思っていました. しかし,今考えてみると,直属の上司,他チーム,他部署の人たち,などなど,会社内部の様々な人達と関わることが,この仕事の本質なのだろうかとすら感じるようになってきました.
前述の通り,大規模なシステムの全てを理解するということは非常に困難であり,仕様を把握するだけでも,コードから全てを読み解くのは相当の時間を要します. また,その人がいかにスーパーなエンジニアであっても,その企業独自の仕様(自分が経験したものとして,社内ツールの使い方,ドキュメントの場所,サーバの独自仕様とか)については,事前知識として知りようがありません. こういう「外からでは勉強しようのないこと」は,自分が考えていた以上に多かったです. このように,「聞かなければわからないこと」,また「聞かなくてもわかりそうだけど聞いたほうが早いこと」については,さっさと聞いて覚えてしまうことが重要です. また,大きな企業だと,多人数(といってもうちの部署はアジャイルが中心なので10人弱ぐらい)で開発を行ったり,アプリケーション担当とシステム担当が部署的に分かれていたりして,他部署に依頼する形でサーバの設定を行うことなんかも多々あります.
ここで言う「コミュ力」とは,気のおけない友達と楽しくやるための能力ではなく,面識のない人(や苦手な人)と上手くやっていく能力です. *5 一度も話したことのない人に絡みに行くのは,コミュ障の自分には結構つらいものがありましたが,それでも「これも含めて仕事だ」と思うようにすることで,なんとかやっていっています.
番外
可処分時間の大幅な減少
学生時代に比べると,自分の自由にできる時間は感覚的に1/5ぐらいになっていると思います.
定時に働く必要があるのはもちろん,帰ってからも疲れが残っているため,なかなかその後に何かしようという気にもなれません.*6
逆に,土日を有効活用して遊びに行ったり,読書をしたりということは増えたような気がします.
要するに,時間が少なくなった分,メリハリを付ける必要に迫られるわけですね.
何が言いたいかと言うと,もう少し休みをください…
「同世代」コミュニティの崩壊
これもよく言われることですが,10代後半~20代の人間がほとんどを占める大学と比較して,企業では20代以上の様々な世代の人が一緒に働いています. もちろん,Web系企業は比較的「若く」,自分の会社でも40代以上の人はあまり見かけないのですが,それでも話が合わないことが結構あります. これは,友達を探す上で非常に厄介. うーむ,なんとかならんものか…
自分が入社したのはWebサービスを自社で開発,運用しているタイプの大企業であり,「Web系企業」と題するのは主語が大きい気はするのですが,雰囲気は感じ取ってもらえたかと思います.
自分の就活時代を思い出すと,エンジニアとお話させていただく機会は何度かありましたが,このような「ナマの感想」を聞く機会はあまり多くなかったように思います.*7
参考になれば幸いです.
SHIROBAKO 第8巻 (初回生産限定版) [Blu-ray]
- 出版社/メーカー: ワーナー・ブラザース・ホームエンターテイメント
- 発売日: 2015/08/26
- メディア: Blu-ray
- この商品を含むブログを見る
*1:大変な分,子供扱いされずに一人の社員として見てくれるのは嬉しくもあります
*2:トラブルはわりと頻繁に起こります.その際は直接会社へ行くか,リモートで解決することが多いようです
*3:これはWeb系全般に言えることだと思いますが,離職率が高く,本当にぼつぼつ抜けていきます
*4:これに関しては,Web系はまだマシな方だと思います
*5:個人的には,この2つは全く別の能力だと思っています
*6:そこら辺はバイタリティによるのかもしれませんが
*7:先方が話したがらなかったというよりは,こちらの発想力が貧困で,聞きたいことをうまく掘り返せなかったといった方が正しい?
*8:24話の「目先のことばかり考えている時期はもう終わりだよ。そろそろ、少し高い所から遠くを見る時がきたんだよ。」というセリフが本当に刺さります.早くBDで見たいです
言語処理100本ノックを(第5章まで)やってみた
久しぶりに技術関係のネタ書きます.
「言語処理100本ノック」という,自然言語処理関係の問題集があることを知ったので取り組んでみました.
これは,東北大学の乾・岡崎研究室でのプログラミング勉強会にて使われている教材だそうです.
「100本ノック」の言葉通り,100問の問題からなる問題集をこなすことで,自然言語処理に関する基礎力と,プログラミング言語運用能力が同時に培えるようになっています.
こういうものが公開されるとは,「いい時代になったなー」と純粋に思います.
内容は,自然言語処理だけでなく,データベース,機械学習など,今の言語処理関係の研究に必要なスキルがこれ1つで身につくように設計されています.
対象プログラミング言語はPythonのようですが,基本的に他の言語でも問題なく進められるようにはなっていると思います(言語処理に強いプログラミング言語でないと難易度跳ね上がるとは思いますが).
一応,半分(問題49)まで終わらせたので,軽く感想を述べておきたいと思います.*1
Pythonによる実装を
↑に載せています.
第1章: 準備運動
プログラミング言語を用いた文字列操作の経験があれば,この辺はラクラク進められるのではないかと.
個人的に気になるのは,問題04で,元素記号のディクショナリを作るのに,
{'Be': 4, 'C': 6, 'B': 5, 'Ca': 20, 'F': 9, 'S': 16, 'H': 1, 'K': 19, 'Al': 13, 'Mg': 12, 'Ne': 10, 'O': 8, 'Li': 3, 'P': 15, 'Si': 14, 'Ar': 18, 'Na': 11, 'N': 7, 'Cl': 17, 'He': 2}
ではなく,
{'Be': 4, 'C': 6, 'B': 5, 'Ca': 20, 'F': 9, 'S': 16, 'H': 1, 'K': 19, 'Al': 13, 'Mi': 12, 'Ne': 10, 'O': 8, 'Li': 3, 'P': 15, 'Si': 14, 'Ar': 18, 'Na': 11, 'N': 7, 'Cl': 17, 'He': 2}
になってるところ(12番目が"Mi"になってる).
あと,nltk.tokenizeは英文をいい感じにTokenizeしてくれるめちゃくちゃ便利なライブラリなのでみなさん使いましょう…*2
第2章: UNIXコマンドの基礎
言語処理というよりはUnixコマンドを用いたTSVファイルの扱いの練習.
「わざわざスクリプト書かなくてもここまでできるんだー」というのが個人的な学びだった.
sortとuniq -cのコンボとか,cut辺りはググりながら進めたので要復習ですかね.*3
第3章: 正規表現
ここからが本番.
難易度もかなり高くなる.
まず,入力である,イギリスについてのWikipedia記事のソースコードがそこそこ汚いため,MediaWikiの文法通り書いても正規表現にマッチしたりしなかったりするのが苦痛だった.
問題27,28辺りは,期待される出力を出すのが精一杯で,他のWikipedia記事にこのプログラムを適用してもうまくいかないような気がする.
正規表現を使う際は,
RegExr: Learn, Build, & Test RegEx
のように,視覚的にマッチされる文字列が見えるサービスを使って出力を確認しながらやるのが精神的にいいと思う.*4
正規表現のグループ化と最短マッチを初めて使った.
なかなか使いこなせていない部分もあったが,勉強になった.
でも二度とやりたくない.
第4章: 形態素解析
第3章で削られたSAN値を回復するのにちょうどいい箸休めだった.
MeCabはこれまで何度か使った経験があったし,問題も比較的簡単(もちろん頻出な操作だが)だったように思う.
問題37,38,39では,matplotlibを使用した.
Pythonを使ったデータ分析でよく用いられる可視化用のライブラリで,今回初めて利用したが,あまりデザインにこだわらなければすぐにグラフを出力できるような気がした.
これからもデータ分析をやっていきたいと考えているので,ぜひとも習得したい.
あと,今回の実装では,cPickleモジュールを用いて形態素オブジェクトの永続化を行っている.
これは,Python専用のデータ構造で,Pythonオブジェクトであれば簡単に内容の保存,再利用が可能になる.
自分はよくキャッシュの用途でcPickleを用いることが多いですね.
第5章: 係り受け解析
CaboChaを用いて係り受け解析を行った結果をさらに分析していく.
最初,ダウンロードしてきたテキストを
$ curl http://www.cl.ecei.tohoku.ac.jp/nlp100/data/neko.txt | cabocha > neko.txt.cabocha
てな感じでCaboChaにかけたが,
EOS EOS ---D 吾輩は-D 猫である。 EOS 名前は---D まだ-D 無い。 EOS EOS どこで-D 生れたか-----D とんと---D 見当が-D つかぬ。 EOS 何でも-D 薄暗い---D じめじめした-D 所で---D ニャーニャー-D 泣いて---D いた事だけは-D 記憶している。
のように,構文木だけの表示になってしまい(簡易Tree表示というらしい),「ここからどうやって構文解析したらいいんだ」ってなった.
正しくは
$ curl http://www.cl.ecei.tohoku.ac.jp/nlp100/data/neko.txt | cabocha -f1 > neko.txt.cabocha
こう.
これで,
* 0 -1D 0/0 0.000000 一 名詞,数,*,*,*,*,一,イチ,イチ EOS EOS * 0 2D 0/0 -0.764522 記号,空白,*,*,*,*, , , * 1 2D 0/1 -0.764522 吾輩 名詞,代名詞,一般,*,*,*,吾輩,ワガハイ,ワガハイ は 助詞,係助詞,*,*,*,*,は,ハ,ワ * 2 -1D 0/2 0.000000 猫 名詞,一般,*,*,*,*,猫,ネコ,ネコ で 助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ ある 助動詞,*,*,*,五段・ラ行アル,基本形,ある,アル,アル 。 記号,句点,*,*,*,*,。,。,。 EOS * 0 2D 0/1 -1.911675 名前 名詞,一般,*,*,*,*,名前,ナマエ,ナマエ は 助詞,係助詞,*,*,*,*,は,ハ,ワ * 1 2D 0/0 -1.911675 まだ 副詞,助詞類接続,*,*,*,*,まだ,マダ,マダ * 2 -1D 0/0 0.000000 無い 形容詞,自立,*,*,形容詞・アウオ段,基本形,無い,ナイ,ナイ 。 記号,句点,*,*,*,*,。,。,。 EOS EOS
上記のような,「lattice形式」と呼ばれる,計算機で扱いやすい形で解析結果が表示されるようだ.
その後は,わりとサクサク進められたほうだと思うが,問題49だけが,問題の意味を読み解くのに時間を要した.
名詞句(名詞の連続)を含む文節を2つ探す(これらの名詞句が含まれる文節の番号をそれぞれi,jとする.i < j).
文節iが含む名詞句を"X",文節jが含む名詞句を"Y"に,それぞれ置き換える.
文節iから述語(構文木の根)までのパス,文節jから述語までのパスを求め,
- 文節iからのパスが文節jからのパスを完全に包含していれば,文節iから文節jのパスを表示
- そうでない場合は,文節iのみに含まれるパスの要素,文節jのみに含まれるパスの要素,両方のパスが合流してから述語までのパスのそれぞれを,"|"で連結して表示.
という操作を行うのだと思う.
でも,これだと,問題49の例の,
Xは | Yで -> 始めて -> 人間という -> ものを | 見た
Xは | Yという -> ものを | 見た
Xは | Yを | 見た
Xで -> 始めて -> Y
Xで -> 始めて -> 人間という -> Y
Xという -> Y
の最後の3パターンに合わない(Yの後に助詞がつくべき)ので,もし間違ってたら指摘欲しいです…
もちろん,教科書を読むことも重要だと思いますが,こういう風に実装してみることで,より理解が深まる部分もあると思います.
また,実際に研究を進める際にも,プログラミング言語の運用能力はあるに越したことはないと思います.
教材として,重々しい課題というよりは,面白さを重視した設計になっているとは感じたので,一度取り組んでみてはいかがでしょうか?
「きんいろモザイクと英語レッスン」を読んだ
- 作者: きんいろ英語レッスン受講生一同,川合亮平,原悠衣
- 出版社/メーカー: KADOKAWA/中経出版
- 発売日: 2015/04/29
- メディア: 単行本
- この商品を含むブログ (7件) を見る
発売日に買って,「流れに乗り遅れないうちに記事書くぞ~」って感じで1週間ぐらいで読了したまでは良かったのですが,なぜか最近あまり文章を書く気が起こらず,こんな時期になってしまいました.
「きんいろモザイクと英語レッスン」は,アニメ第2期が大人気放送中の「きんいろモザイク」をモチーフとした英語学習本です.
きんモザキャラと一緒に英語が学べる!という触れ込みにまんまと釣られ心惹かれて購入しました.
ご存じの通り,「きんいろモザイク」は,日本の高校にイギリスからの留学生がやってくるお話であり,「異文化交流」が作品テーマの一つになっています. 特にアニメ版では,声優さんが流暢な英語を話すシーンが結構ありますし,もともと英語学習との親和性が高い作品なのではないでしょうか.
この本では,アニメ第1期から印象的なセリフを抜粋し,思い出のシーン画像とともにシノ達が振り返る,という形で話が進んでいきます.
例えば,第1話,アリス(シノのホームステイ時)の"Can I sleep next to you?"から,"Can I?"の使い方を勉強したり,第3話でアリスとカレンが英語で話している時の"Have you already tried Natto?"から,"Have you?"についておさらいしたり.
その後に続く会話では,アリス,カレンが教師役,忍,綾,陽子が生徒役となり,講義が進んでいきます.
しかし,そこはきんモザ,普通のおしゃべりではありません.
相変わらずキンパツのことしか考えてないシノ,そこにツッコまないアリス,陽子のことしか見えてない綾に,とにかくその場をひっかきまわそうとするカレン…
普通にマンガを読む感覚で読み進められました.*1
所々挟まるコラムでは,イギリスの風習や英会話のコツなど,思わず「へー」と言いたくなる知識が載ってました.
アニメ,マンガをモチーフとした参考書は世の中に数多くありますが,*2 どちらかと言うと中高生向けのものが多く,「学習参考書」の側面が強いのではないかと思います.
ですが,この本は,いわゆる「大きなお友達」を対象にしているからか,受験英語というよりは,実際の英会話に重点を置いた構成になっているように感じました.
いい歳したサラリーマンがこの本片手にニヤニヤとしながら勉強してる様子を思い浮かべたらなかなか笑えてきますね(棒読み)
欲を言うなら,せっかく英語の上手い声優集めてるんだし,学習用CDとかつけてほしかったなー,とかですかね.
CV東山奈央の英会話CDとかあったらたぶん毎日聞いてる気がします…
「ネイティブなら子どものときに身につける英会話なるほどフレーズ100」を読んだ
CD付 ネイティブなら子どものときに身につける 英会話なるほどフレーズ100 (スティーブ・ソレイシィの英会話シリーズ)
- 作者: スティーブソレイシィ,ロビンソレイシィ
- 出版社/メーカー: アルク
- 発売日: 2000/04/10
- メディア: 単行本
- 購入: 77人 クリック: 631回
- この商品を含むブログ (47件) を見る
Amazonでそこそこの評価だったので買って読みました.
自分自身,中学から大学院までずっと英語は勉強してきたつもりで,TOEICの点数も800台後半くらいは持ってます.
実際,この本で出てくる表現を見ても,大半が「言われればわかる」というものでした.
でも,いざ英語で誰かと話そうとすると,全く言葉が出てこない.
「これ借りていい?」みたいな簡単な表現すら,頭に浮かんでこないのです.
この本のまえがきには,
日本人は英語になると器用貧乏なのかもしれない
ということが書かれています.
発音や慣用句に関する知識は多くあっても,それを使いこなす基礎的な会話能力についての学習が不十分なため,外国人を目の前にして何もできなくなってしまう,ということです.
このことを著者らは,
道具箱からいったいどれを取り出して、どう使えばいいのかがわからないほど、道具が雑然としまわれている
と表しています.
道具箱の中の道具をどうやって(できるだけ素早く)取り出せばいいのかを考え,実践していくことが,当面の自分の課題なのだと感じました.
この本の特徴は,言葉を覚えたばかりの赤ちゃんが徐々に成長していく過程になぞらえ,非常にシンプルな表現から難しい(といっても中学英語レベルです)ものに進んでいっているという点です.
例えば,最初の"BABY"のチャプターでは,"Here."(はいどうぞ)や,"Not yet."(まだだよ)のような,本当に向こうの子どもが言いそうなフレーズが並んでいます.
こういう簡単な表現を復習することにより,「あまり難しいことを考えなくてもちゃんと受け答えできるんだ」と考えることができるようになりました.
あと,この本では,表現を使うべきシチュエーションについての説明と例文に紙面を割き,文法事項などの他の要素はできるだけ省かれています.
これにより,「話すための英語」の学習に集中することができるようになっていると思います.
特に,(ネイティブと話す際には)微妙なニュアンスの違いなどに注意したいですね.
フレーズの数が100とそれほど多くないため,これだけで「英語が話せるようになる」とは言いがたい部分はありますが,焦点を絞った良書だと思います.
この本を何度も読み返すことで,英語を使いこなすための基礎力をつけていきたいです!
話は少し変わりますが,最近,東京特有の殺人的な通勤電車に押しつぶされながら,TOEIC presents English Upgraderをやっています*1.
TOEICの本家本元が出しているAndroid/iOSアプリで,TOEICテストのPart 3のような,会話を中心としたリスニングの問題を聞くことができます.
各問にスクリプトと解説が付いているだけでなく,全部無料でできるというのが,太っ腹というかなんというかだと思います.
こういうアプリにありがちな広告も,今のところ見かけていないです.
これもおすすめです.
英語の勉強がしたい
GWですが,特にすることもなく実家でゆるりと過ごしております.
どうでもいいですが,繁忙期の夜行バス高すぎです.
本題.
現在,研修でスクラムを用いたチーム開発をしているのですが,言葉の壁が立ちはだかって,十分に相手に意思を伝えられないことがありました*1.
また,配属面談は英語だったのですが,第一志望の部署との面談で「スキルセットは大体うちの部署が欲しい感じだね.後は……イングリッシュかな」と言われてわりとガチ凹みしました*2.
今まで,英検,大学受験,TOEICなどの試験勉強での英語学習はしてきましたが,実際の会話に向けた勉強は全くしてきませんでした.
畳の上の水練という言葉がありますが,私の英語力は,畳の上でフォームを寸分狂いなくチェックし続けた結果のものなのでしょう.
英語を意思疎通のツールとして使うだけなら,"will"と"be going to"の違いなんてどうでもいいのです.
"should"と"ought to"を書き換えられたところで何の意味もないのです.
そんなことよりも,「これから研修で何をやるの?」とか,「その服似合うね」とか,「今週末飲みに行かない?」とかの表現を(できれば反射的に)適切に引っ張り出してきて話せる方が圧倒的に大事です.
"Yes"でも"No"でも"ハロー"*3でもいいから,とにかく自分の意思を英語で伝えられるようになりたい.
そして,それに対する他の人の反応が知りたい.
そのためには,ある程度会話のパターンを覚えることと,とりあえず英語で話しかけて,失敗から学ぶことが必要だと痛感しました.
というわけで,GW前に買った英会話の参考書を読んでいます.
読み終わったら,読書録でも残しておこうかと.
CD付 ネイティブなら子どものときに身につける 英会話なるほどフレーズ100 (スティーブ・ソレイシィの英会話シリーズ)
- 作者: スティーブソレイシィ,ロビンソレイシィ
- 出版社/メーカー: アルク
- 発売日: 2000/04/10
- メディア: 単行本
- 購入: 77人 クリック: 631回
- この商品を含むブログ (47件) を見る
- 作者: きんいろ英語レッスン受講生一同,川合亮平,原悠衣
- 出版社/メーカー: KADOKAWA/中経出版
- 発売日: 2015/04/29
- メディア: 単行本
- この商品を含むブログ (6件) を見る
近況
お久しぶりです.
最近いろんなことが怒涛の勢いで押し寄せてきて全く更新ができていませんでしたが,少し落ち着いたので,軽くまとめておきたいと思います.
3月
卒業が確定したようなので,月初めに1週間ほど卒業旅行に行きました.
行き先はイタリアでした.
これに関しては,ヒマさえあればまとめたいような気もしています.
帰ってきた後は,学会発表しながら論文提出してました.
論文のターゲットは日本の学会のはずなのに,なぜか英語で執筆しました.
通ってるといいな……
大学院を卒業しました.
授業,就活,研究であっという間でしたが,充実した2年間でした.
引っ越しました.
東京住まいです.
駅近ですが家賃高いです.
4月
就職しました.
一応「大手」と言っていい感じのIT企業です.
現在研修中です.
アニメ見るヒマがなくてつらい……
年度初めに立てた2週間おき更新ルールを最後の最後で守れなかったのですが,ネットが使えないのは仕方ないですよね(言い訳
今後は2週間おきだと辛いですが,何かあれば(不定期に)このブログを更新していきたいと思ってます.
よろしくお願いします!
アニメ・声優のデータベースをまとめたかった
この情報は2015年2月現在のものです.
この記事は必要に応じて加筆・修正される可能性があります.
また,Webスクレイピングに関しては,著作権法に抵触しない形で行われる必要があります.
修論の研究の合間にちょくちょく進めてたことを書いときます.
私自身,データを扱う研究室にはいるのですが,あまり大きなデータを扱うような処理を行ったことはなく,そういうことができる機会がないかなと思っていました.
どうせなら,自分が好きな分野で解析ができた方が楽しいだろなーということで,アニメやゲーム,声優あたりのデータ解析をしようと思いました.
その第一段階として,どのようなDBが存在するのかをまとめたので,晒しておこうと思います.
特に,プログラムからの2次利用がしやすいかという観点に着目しています.
網羅度は低いです.
アニメ・声優に関するデータベース
アニメ作品データベース
ざっと探してみたところ,すぐに2次利用できる形でのDBはないようです.
Wikipedia
Wikipediaが日本語化された頃から,アニメに関する記事は多かったような気がします.
基本情報に加え,あらすじや登場人物,放送情報など,多種多様な情報が掲載されています.
強力なDBであることは間違いないのですが,記事にIDなどが振られておらず,URLによるアクセスがしにくいことと,HTMLのエレメントにIDなどが付されていないため,スクレイピングが難しいことなど,2次利用という点ではなかなか使いづらいのではないかと思います.
また,記事による記述量のむらが大きいことも難点です.
.lain
声優と,その出演作品についてのデータベースです.
作品ごとにIDが振ってあり,URLによってアクセスできるなど,比較的2次利用のしやすい形でデータが保存されています.
アニメ作品に関して使えるデータとしては,スタッフとキャストなど,最低限のものに限られますが,網羅率が高く,現在も更新が続いているので,なかなかいい情報源なのではないかと思います.
作品データベース
こちらは,アニメだけでなく,ゲームやマンガ,映画など,様々な媒体のデータを保持しています.
こういう「何でもDB」にありがちな網羅率の低さもなく,制作会社の情報も確認できるみたいですが,URLによるアクセスがしにくいことと,フォーマットがまちまちのため,2次利用という点ではマイナスです.
アニメ放送情報データベース
アニメ番組表 API
各都道府県ごとに,アニメの放送時間,放送局などが閲覧できます.
このサービスの強い点は,なんと言っても,WebAPIによる外部からのアクセスが可能な点です.
XML,JSONといったおなじみのフォーマットで,放送情報を取得することができます.
速報性に乏しいという弱点があるようですが,十分に使えるサービスだと思います.
しょぼいカレンダー
タイムテーブルの形式で,アニメの放送情報を閲覧することができます.
情報が見やすい形に整えられていることと,放送時間変更などの情報も比較的早く反映されるため,私も普段のアニメ放送情報を調べるのに使っています.
また,再放送の情報や,一部のオタク向け番組の情報なんかも追われているようです.
2次利用という観点からだと,HTMLのエレメントにID等は振られているので,利用は可能ですが,そこまで適した形というわけでもないようです.
声優データベース
Wikipedia
声優に関しても,アニメとほぼ同様のことが言えます.
一応,アニメに比べると記載する内容がある程度限られるため,うまくCSSセレクタなどのルールを作成すれば,出演作品リストぐらいは機械的に取得可能かなと思います.
.lain
声優に関しても,.lainは強力なDBだと思います.
誕生日や年齢といった基本情報や,共演情報の検索なんかもできたりします.
シゲムラさん
声優のブログ,Twitterなどのアンテナを掲載しています.
速報性に関しては,こちらの方が上かもしれません.
まあ,少なくともTwitterに関しては自分でアカウントを作って直接フォローした方が早いという説もありますが…
まだまだサーベイが足りてないと思うので,何か知っているDBがあったら,コメント等で教えていただけると助かりますm(__)m