Linksliste Februar
Maurice Renck
Jetzt, wo der Februar eigentlich vorbei ist, wird es wieder einmal Zeit, für unsere kleine Linksammlung. Im Folgenden findet ihr die Links, über die wir im Februar gestolpert sind:
(Almost) Every infrastructure decision I endorse or regret after 4 years running infrastructure at a startup
Jack Lindamood war vier Jahre lang verantwortlich für die Infrastruktur eines Startups. In seinem Artikel bewertet er seine Entscheidungen wie die Nutzung von AWS, EKS, RDS und anderen AWS-Services. Außerdem geht er auf Prozessfragen wie Post-Mortems, Kostenkontrolle und GitOps ein. Schließlich bewertet er Entscheidungen im Bereich SaaS wie die Nutzung von Slack, Notion und Datadog.
Jack verbleibt schließlich mit ein paar Empfehlungen und Warnungen. Eine gute Lektüre für alle, die ähnliche Entscheidungen zu treffen haben.
Webhook Testing Without the Headache: A Developer’s Sanity-Saving Tutorial
Wir alle haben wahrscheinlich immer wieder mit WebHooks zu tun. Oftmals nutzen wir sie einfach und verlassen uns darauf, dass sie funktionieren. Was aber, wenn man WebHooks lokal testen will? Geht das überhaupt?
Percy Bolmér erklärt, wie WebHooks lokal getestet werden können, ohne dass eine öffentliche Domain erforderlich ist. Dazu wird der Dienst Ngrok verwendet. Percy beschreibt zudem, wie WebHooks mit Wiremock simuliert werden können. Letztlich sind wir dann in der Lage, WebHooks sowohl von echten Services als auch simuliert für Tests der eigenen Anwendung lokal empfangen zu können.
Tumblr and WordPress to Sell Users’ Data to Train AI Tools
https://www.404media.co/tumblr-and-wordpress-to-sell-users-data-to-train-ai-tools/
An einem Thema kommen wir aktuell wohl nicht mehr vorbei: AI und LLMs. Die große Frage, die sich derzeit stellt: Dürfen Daten einfach so gesammelt und fürs eigene Produkt verwendet werden?
Samantha Cole berichtet, dass Tumblr und WordPress vorhaben, Nutzerdaten an die AI-Unternehmen Midjourney und OpenAI zu verkaufen, um ihre Tools zu trainieren. Interne Dokumente deuten darauf hin, dass große Mengen an Nutzerinhalten fälschlicherweise für diesen Deal zusammengestellt wurden – auch private und gelöschte Beiträge. Die Plattformen planen eine Out-Out-Möglichkeit, und es ist unklar, ob Nutzerdaten auch rückwirkend gelöscht werden, wenn sie davon Gebrauch machen. Mehrere Journalisten haben Automattic, die Mutterfirma von Tumblr und WordPress, um Stellungnahme gebeten, erhielten aber keine eindeutigen Antworten. Ein spannender wie frustrierender Beitrag zu einem Thema, was uns wohl noch länger beschäftigen wird.
The text file that runs the internet
https://www.theverge.com/24067997/robots-txt-ai-text-file-web-crawlers-spiders
Und wo wir gerade schon beim Thema "Scrapen" sind: Seit 1994 gib es diese kleine Textdatei, mit der man Suchmaschinen und anderen Crawlern verbieten konnte, die eigene Webseite zu indizieren. Das hat bislang zuverlässig funktioniert, bis vor Kurzem. David Pierce erzählt von der Geschichte und der Zukunft der kleinen Textdatei, denn robots.txt beruht weiterhin auf dem Wohlwollen der beteiligten Parteien. Es gibt Forderungen nach strengeren Regeln für das Crawling, da mit KI viel Geld verdient wird. Da stellt sich die Frage, ob die robot.txt diese Wandlung überstehen wird, da sich die Technologien schnell weiterentwickeln.